Analysis: Modeling Air Pollution in the city of Santander (Spain)

We have published a new study entitled “Modeling Air Pollution in the City of Santander (Spain)“, carried out in the context of the project Ciudad2020. In this new document – in a similar way to what we did in our study on noise pollution-, we have focused on presenting the full analysis of real application in the modeling of air pollution in the city of Santander (Spain), which had already been summarily described in our whitepaper on pollution predictive modeling techniques in the sustainable city.

One of the objectives of Ciudad2020 as far as pollution in concerned is to install across the city a wide network of low-cost sensors (with respect to the current model, made of few very expensive and accurate measuring stations). However, at present, the mentioned low-cost sensor network has not been deployed in any city yet, and checking the validity of this model requires data about various pollutants related to an urban center.

cimaThe data used in this analysis are historical data provided by the Environmental Research Centre (CIMA).This entity is an autonomous body of the Government of Cantabria created by law in 1991 and headed by the Ministry of Environment. Its activity is centered on the realization of physico-chemical analyses on the state of the environment and the management of sustainability through Environmental Information, Participation, Education and Environmental Volunteering.

The data set consists of measures taken every 15 minutes between 1/1/2011 and 31/1/2013 by 4 automatic measuring stations of the Air Quality Control and Monitoring Network of Cantabria, which are located in the surroundings of Santander. The values associated to pollutants are the following: PM10 (particles in suspension of size less than 10 microns), SO2 (sulphur dioxide), NO and NO2 (nitrogen oxides), CO (carbon monoxide), O3 (ozone), BEN (benzene), TOL (toluene) and XIL (xylene). In addition, those stations that have a meteorological tower measure the following meteorological parameters: DD (wind direction), VV (wind speed), TMP (temperature), HR (relative humidity), PRB (atmospheric pressure), RS (solar radiation) and LL (precipitation level).

As described in the document, the first step in any modeling study consists in the analysis of data, performed variable by variable and from each measuring station. At least a study of the basic statistics by season (average and standard deviation, median, mode), the distribution of values (histogram) both at global and monthly level and the hourly distribution are requested. The moving average is also analyzed, a statistical feature applicable to the analysis of tendencies which smoothes the fluctuations typical of instant measurements and captures the trends in a given period.


The next step is to analyze how the variables depend on the others, in order to select the set of variables that most governs the behavior of the output variable. For that purpose correlation analysis has been employed, which is a statistical tool that allows measuring and describing the degree or intensity of association between two variables. In particular, Pearson’s correlation coefficient has been used, which measures the linear relationship between two random quantitative variables X and Y.

Analyses of dependencies have been carried out at the same moment of time, in moments of the past, with differentiated values (difference between the concentration level registered for a contaminant in a given moment of time and the level of 30 minutes before, aiming at detecting trends over time regardless of absolute values) and the moving average value of such contaminant considering different time intervals.

The next step is to evaluate a series of algorithms of modeling with monitored learning (prediction, classification) or not monitored (grouping) to draw conclusions about the behavior of pollution variables. The prediction analysis has been focused on Santander’s center, with 1-hour, 2-hour, 4-hour, 8-hour and 24-hour prediction horizons. Then, the models for each pollution variable in all those horizons have been trained and evaluated. Different machine learning algorithms have been trained in each case (variable-prediction horizon combination): M5P, IBk, Multilayer Perceptron, linear regression, Regression by Discretization, RepTree, Bagging with RepTree, etc. The assessment is performed by comparing the mean absolute error of all different prediction methods.


For example, when studying the 8-hour prediction, it can be noticed that the hour of the day becomes more important, since citizens behave cyclically and probably what happens at 7 a.m. (e.g. people go to work) relates to what happens at 3 p.m. (e.g. people come back from work).

The last step of the data mining process according to the CRISP-DM methodology would be the implementation in a system of environmental management for obtaining real-time predictions on the different values of pollutants. This implementation has to consider logically the results and conclusions obtained in the analysis and modeling processes at the time of setting up the deployment and prioritizing possible investments.

The most important thing to emphasize is that the analysis illustrates and details the steps to follow in a project of environmental pollution modeling using data mining, although, logically, the analysis and the concrete conclusions only apply, in general, to the city of Santander. You can access the complete study, more information and demos on our website: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Recognizing entities in a text: not as easy as you might think!

12 diciembre, 2013 Deja un comentario

Entities recognition: the engineering problem

As in every engineering endeavor, when you face the problem of automating the identification of entities (proper names: people, places, organizations, etc.) mentioned in a particular text, you should look for the right balance between quality (in terms of precision and recall) and cost from the perspective of your goals. You may be tempted to compile a simple list of such entities and apply simple but straightforward pattern matching techniques to identify a predefined set of entities appearing “literally” in a particular piece of news, in a tweet or in a (transcribed) phone call. If this solution is enough for your purposes (you can achieve high precision at the cost of a low recall), it is clear that quality was not among your priorities. However… What if you can add a bit of excellence to your solution without technological burden for… free? If you are interested in this proposition, skip the following detailed technological discussion and go directly to the final section by clicking here.

Where difficulties come from?

Now, I will summarize some of the difficulties that may arise when designing an automatic system for “Named Entities Recognition” (NER, in short, in the technical papers). Difficulties may come from two fronts:

  • Do you deal with texts in several languages? Do you know the language of each text in advance?
  • What is the source of the documents or items of text that you have to manage? Do they come from a professional newsroom? Did you ingest them from OCR (Optical Character Recognition) or ASR (Automatic Speech Recognition) systems? Did you catch them with the API of your favorite social network?
  • Do your texts follow strict academic conventions regarding spelling and typography? (i.e. do you always deal with well-written text?)  Did users generate them with their limited and error-prone devices (smartphones)? Did second language speakers or learners produce them?

Designing the perfect NER system: the language nightmare

The previous questions end up in a set of complex challenges:

Eiffel Tower

Eiffel Tower

1. Translingual equivalence:
Problem: When you deal with multilingual content, you are interested in recognizing not language-dependent names, but entities that are designated differently in different languages.
Example: Eiffel Tower (EN), Tour Eiffel (FR) and Torre Eiffel (ES) refer to the very same object.
Solution: You need to use semantic processing to identify meanings, relative to a consistent, language-independent world model (e.g. using ontologies or referring to linked data sources).


Nelson Mandela

2. Intralingual or intratext equivalence:
Problem: For a particular language, texts usually refer to the same entities in different flavors (to avoid repetition, due to style considerations or communication purposes).
Example: Nelson Mandela, Dr. Mandela (depending on the context) and Madiba are recognized by English speakers as the same entity.
Solution: Again, in the general case, you need to link multiword strings (tokens) to meanings (representing real world objects or concepts).

3. Transliteration ambiguity:
Problem: translation of names between different alphabets.
Example: Gaddafi, Qaddafi, Qadhdhafi can refer to the same person.
Solution: It is always difficult to decide the strategy to attach a sense to an unknown word. Should you apply phonetic rules to find equivalents from Arabic or from Chinese? Expressing it otherwise: is the unknown word just a typo, a cognitive mistake, a spelling variant or even an intended transformation? Only when context information is available you can rely on specific disambiguation strategies. For example, if you know or you deduce that you are dealing with a well-written piece of news about Libya, you should surely try to find alternative transliterations from Arabic. This problem is usually treated at dictionary level, incorporating the most widespread variants of foreign names.

George Washington

George Washington

4. Homonyms disambiguation
Problem: Proper names have usually more than one bearer.
Example: Washington may refer to more or less known people (starting by George Washington), the state on the Pacific coast of the USA, the capital of the USA (Washington, D.C.) and quite a few other cities, institutions and installations in the same and other countries. It can even be a metonym for the Federal government of the United States.
Solution: Semantic and contextual clues are needed for proper disambiguation. Are there any other references to the same name (maybe in a more complete form) along the piece of text under scrutiny? Can semantic analysis tell us if we deal with a person (producing human actions) or a place (where things happen)? Can we establish with confidence a geographical context for the text? This could also lead to favorite particular interpretations.

5. Fuzzy recognition and disambiguation:
Problem: in the general case, how to deal with unknown words when you rely on (maybe huge) multilingual dictionaries plus (maybe smart) tokenizers and morphological analyzers?
Example: If you find in an English text the word “Genva”, should you better interpret it as Geneva (in French Genève) or Genoa (in Italian Genova).
Solution: the presence of unknown words is linked most of times to the source of the piece of text that you are analyzing. When the text has been typed with a keyboard, the writer may have failed to type the right keys. When the text comes from a scanned image through OCR, the result can be erroneous depending on image resolution, font type and size, etc. Something similar occurs when you get a text through ASR. The strategy to interpret correctly the unknown word (identifying the meaning intended by the author) implies using metrics for distance between the unknown word and other words that you can recognize as correct. In our example, if the text has been typed with a qwerty keyboard, it seems that the distance between Genva and Geneva involves a single deletion operation, while the distance between Genva and Genoa involves a single substitution using a letter that is quite far apart. So, using distance metrics, Geneva should be preferred. But contextual information is equally important for disambiguation. If our text includes mentions to places in Switzerland, or it can be established as the right geographical context, then Geneva gains chances. Otherwise, if the text is about Mediterranean cruises, Genoa seems to be the natural choice.

Meaning as a Service


Textalytics: semantic technology at your fingertips

Systems or platforms for Content Management (CMS), Customer Relationship Management (CRM), Business Intelligence (BI) or Market Surveillance incorporate information retrieval functionality allowing the search of individual tokens (typically alphanumeric strings) or literals in unstructured data. However, they are very limited in terms of recognition of semantic elements (entities, concepts, relationships, topics, etc.) This kind of text analytics is very useful not only for indexing and search purposes, but also for content enrichment. The final aim of these processes is adding value in terms of higher visibility and findability (e.g. for SEO purposes), content linkage and recommendation (related contents), ads placing (contextual advertisement), customer experience analysis (Voice of Customer, VoC analytics), social media analysis (reputation analysis), etc.

To facilitate the integration of semantic functionality in any software application, Daedalus opened its multilingual semantic APIs to the community through the cloud-based service Textalytics. On the client side, you can send a call (petition) to our service in order to process one item of text (a piece of news, a tweet, etc.): what you get is the result of our processing in an interchange format (XML or JSON). Textalytics APIs offer natural language processing functionality in two flavors:
  • Core APIs: one API call for each single process (extraction of entities, text classification, spell checking, sentiment analysis, content moderation, etc.) Fine tuning is achieved through multiple parameterization. Besides natural language core processing, audio transcription to text is also available, as well as auxiliary functions. Auxiliary APIs are useful, for example, to link entities with open linked data repositories, as DBpedia/Wikipedia, or to guess crucial demographic features (type, gender, age) for a given social media user.
  • Vertical APIs (Media Analysis, Semantic Publishing): one API call provides highly aggregated results (e.g. extraction of entities and topics, plus classification, plus sentiment analysis…), convenient for standard use in a vertical market (media industry, publishing industry…)

To end this post, let me stress other benefits of selecting Textalytics for semantic processing:

  • SDKs (Java, Python, PHP and Visual Basic) are offered for quick integration. Software developers take not more than half an hour to read the documentation and integrate our semantic capabilities in any environment.
  • You can register in Textalytics, subscribe to the API or APIs of your choice, get your personal key and send as many petitions as you want for free, up to a maximum of 500.000 words processed per month. For research, academic or commercial usage. No matter.
  • If you need processing higher volumes of text (exceeding the free basic plan) or in case you require launching more than five API calls per second, you can subscribe at affordable prices. No long-term commitment. Pay per month. Check out our pricing plans.

Curious? Try our demo!
Interested?  Contact us!
Believer? Follow us!

José C. González (@jc_gonzalez)

Whitepaper: “Pollution Predictive Modeling in the Sustainable City”

Recently we have published the whitepaper “Pollution Predictive Modeling in the Sustainable City“, which describes in detail the approach and methodology that we have adopted within the framework of the Ciudad2020 project to perform predictive modeling of environmental pollution levels in the city of the future. Given that the starting point of the analysis is made up of the immense volume of data collected by the network of sensors deployed around the city, both physical sensors and the citizen sensor, this modeling is addressed as a data mining project (data analytics). Therefore, the methodology, techniques and algorithms typical of data mining have been used to process and exploit the information.

crispdmThe term KDD (Knowledge Discovery in Databases) was coined to refer to the (broad) concept of finding knowledge in data and to emphasize the high level application of certain data mining processes. In an attempt at normalizing this process of knowledge discovering, similarly to what it is done in software engineering for standardizing software development, two main methodologies were taken into account: SEMMA and CRISP-DM. Both fix the tasks to perform in each phase described by KDD, assigning specific tasks and defining the expected outcome for each phase. In (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), both implementations are compared and the conclusion is that, although you can draw a parallel between them, CRISP-DM is more complete. In fact, it takes into account also the application of outcomes to the business environment, and, for this reason, it has been adopted for modeling in Ciudad2020.

By collecting different documentary references, the whitepaper presents a detailed description of the CRISP-DM methodology, its objectives, essential phases and tasks. Then, it focuses on describing thoroughly the two application scenarios that have been considered in Ciudad2020 and the pollution modeling process carried out following this methodology: air pollution prediction in the city of Santander (Cantabria, Spain) and noise pollution prediction in the city of Madrid (Spain).

SERENA project (Spanish acronym for Neural Network Statistical Prediction System for Madrid’s Air Quality)

You can find the whitepaper, further information, more documentation and demos on our web page: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Estudio: Modelado de la contaminación ambiental en la ciudad de Santander (España)

Hemos publicado un nuevo estudio titulado “Modelado de la contaminación ambiental en la ciudad de Santander (España)“, realizado en el contexto del proyecto Ciudad2020. En este nuevo documento -de forma análoga a lo que hicimos en nuestro estudio sobre contaminación acústica-, nos hemos centrado presentar el análisis completo de aplicación real en el modelado de la contaminación ambiental en la ciudad de Santander (España), que ya había sido descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Uno de los objetivos de Ciudad2020 en cuanto a contaminación es establecer una red amplia de sensores de bajo coste en la ciudad (frente al modelo actual, de pocas estaciones de medida muy caras y muy precisas). Sin embargo, actualmente, la red de sensores de bajo coste mencionada no está aún desplegada en ninguna ciudad, y para comprobar la validez de este modelo se necesitan datos de distintos contaminantes relacionados con un núcleo urbano.

cimaLos datos utilizados en este estudio son los datos históricos proporcionados por el Centro de Investigación del Medio Ambiente (CIMA). El CIMA es un organismo autónomo del Gobierno de Cantabria dependiente de la Consejería de Medio Ambiente, creado por ley en 1991,y centra su actividad en la realización de análisis físico-químicos sobre el estado del medio ambiente y gestión de la sostenibilidad, a través de la Información Ambiental, de la Participación, de la Educación y del Voluntariado Ambiental.

El conjunto de datos está formado por medidas cuarto-horarias (es decir, 1 medida cada 15 minutos) registradas en las 4 estaciones automáticas de medición de la Red de Control y Vigilancia de la Calidad del Aire de Cantabria que están establecidas en el entorno de la ciudad de Santander (Santander Centro, Tetuán, Cros y Guarnizo), entre el 1/1/2011 al 31/1/2013, de valores asociados a los siguientes contaminantes: PM10 (partículas en suspensión de tamaño inferior a 10 micras), SO2 (dióxido de azufre),NO y NO2 (óxidos de nitrógeno), CO (monóxido de carbono), O3 (ozono), BEN (benceno), TOL (tolueno) y XIL (xileno). Además, aquellas estaciones que disponen de torre meteorológica miden los siguientes parámetros meteorológicos: DD (dirección del viento), VV (velocidad del viento), TMP (temperatura), HR (humedad relativa), PRB (presión atmosférica), RS (radiación solar) y LL (nivel de precipitación).


Según se describe en el documento, el primer paso de cualquier estudio de modelado consiste en el análisis de los datos, realizado variable a variable y en cada estación de medida. En necesario al menos un estudio de los estadísticos básicos por estación (media y desviación típica, mediana, moda), la distribución de valores (histograma) tanto en global como a nivel mensual y la distribución horaria. Además se analiza la media móvil, estadístico aplicable al análisis de tendencias caracterizado por suavizar las fluctuaciones que se producen en mediciones instantáneas y capturar las tendencias existentes en un determinado período.

El siguiente paso es analizar cómo las variables dependen de las demás, con vistas a seleccionar aquel conjunto de variables que más rige el comportamiento de la variable de salida. Para ello se ha empleado el análisis de correlación, que es una herramienta estadística que permite medir y describir el grado o intensidad de asociación entre dos variables. En concreto se ha utilizado el coeficiente de correlación de Pearson, índice que mide la relación lineal entre dos variables aleatorias X e Y cuantitativas.

Se ha realizado un análisis de dependencias en el mismo instante de tiempo, en instantes de tiempo pasado, con valores diferenciados (diferencia del nivel de concentración registrado para un contaminante en un determinado instante de tiempo y el registrado 30 minutos antes: para intentar detectar tendencias a lo largo del tiempo con independencia de los valores absolutos) y con el valor de la media móvil de dicho contaminante considerando diferentes intervalos de tiempo.

El siguiente paso es evaluar una serie de algoritmos de modelado con aprendizaje supervisado (predicción, clasificación) o no supervisado (agrupamiento) para extraer conclusiones sobre el comportamiento de las variables de contaminación. El análisis de predicción se ha centrado en en Santander Centro, con horizontes de predicción a 1 hora, a 2 horas, a 4 horas, a 8 horas y a 24 horas. Se han entrenado y evaluado modelos de predicción para cada una de las variables de contaminación en todos esos horizontes. En cada caso (combinación variable-horizonte de predicción) se han entrenado diferentes algoritmos de aprendizaje automático: M5P, IBk, Multilayer Perceptron, regresión lineal, Regression by Discretization, RepTree, Bagging con RepTree, etc. La evaluación se realiza comparando el error medio absoluto (Mean Absolute Error) de los distintos métodos de predicción.


Por ejemplo, al estudiar la predicción a 8 horas, se ve que la hora del día comienza a cobrar importancia, debido a que los ciudadanos se comportan de forma cíclica y probablemente lo que ocurre a las 7 de la mañana (por ejemplo, se sale a trabajar) tenga relación con lo que ocurra a las 3 de la tarde (siguiendo con el ejemplo, se vuelve de trabajar).

El último paso del proceso de minería de datos según la metodología CRISP-DM sería la puesta en producción en un sistema de gestión medioambiental para la obtención de predicciones en tiempo real sobre los diferentes valores de contaminantes. Esta puesta en producción debe considerar lógicamente los resultados y conclusiones obtenidos en el proceso de análisis y modelado, en la hora de diseñar el despliegue y priorizar las posibles inversiones necesarias.

Lo más importante a destacar es que el estudio ilustra y detalla los pasos a seguir en un proyecto de modelado de la contaminación ambiental empleando minería de datos, aunque lógicamente el análisis y las conclusiones concretas sólo son válidas, en general, para la ciudad de Santander. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

Analysis: Modeling Noise Pollution in the City of Madrid (Spain)

29 noviembre, 2013 3 comentarios

You can now access our analysis about “Modeling Noise Pollution in the City of Madrid (Spain)“. This study was carried out in the context of the Ciudad2020 project as part of our work about pollution predictive modeling in the city of the future, an essential component for the integrated environmental information management system. This document contains the complete study of the second scenario summarized in our whitepaper on the techniques of pollution predictive modeling in the sustainable city [only in Spanish].

Madrid is a noisy city. While the noise is not considered a pollutant as obvious as air pollution by ozone and particles, health risk due to noise in the medium term is far superior to the risk given by the other type of pollution. EU requires Member States to set zonal quality objectives as far as noise is concerned. In Spain limit values are 65 dB during the day and 55 dB at night, although the WHO recommends more stringent values.

Despite the existence of action plans against noise (which can be consulted on the website of the Spanish Acoustic Pollution Information System, SICA), the situation needs to improve further. It is necessary to implement more measures on mobility and work on the control of night-time leisure. In summer 2010, the excessive noise of bars in some streets of Madrid, where overnight it can exceed the allowable levels up to 20 dB, even compelled Madrid’s City Council to close bars an hour earlier. That area of Madrid was declared a Special Acoustic Protection Zone, where they apply a program of specific measures to reduce noise. In addition, in a large city like Madrid, not only residents and their leisure habits are noisy, but also permanent works or heavy traffic emit noise pollution: problems undoubtedly difficult to solve.


In Madrid’s 2006 noise maps issued by the city’s Environment and Mobility Office, it was noted that a significant percentage of the population is exposed to values higher than the quality objectives set out in the regulations: approximately, during the day a 5.7% of the population was exposed to higher than 65 decibel noise, while in the evening this percentage amounted to the 20.2% of people exposed to more than 55 decibels. Madrid’s 2011 strategic map of noise recently posted reflects advances: from 5.6% to 4.1% of the population exposed during the day and from 20.2% to 14.9% at night, although there is still much work ahead (more information).

In our study we present a real and full analysis of noise pollution in the city of Madrid, using historical data from 2012 provided by the Department of Acoustic Control, headed by Madrid’s Environment and Mobility Office. The provided dataset consists of periodic measures, from 1/January/2012 to 31/December/2012, gathered by the 28 automatic measuring stations of the Air Quality Surveillance Network of Madrid’s City Council.

An extensive analysis shows how values evolve over time depending on the areas, and proposes prediction models using data mining techniques and the methodology proposed for pollution modeling in Ciudad2020. With these models it is possible to obtain a short-term prediction (24 hours) with which you could tell when the noise exceeds the limits established by law, and propose measures to mitigate the effects that these situations can have on citizens (headaches, dizziness, anxiety and fatigue, nervousness, stress…).


Although the analysis focuses only on this city and the results are applicable exclusively to it, the most remarkable aspect is that the study thoroughly illustrates the steps to follow in general for pollution modeling in any location. You can access the complete study, more information and demos on our website: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Entendiendo la TV Social con tecnologías de Análisis Semántico y Big Data

25 noviembre, 2013 Deja un comentario

Recientemente hemos participado en la conferencia Big Data Spain con una charla titulada “Real time semantic search engine for social TV streams”. En esta charla resumimos nuestra experiencia en el área de TV Social, donde estamos combinando tecnologías de análisis semántico y de procesamiento de flujos de datos (streams) en tiempo real para entender las redes sociales. 

La TV Social es un fenómeno en claro crecimiento ya que cada vez es más frecuente el uso de redes sociales mientras vemos la televisión. Por ejemplo, Twitter ya reportaba el año pasado que en Reino Unido más de un tercio de todos los comentarios durante el primetime eran sobre lo que pasaba en la pantalla del televisor. Hace semanas, Facebook reivindicaba su lugar en la TV social afirmando que el volumen de comentarios privados sobre TV en su plataforma era 5 veces mayor. Esta red social ha empezado también a ofrecer hashtags e incluso una nueva API, Keywords Insight, para que algunos socios tengan acceso a estadísticas agregadas de las conversaciones dentro de los muros de Facebook.

A medida que el número de usuarios que acaban comentando su programa favorito de TV en las redes sociales con amigos o extraños, las cadenas han empezado a hacer uso de estas herramientas para participar en la conversación. Durante el último año se ha incrementado el número de programas que hacen uso de hashtags oficiales, a veces incluso varios durante una sola emisión. Más allá de la búsqueda del trending topic, los que con mayor éxito han experimentado fomentan incluso la participación de presentadores o actores durante la emisión del programa. En España, “Salvados” o “Pesadilla en la Cocina” son ejemplo de lo primero y la serie “Isabel” para el caso de los actores.   

Aunque no hay nada nuevo en el hecho de socializar alrededor del contenido de la tele, la posibilidad de medir y de destilar estos comentarios sí que es característico del nuevo contexto. Además, esta conversación no se produce al día siguiente sino que su impacto es inmediato. Todo esto se suma para abrir un nuevo abanico de posibilidades para espectadores, radiodifusores y las grandes marcas. Los usuarios han encendido la mecha de la TV Social ya que les conecta con amigos y el resto de la audiencia.  Es a la vez una forma de sentirse parte del programa y al mismo tiempo de involucrarse más. Por tanto, las herramientas que faciliten organizar y comprender la conversación son de especial interés para el espectador social. Para el resto de espectadores, incluso para aquellos que solo participan leyendo, es una forma de generar tanto recomendaciones sociales. Otro uso interesante es que analizar la conversación social permite contextualizar contenido relevante y relacionado con el programa como información sobre los actores, personajes o cualquier otro concepto del que se hable en la pantalla grande.

Por otro lado, comprender la conversación en torno a un programa es de tremenda utilidad para los canales de TV y las marcas que los financian. Las productoras y cadenas pueden medir las preferencias de sus espectadores y los de la competencia, y además en tiempo real, según se está emitiendo. Está información cualitativa permite hacer una lectura mucho más informada de los datos cuantitativos de audiencia. Llegar a los consumidores adecuados y medir el impacto de las campañas de publicidad son solo dos ejemplos de lo que las marcas buscan en la TV social. Por último, no solo se trata de escuchar pasivamente, tanto los programas como los anuncios van a ser cada vez más interactivos y a buscar la participación de los espectadores mediante las redes sociales.  

En nuestra charla, describimos un sistema que combina análisis semántico y tecnologías de big data como una herramienta para sacar partido de las redes sociales. El sistema combina varios componentes de procesamiento de lenguaje natural de Textalytics API junto a una base de datos semi-estructurada, SenseiDB, para proporcionar visualizaciones interactivas de los comentarios de TV sobre la base de la búsqueda semántica, la búsqueda por facetas y un sistemas de analítica en tiempo real.


Mediante el uso de Textalytics API somos capaces de extraer información relevante para la TV social como el sentimiento acerca de una entidad (un programa, actor o deportista) Además, el reconocimiento de entidades y la extracción de información temática nos permite producir trending topics dentro de un programa con una alta correlación con lo que ocurre en pantalla. Estos temas unidos a las facetas online proporcionadas por SenseiDB funcionan como una manera efectiva de organizar la conversación al vuelo. Otras funcionalidades como el reconocimiento de idioma o la clasificación de texto cumplen un papel importante pero oculto y nos ayudan a filtrar el flujo de comentarios de contenido ruidoso.  

El segundo de los componentes esenciales del sistema es SenseiDB, una base de datos semi-estructurada de código abierto que permite ingerir streams y buscarlos en tiempo real, es decir, con baja latencia tanto en la indexación como en la búsqueda. SenseiDB incluye un gran número de tipos de facetas que permiten organizar los metadatos semánticos que extraemos con Textalytics. Con la ayuda de facetas de tipo histograma o rango se pueden realizar incluso ciertas tareas de analítica que incluyen tipos de datos complejos como el tiempo. Además, una de las características más interesantes es que incluye un lenguaje de consulta sencillo e intuitivo, BQL, que es de gran utilidad para el desarrollo iterativo de visualizaciones.

Si te ha parecido interesante, te animo a que le eches un vistazo a la presentación o incluso al vídeo del evento.

Semantic Analysis and Big Data to understand Social TV

25 noviembre, 2013 1 comentario

We recently participated in the Big Data Spain conference with a talk entitled “Real time semantic search engine for social TV streams”. This talk describes our ongoing experiments on Social TV and combines our most recent developments on using semantic analysis on social networks and dealing with real-time streams of data.

Social TV, which exploded with the use of social networks while watching TV programs is a growing and exciting phenomenon. Twitter reported that more than a third of their firehose in the primetime is discussing TV (at least in the UK) while Facebook claimed 5 times more comments behind his private wall. Recently Facebook also started to offer hashtags and the Keywords Insight API for selected partners as a mean to offer aggregated statistics on Social TV conversations inside the wall.

As more users have turned into social networks to comment with friends and other viewers, broadcasters have looked into ways to be part of the conversation. They use official hashtags, let actors and anchors to tweet live and even start to offer companion apps with social share functionalities.

While the concept of socializing around TV is not new, the possibility to measure and distill the information around these interactions opens up brand new possibilities for users, broadcasters and brands alike.  Interest of users already fueled Social TV as it fulfills their need to start conversations with friends, other viewers and the aired program. Chatter around TV programs may help to recommend other programs or to serve contextually relevant information about actors, characters or whatever appears in TV.  Moreover, better ways to access and organize public conversations will drive new users into a TV program and engage current ones.

On the other hand, understanding the global conversation about a program is definitely useful to acquire insights for broadcasters and brands. Broadcasters and TV producers may measure their viewers preferences and reactions or their competence and acquire complementary information beyond plain audience numbers. Brands are also interested in finding the most appropriate programs to reach their target users as well as understand the impact and acceptance of their ads. Finally, new TV and ad formats are already being created based on interaction and participation, which again bolster engagement.

In our talk, we describe a system that combines natural language processing components from our Textalytics API and a scalable semi-structured database/search engine, SenseiDB, to provide semantic and faceted search, real-time analytics and support visualizations for this kind of applications.

Using Textalytics API we are able to include interesting features for Social TV like analyzing the sentiment around an entity (a program, actor or sportsperson). Besides, entity recognition and topic extraction allow us to produce trending topics for a program that correlate well with whatever happens on-screen. They work as an effective form to organize the conversation in real-time when combined with the online facets provided by SenseiDB. Other functionalities like language recognition and text classification help us to clean the noisy streams of comments.

SenseiDB is the second pillar of our system. A semi-structured distributed database that helps us to ingest streams and made them available for search in real-time with low query and indexing times. It includes a large number of facet types that enable us to use navigation using a range of semantic information. With the help of histogram and range facets it could even be overused for simple analytics tasks. It is well rounded with a simple and elegant query language, BQL, which help us to boost the development of visualizations on top.

If you find it interesting, check out our presentation for more detail or even the video of the event.

Últimas tendencias en análisis de datos en Big Data Spain 2013

19 noviembre, 2013 Deja un comentario

logo Big Data SpainLa segunda edición de Big Data Spain, uno de los eventos pioneros en las tecnologías y aplicaciones del procesamiento masivo de datos se celebró el 7 y el 8 de Noviembre en Madrid. El evento que consiguió atraer a más de 400 asistentes, el doble que el año pasado, refleja el creciente interés en estas tecnologías también en España. Daedalus participó con una ponencia donde demostraba el uso de tecnologías de procesamiento de lenguaje natural, Big Data y redes sociales para el análisis en tiempo real de la TV social.

La tecnología de Big Data ha crecido y madurado cuando están a punto de cumplirse 10 años desde la publicación de MapReduce, el modelo de computación masiva y distribuida que marcó su inicio.

Rubén Casado, en una de las charlas más útiles para establecer un mapa del ingente número de proyectos de Big Data y NoSQL definió la historia de la tecnología en tres fases:

  • Procesamiento masivo en batch ( 2003 – ) con exponentes como Hadoop o Cassandra.
  • Procesamiento en tiempo real ( 2010 – ) representado con tecnologías como StormKafka o Samza
  • Procesamiento híbrido ( 2013 – ) que trata de unificar los dos anteriores en un modelo de programación única. Son ejemplos notables Summingbird  o Lambdoop.

Sin duda, la primera hornada de soluciones está lista para la empresa con distribuciones basadas en la pila tecnológica de Hadoop como Cloudera, MapR o HortonWorks. Del mismo modo crece el número de empresas que están integrando u ofrecen servicios de consultoría sobre Big Data en sectores diversos como banca, finanzas, telecomunicaciones o marketing.

Otras tres tendencias claras a nivel tecnológico son:

  • la popularización de sistemas que facilitan la analítica online de grandes volúmenes de datos (Spark, Impala, SploutSQL o SenseiDB)
  • la vuelta de SQL, o al menos de dialectos que reduzcan el tiempo de desarrollo
  • la importancia de la visualización como herramienta para comunicar los resultados de manera efectiva.

Pero, por supuesto, adoptar la filosofía Big Data en una empresa no es una cuestión puramente tecnológica. Requiere de una visión clara de los beneficios que genera basar tu negocio en datos y del valor y el conocimiento que se puede extraer integrando los datos internos y externos. Otro factor importante es contar con profesionales que sepan romper la barrera entre los aspectos más técnicos y los de negocio. En ese sentido cobra especial importancia la figura del científico de datos. Sean Owen de Cloudera la definió como “una persona que entiende la estadística mejor que un ingeniero software y es mejor en ingeniería software que cualquier estadístico”. Sin duda a estas habilidades hay que añadir el conocimiento del negocio y la capacidad para plantear las preguntas adecuadas.

Aunque no todas las opiniones coincidían, la mejor forma de empezar a “hacer Big Data” es poco a poco y abordando proyectos con objetivos de negocio bien definidos. Buenos candidatos para experimentar con la tecnología son aquellos procesos que ya suponen un cuello de botella. En otros casos, sin embargo, la necesidad viene por el lado de innovar, bien mediante la integración de datos externos o el diseño de productos basados en los datos. Buen ejemplo de este caso es la iniciativa de Big Data desde el Centro de Innovación BBVA que proporciona información agregada sobre transacciones de tarjetas de crédito.

TextalyticsPor último, y entroncando con lo que fue nuestra charla, uno de los tipos de fuentes externas donde hay un valor importante es en el uso de datos de las redes sociales. Por su heterogeneidad, se trata de uno de las fuentes de datos que plantea mas retos. Por esta razón, las herramientas de análisis de texto, como Textalytics API, deben formar parte de cualquier estrategia de Big Data ya que nos van a facilitar cruzar información cuantitativa y cualitativa con todo el valor que esto genera.

Si te interesa entrar en más profundidad, los videos de las charlas y los paneles de expertos se encuentran disponibles desde la web de Big Data Spain

Trends in data analysis from Big Data Spain 2013

19 noviembre, 2013 Deja un comentario

logo Big Data Spain

The second edition of Big Data Spain took place in Madrid on last November 7 and 8 and proved to be a landmark event on technologies and applications of big data processing. The event attracted more than 400 participants, doubling last year’s number, and reflected the growing interest on these technologies in Spain and across Europe. Daedalus participated with a talk that illustrated the use of natural language processing and Big Data technologies to analyze in real time the buzz around Social TV.

Big Data technology has matured when we are about to cellebrate its 10th birthday, marked by the publication of the MapReduce computing abstraction that later gave rise to the field.

Rubén Casado, in one of the most useful talks to understand the vast amnount of Big Data and NoSQL project outlined the recent history of the technology in three eras:

  • Batch processing ( 2003 – ) with examples like  Hadoop or Cassandra.
  • Real time processing ( 2010 – ) represented by recent projects like StormKafka o Samza.
  • Hybrid processing ( 2013 – ) which attempts to combine both worlds in an unified programming model like Summingbird  or Lambdoop.

Withouth any doubt, the first era of solutions is enterprise-ready with several Hadoop based distributions like Cloudera, MapR or HortonWorks. Likewise the number of companies that are integrating them or providing consultancy in this field is expanding and reaching every sector from finance and banking to telecomunications or marketing.

Some other technological trends clearly emerged from talk topics and panels:

  • growing number of alternatives to deal online with large volume data analysis tasks (Spark, Impala, SploutSQL o SenseiDB)
  • SQL comeback, or at least as dialects on top of actual systems that made easier to develop and maintain applications
  • the importance of visualization as a tool to communicate Big Data results effectively.

However, adopting Big Data as a philosophy inside your company is not just merely technology. It requires a clear vision of the benefits that grounding all your processes in data may carry, and the value and knowledge that you may obtain by integrating internal and also external data. Another important factor is to be able to find the right people to bridge the chasm between the technical and businness sides. In this sense, the role of the data scientist is very important and Sean Owen from Cloudera defined it as “a person who is better at statistics than any software engineer and better at software engineering than any statistician”. We may add to the whish list a deep knowledge of your businness domain and the ability to ask the right questions.

While not everybody agreed, it seems that the best way to start “doing Big Data” is one step at a time and with a project with clear bussiness goals. If you want to test the technology, good candidates are those business process that have already become a bottleneck using standard databases. On the other hand, innovation may also be an important driver, by using external open data or if you need to design data-centric products. A good example of that sort is the Open Innovation challenge from Centro de Innovacion BBVA,  providing aggregate information on  credit card transactions.


Finally, going back to the theme of our talk, one of the external sources that would is generating more value are social network data. Due to their heterogeneity, social networks are intrinsically difficult to analyze, but, fortunately, text analytics tools like Textalytics API, enable you to make sense of unstructured data. If implemented into your Big Data toolset they open the door to the intellingent integration of quantitative and qualitative data with all the valuable insights you would obtain.

If you want to dive into the Big Data world, videos of the talks and experts panel are available at the Big Data Spain site.

Estudio: Modelado de la contaminación acústica en la ciudad de Madrid (España)

14 noviembre, 2013 3 comentarios

Ya puede consultar el estudio “Modelado de la contaminación acústica en la ciudad de Madrid (España)“, realizado en el contexto del proyecto Ciudad2020 como parte de nuestros trabajos de modelado predictivo de la contaminación en la ciudad del futuro, y componente esencial del sistema de Gestión Integral de la información medioambiental. Este documento contiene el estudio completo del segundo escenario descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Madrid es una ciudad ruidosa. A pesar de que el ruido no es considerado un contaminante tan obvio como la contaminación del aire por ozono y partículas, el riesgo para la salud a medio plazo causado por el ruido es muy superior a este tipo de contaminación. La UE exige a los estados miembros fijar objetivos de calidad para el ruido por zonas. En España los valores límites son 65 dB por el día y 55 dB por la noche, aunque la OMS recomienda valores más estrictos.

A pesar de la existencia de planes de acción contra el ruido (que se pueden consultar en la página web del Sistema de Información sobre Contaminación Acústica, SICA), la situación tiene que seguir mejorando. Es necesario aplicar más medidas sobre movilidad y trabajar en el control del ocio nocturno. El excesivo ruido de los bares en Madrid, concretamente entre las calles de Hilarión Eslava, Fernando el Católico, Guzmán el Bueno y Rodríguez San Pedro (donde se llegan a superar por la noche hasta en 20 decibelios los niveles admisibles), incluso llevó al Ayuntamiento de Madrid, a partir del verano del 2010, a cerrar los bares una hora antes. Esta zona de Madrid fue declarada Zona de Protección Acústica Especial, en la cual se aplica un programa especifico de medidas para reducir el ruido. Además, en una gran ciudad como Madrid, no sólo los vecinos y sus tradicionales actividades de ocio son ruidosas, sino que también emiten contaminación acústica las obras permanentes o el intenso tráfico, problemas indudablemente de difícil solución.


En los mapas de ruido de Madrid de 2006, creados por el área de gobierno de Medio Ambiente y Movilidad, se observaba que un porcentaje importante de la población está expuesta a valores superiores a los objetivos de calidad establecidos en la normativa: aproximadamente, por el día un 5.7% de la población sufría ruidos superiores a 65 decibelios, mientras que por la noche este porcentaje ascendía hasta el 20.2% expuestas a más de 55 decibelios. El nuevo mapa estratégico del ruido 2011 de Madrid recientemente publicado refleja avances: de 5.6% a 4.1% en la población expuesta durante el día, y de 20.2% al 14.9% de noche, aunque todavía queda mucho trabajo por delante (más información).

En nuestro estudio presentamos un análisis completo y real de contaminación acústica en la ciudad de Madrid, utilizando los datos históricos del año 2012 aportados por el Departamento de Control Acústico, perteneciente al Área de Gobierno de Medio Ambiente y Movilidad del Ayuntamiento de Madrid. El conjunto de datos proporcionado está compuesto de medidas horarias, desde el 1/1/2012 hasta el 31/12/2012, de las 28 estaciones automáticas de medición de la Red de Vigilancia de la Calidad del Aire del Ayuntamiento de Madrid.

Se realiza un extenso análisis cómo evolucionan los valores en el tiempo dependiendo de las zonas, y se proponen modelos de predicción empleando las técnicas de minería de datos y la metodología propuesta para el modelado de la contaminación en Ciudad 2020. Con estos modelos se tendría una predicción a corto plazo (de las siguientes 24 horas), con la que se podría saber cuándo se van a superar los límites de ruido establecidos por ley, y proponer medidas para paliar los efectos que pueden causar estas situaciones en los ciudadanos (dolores de cabeza, mareos, ansiedad y fatiga, nerviosismo, estrés…).


Lo más importante es que, aunque por la disponibilidad de datos el estudio se centra en esta ciudad y las conclusiones obtenidas son aplicables exclusivamente en ella, ilustra de forma elaborada los pasos a seguir para el modelado de la contaminación ambiental en general en cualquier ubicación. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

A %d blogueros les gusta esto: