Archive for the ‘Innovación’ Category

Analysis: Modeling Air Pollution in the city of Santander (Spain)

We have published a new study entitled “Modeling Air Pollution in the City of Santander (Spain)“, carried out in the context of the project Ciudad2020. In this new document – in a similar way to what we did in our study on noise pollution-, we have focused on presenting the full analysis of real application in the modeling of air pollution in the city of Santander (Spain), which had already been summarily described in our whitepaper on pollution predictive modeling techniques in the sustainable city.

One of the objectives of Ciudad2020 as far as pollution in concerned is to install across the city a wide network of low-cost sensors (with respect to the current model, made of few very expensive and accurate measuring stations). However, at present, the mentioned low-cost sensor network has not been deployed in any city yet, and checking the validity of this model requires data about various pollutants related to an urban center.

cimaThe data used in this analysis are historical data provided by the Environmental Research Centre (CIMA).This entity is an autonomous body of the Government of Cantabria created by law in 1991 and headed by the Ministry of Environment. Its activity is centered on the realization of physico-chemical analyses on the state of the environment and the management of sustainability through Environmental Information, Participation, Education and Environmental Volunteering.

The data set consists of measures taken every 15 minutes between 1/1/2011 and 31/1/2013 by 4 automatic measuring stations of the Air Quality Control and Monitoring Network of Cantabria, which are located in the surroundings of Santander. The values associated to pollutants are the following: PM10 (particles in suspension of size less than 10 microns), SO2 (sulphur dioxide), NO and NO2 (nitrogen oxides), CO (carbon monoxide), O3 (ozone), BEN (benzene), TOL (toluene) and XIL (xylene). In addition, those stations that have a meteorological tower measure the following meteorological parameters: DD (wind direction), VV (wind speed), TMP (temperature), HR (relative humidity), PRB (atmospheric pressure), RS (solar radiation) and LL (precipitation level).

As described in the document, the first step in any modeling study consists in the analysis of data, performed variable by variable and from each measuring station. At least a study of the basic statistics by season (average and standard deviation, median, mode), the distribution of values (histogram) both at global and monthly level and the hourly distribution are requested. The moving average is also analyzed, a statistical feature applicable to the analysis of tendencies which smoothes the fluctuations typical of instant measurements and captures the trends in a given period.


The next step is to analyze how the variables depend on the others, in order to select the set of variables that most governs the behavior of the output variable. For that purpose correlation analysis has been employed, which is a statistical tool that allows measuring and describing the degree or intensity of association between two variables. In particular, Pearson’s correlation coefficient has been used, which measures the linear relationship between two random quantitative variables X and Y.

Analyses of dependencies have been carried out at the same moment of time, in moments of the past, with differentiated values (difference between the concentration level registered for a contaminant in a given moment of time and the level of 30 minutes before, aiming at detecting trends over time regardless of absolute values) and the moving average value of such contaminant considering different time intervals.

The next step is to evaluate a series of algorithms of modeling with monitored learning (prediction, classification) or not monitored (grouping) to draw conclusions about the behavior of pollution variables. The prediction analysis has been focused on Santander’s center, with 1-hour, 2-hour, 4-hour, 8-hour and 24-hour prediction horizons. Then, the models for each pollution variable in all those horizons have been trained and evaluated. Different machine learning algorithms have been trained in each case (variable-prediction horizon combination): M5P, IBk, Multilayer Perceptron, linear regression, Regression by Discretization, RepTree, Bagging with RepTree, etc. The assessment is performed by comparing the mean absolute error of all different prediction methods.


For example, when studying the 8-hour prediction, it can be noticed that the hour of the day becomes more important, since citizens behave cyclically and probably what happens at 7 a.m. (e.g. people go to work) relates to what happens at 3 p.m. (e.g. people come back from work).

The last step of the data mining process according to the CRISP-DM methodology would be the implementation in a system of environmental management for obtaining real-time predictions on the different values of pollutants. This implementation has to consider logically the results and conclusions obtained in the analysis and modeling processes at the time of setting up the deployment and prioritizing possible investments.

The most important thing to emphasize is that the analysis illustrates and details the steps to follow in a project of environmental pollution modeling using data mining, although, logically, the analysis and the concrete conclusions only apply, in general, to the city of Santander. You can access the complete study, more information and demos on our website: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Whitepaper: “Pollution Predictive Modeling in the Sustainable City”

Recently we have published the whitepaper “Pollution Predictive Modeling in the Sustainable City“, which describes in detail the approach and methodology that we have adopted within the framework of the Ciudad2020 project to perform predictive modeling of environmental pollution levels in the city of the future. Given that the starting point of the analysis is made up of the immense volume of data collected by the network of sensors deployed around the city, both physical sensors and the citizen sensor, this modeling is addressed as a data mining project (data analytics). Therefore, the methodology, techniques and algorithms typical of data mining have been used to process and exploit the information.

crispdmThe term KDD (Knowledge Discovery in Databases) was coined to refer to the (broad) concept of finding knowledge in data and to emphasize the high level application of certain data mining processes. In an attempt at normalizing this process of knowledge discovering, similarly to what it is done in software engineering for standardizing software development, two main methodologies were taken into account: SEMMA and CRISP-DM. Both fix the tasks to perform in each phase described by KDD, assigning specific tasks and defining the expected outcome for each phase. In (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), both implementations are compared and the conclusion is that, although you can draw a parallel between them, CRISP-DM is more complete. In fact, it takes into account also the application of outcomes to the business environment, and, for this reason, it has been adopted for modeling in Ciudad2020.

By collecting different documentary references, the whitepaper presents a detailed description of the CRISP-DM methodology, its objectives, essential phases and tasks. Then, it focuses on describing thoroughly the two application scenarios that have been considered in Ciudad2020 and the pollution modeling process carried out following this methodology: air pollution prediction in the city of Santander (Cantabria, Spain) and noise pollution prediction in the city of Madrid (Spain).

SERENA project (Spanish acronym for Neural Network Statistical Prediction System for Madrid’s Air Quality)

You can find the whitepaper, further information, more documentation and demos on our web page: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Estudio: Modelado de la contaminación ambiental en la ciudad de Santander (España)

Hemos publicado un nuevo estudio titulado “Modelado de la contaminación ambiental en la ciudad de Santander (España)“, realizado en el contexto del proyecto Ciudad2020. En este nuevo documento -de forma análoga a lo que hicimos en nuestro estudio sobre contaminación acústica-, nos hemos centrado presentar el análisis completo de aplicación real en el modelado de la contaminación ambiental en la ciudad de Santander (España), que ya había sido descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Uno de los objetivos de Ciudad2020 en cuanto a contaminación es establecer una red amplia de sensores de bajo coste en la ciudad (frente al modelo actual, de pocas estaciones de medida muy caras y muy precisas). Sin embargo, actualmente, la red de sensores de bajo coste mencionada no está aún desplegada en ninguna ciudad, y para comprobar la validez de este modelo se necesitan datos de distintos contaminantes relacionados con un núcleo urbano.

cimaLos datos utilizados en este estudio son los datos históricos proporcionados por el Centro de Investigación del Medio Ambiente (CIMA). El CIMA es un organismo autónomo del Gobierno de Cantabria dependiente de la Consejería de Medio Ambiente, creado por ley en 1991,y centra su actividad en la realización de análisis físico-químicos sobre el estado del medio ambiente y gestión de la sostenibilidad, a través de la Información Ambiental, de la Participación, de la Educación y del Voluntariado Ambiental.

El conjunto de datos está formado por medidas cuarto-horarias (es decir, 1 medida cada 15 minutos) registradas en las 4 estaciones automáticas de medición de la Red de Control y Vigilancia de la Calidad del Aire de Cantabria que están establecidas en el entorno de la ciudad de Santander (Santander Centro, Tetuán, Cros y Guarnizo), entre el 1/1/2011 al 31/1/2013, de valores asociados a los siguientes contaminantes: PM10 (partículas en suspensión de tamaño inferior a 10 micras), SO2 (dióxido de azufre),NO y NO2 (óxidos de nitrógeno), CO (monóxido de carbono), O3 (ozono), BEN (benceno), TOL (tolueno) y XIL (xileno). Además, aquellas estaciones que disponen de torre meteorológica miden los siguientes parámetros meteorológicos: DD (dirección del viento), VV (velocidad del viento), TMP (temperatura), HR (humedad relativa), PRB (presión atmosférica), RS (radiación solar) y LL (nivel de precipitación).


Según se describe en el documento, el primer paso de cualquier estudio de modelado consiste en el análisis de los datos, realizado variable a variable y en cada estación de medida. En necesario al menos un estudio de los estadísticos básicos por estación (media y desviación típica, mediana, moda), la distribución de valores (histograma) tanto en global como a nivel mensual y la distribución horaria. Además se analiza la media móvil, estadístico aplicable al análisis de tendencias caracterizado por suavizar las fluctuaciones que se producen en mediciones instantáneas y capturar las tendencias existentes en un determinado período.

El siguiente paso es analizar cómo las variables dependen de las demás, con vistas a seleccionar aquel conjunto de variables que más rige el comportamiento de la variable de salida. Para ello se ha empleado el análisis de correlación, que es una herramienta estadística que permite medir y describir el grado o intensidad de asociación entre dos variables. En concreto se ha utilizado el coeficiente de correlación de Pearson, índice que mide la relación lineal entre dos variables aleatorias X e Y cuantitativas.

Se ha realizado un análisis de dependencias en el mismo instante de tiempo, en instantes de tiempo pasado, con valores diferenciados (diferencia del nivel de concentración registrado para un contaminante en un determinado instante de tiempo y el registrado 30 minutos antes: para intentar detectar tendencias a lo largo del tiempo con independencia de los valores absolutos) y con el valor de la media móvil de dicho contaminante considerando diferentes intervalos de tiempo.

El siguiente paso es evaluar una serie de algoritmos de modelado con aprendizaje supervisado (predicción, clasificación) o no supervisado (agrupamiento) para extraer conclusiones sobre el comportamiento de las variables de contaminación. El análisis de predicción se ha centrado en en Santander Centro, con horizontes de predicción a 1 hora, a 2 horas, a 4 horas, a 8 horas y a 24 horas. Se han entrenado y evaluado modelos de predicción para cada una de las variables de contaminación en todos esos horizontes. En cada caso (combinación variable-horizonte de predicción) se han entrenado diferentes algoritmos de aprendizaje automático: M5P, IBk, Multilayer Perceptron, regresión lineal, Regression by Discretization, RepTree, Bagging con RepTree, etc. La evaluación se realiza comparando el error medio absoluto (Mean Absolute Error) de los distintos métodos de predicción.


Por ejemplo, al estudiar la predicción a 8 horas, se ve que la hora del día comienza a cobrar importancia, debido a que los ciudadanos se comportan de forma cíclica y probablemente lo que ocurre a las 7 de la mañana (por ejemplo, se sale a trabajar) tenga relación con lo que ocurra a las 3 de la tarde (siguiendo con el ejemplo, se vuelve de trabajar).

El último paso del proceso de minería de datos según la metodología CRISP-DM sería la puesta en producción en un sistema de gestión medioambiental para la obtención de predicciones en tiempo real sobre los diferentes valores de contaminantes. Esta puesta en producción debe considerar lógicamente los resultados y conclusiones obtenidos en el proceso de análisis y modelado, en la hora de diseñar el despliegue y priorizar las posibles inversiones necesarias.

Lo más importante a destacar es que el estudio ilustra y detalla los pasos a seguir en un proyecto de modelado de la contaminación ambiental empleando minería de datos, aunque lógicamente el análisis y las conclusiones concretas sólo son válidas, en general, para la ciudad de Santander. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

Analysis: Modeling Noise Pollution in the City of Madrid (Spain)

29 noviembre, 2013 3 comentarios

You can now access our analysis about “Modeling Noise Pollution in the City of Madrid (Spain)“. This study was carried out in the context of the Ciudad2020 project as part of our work about pollution predictive modeling in the city of the future, an essential component for the integrated environmental information management system. This document contains the complete study of the second scenario summarized in our whitepaper on the techniques of pollution predictive modeling in the sustainable city [only in Spanish].

Madrid is a noisy city. While the noise is not considered a pollutant as obvious as air pollution by ozone and particles, health risk due to noise in the medium term is far superior to the risk given by the other type of pollution. EU requires Member States to set zonal quality objectives as far as noise is concerned. In Spain limit values are 65 dB during the day and 55 dB at night, although the WHO recommends more stringent values.

Despite the existence of action plans against noise (which can be consulted on the website of the Spanish Acoustic Pollution Information System, SICA), the situation needs to improve further. It is necessary to implement more measures on mobility and work on the control of night-time leisure. In summer 2010, the excessive noise of bars in some streets of Madrid, where overnight it can exceed the allowable levels up to 20 dB, even compelled Madrid’s City Council to close bars an hour earlier. That area of Madrid was declared a Special Acoustic Protection Zone, where they apply a program of specific measures to reduce noise. In addition, in a large city like Madrid, not only residents and their leisure habits are noisy, but also permanent works or heavy traffic emit noise pollution: problems undoubtedly difficult to solve.


In Madrid’s 2006 noise maps issued by the city’s Environment and Mobility Office, it was noted that a significant percentage of the population is exposed to values higher than the quality objectives set out in the regulations: approximately, during the day a 5.7% of the population was exposed to higher than 65 decibel noise, while in the evening this percentage amounted to the 20.2% of people exposed to more than 55 decibels. Madrid’s 2011 strategic map of noise recently posted reflects advances: from 5.6% to 4.1% of the population exposed during the day and from 20.2% to 14.9% at night, although there is still much work ahead (more information).

In our study we present a real and full analysis of noise pollution in the city of Madrid, using historical data from 2012 provided by the Department of Acoustic Control, headed by Madrid’s Environment and Mobility Office. The provided dataset consists of periodic measures, from 1/January/2012 to 31/December/2012, gathered by the 28 automatic measuring stations of the Air Quality Surveillance Network of Madrid’s City Council.

An extensive analysis shows how values evolve over time depending on the areas, and proposes prediction models using data mining techniques and the methodology proposed for pollution modeling in Ciudad2020. With these models it is possible to obtain a short-term prediction (24 hours) with which you could tell when the noise exceeds the limits established by law, and propose measures to mitigate the effects that these situations can have on citizens (headaches, dizziness, anxiety and fatigue, nervousness, stress…).


Although the analysis focuses only on this city and the results are applicable exclusively to it, the most remarkable aspect is that the study thoroughly illustrates the steps to follow in general for pollution modeling in any location. You can access the complete study, more information and demos on our website: If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Estudio: Modelado de la contaminación acústica en la ciudad de Madrid (España)

14 noviembre, 2013 3 comentarios

Ya puede consultar el estudio “Modelado de la contaminación acústica en la ciudad de Madrid (España)“, realizado en el contexto del proyecto Ciudad2020 como parte de nuestros trabajos de modelado predictivo de la contaminación en la ciudad del futuro, y componente esencial del sistema de Gestión Integral de la información medioambiental. Este documento contiene el estudio completo del segundo escenario descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Madrid es una ciudad ruidosa. A pesar de que el ruido no es considerado un contaminante tan obvio como la contaminación del aire por ozono y partículas, el riesgo para la salud a medio plazo causado por el ruido es muy superior a este tipo de contaminación. La UE exige a los estados miembros fijar objetivos de calidad para el ruido por zonas. En España los valores límites son 65 dB por el día y 55 dB por la noche, aunque la OMS recomienda valores más estrictos.

A pesar de la existencia de planes de acción contra el ruido (que se pueden consultar en la página web del Sistema de Información sobre Contaminación Acústica, SICA), la situación tiene que seguir mejorando. Es necesario aplicar más medidas sobre movilidad y trabajar en el control del ocio nocturno. El excesivo ruido de los bares en Madrid, concretamente entre las calles de Hilarión Eslava, Fernando el Católico, Guzmán el Bueno y Rodríguez San Pedro (donde se llegan a superar por la noche hasta en 20 decibelios los niveles admisibles), incluso llevó al Ayuntamiento de Madrid, a partir del verano del 2010, a cerrar los bares una hora antes. Esta zona de Madrid fue declarada Zona de Protección Acústica Especial, en la cual se aplica un programa especifico de medidas para reducir el ruido. Además, en una gran ciudad como Madrid, no sólo los vecinos y sus tradicionales actividades de ocio son ruidosas, sino que también emiten contaminación acústica las obras permanentes o el intenso tráfico, problemas indudablemente de difícil solución.


En los mapas de ruido de Madrid de 2006, creados por el área de gobierno de Medio Ambiente y Movilidad, se observaba que un porcentaje importante de la población está expuesta a valores superiores a los objetivos de calidad establecidos en la normativa: aproximadamente, por el día un 5.7% de la población sufría ruidos superiores a 65 decibelios, mientras que por la noche este porcentaje ascendía hasta el 20.2% expuestas a más de 55 decibelios. El nuevo mapa estratégico del ruido 2011 de Madrid recientemente publicado refleja avances: de 5.6% a 4.1% en la población expuesta durante el día, y de 20.2% al 14.9% de noche, aunque todavía queda mucho trabajo por delante (más información).

En nuestro estudio presentamos un análisis completo y real de contaminación acústica en la ciudad de Madrid, utilizando los datos históricos del año 2012 aportados por el Departamento de Control Acústico, perteneciente al Área de Gobierno de Medio Ambiente y Movilidad del Ayuntamiento de Madrid. El conjunto de datos proporcionado está compuesto de medidas horarias, desde el 1/1/2012 hasta el 31/12/2012, de las 28 estaciones automáticas de medición de la Red de Vigilancia de la Calidad del Aire del Ayuntamiento de Madrid.

Se realiza un extenso análisis cómo evolucionan los valores en el tiempo dependiendo de las zonas, y se proponen modelos de predicción empleando las técnicas de minería de datos y la metodología propuesta para el modelado de la contaminación en Ciudad 2020. Con estos modelos se tendría una predicción a corto plazo (de las siguientes 24 horas), con la que se podría saber cuándo se van a superar los límites de ruido establecidos por ley, y proponer medidas para paliar los efectos que pueden causar estas situaciones en los ciudadanos (dolores de cabeza, mareos, ansiedad y fatiga, nerviosismo, estrés…).


Lo más importante es que, aunque por la disponibilidad de datos el estudio se centra en esta ciudad y las conclusiones obtenidas son aplicables exclusivamente en ella, ilustra de forma elaborada los pasos a seguir para el modelado de la contaminación ambiental en general en cualquier ubicación. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

Whitepaper: “Técnicas de modelado predictivo de la contaminación en la ciudad sostenible”

crispdmRecientemente hemos publicado el whitepaper “Modelado predictivo de la contaminación en la ciudad sostenible” que describe en detalle el enfoque y la metodología que hemos adoptado en el marco del proyecto Ciudad2020 para llevar a cabo el modelado predictivo de los niveles de contaminación medioambiental de la ciudad del futuro. Dado que el punto de partida del análisis está constituido por el inmenso volumen de datos recogidos por la red de sensores desplegada por la ciudad, tanto sensores físicos como el sensor ciudadano, este modelado se aborda como un proyecto de minería de datos (data analytics), y por tanto se han utilizado la metodología, técnicas y algoritmos típicos de minería de datos para tratar la información.

El término KDD (Knowledge Discovery in Databases) se acuñó para referirse al (amplio) concepto de hallar conocimiento en los datos, y para enfatizar la aplicación de alto nivel de determinados procesos de minería de datos. En un intento de normalización de este proceso de descubrimiento de conocimiento, de forma similar a como se hace en ingeniería software para normalizar el proceso de desarrollo software, surgieron dos metodologías principales: SEMMA y CRISP-DM. Ambas especifican las tareas a realizar en cada fase descrita por KDD, asignando tareas concretas y definiendo lo que es deseable obtener tras cada fase. En (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), se comparan ambas implementaciones y llega a la conclusión de que, aunque se puede establecer un paralelismo claro entre ellas, CRISP-DM es más completo porque tiene en cuenta la aplicación al entorno de negocio de los resultados, y por ello es la que se ha adoptado en el modelado en Ciudad2020.

El whitepaper, recopilando diferentes referencias documentales, presenta una detallada descripción de la metodología CRISP-DM, sus objetivos, fases de las que consta y tareas contenidas en cada fase. a continuación, se centra en describir en profundidad los dos escenarios de aplicación que se han utilizado en Ciudad2020 y el proceso de modelado de contaminación realizado siguiendo obviamente dicha metodología: predicción de la contaminación atmosférica en la ciudad de Santander (Cantabria, España) y predicción de la contaminación acústica en la ciudad de Madrid (Comunidad de Madrid, España).


SERENA (Sistema Estadístico de predicción por REdes Neuronales de la calidad del Aire en la ciudad de Madrid)

Puede encontrar el whitepaper, información adicional, más documentación y demostradores, en nuestro sitio web: O si tiene alguna pregunta o comentario, no dude en contactar con nosotros… estaremos encantados de atenderle.

La ciudad a pie de calle: el Sensor Ciudadano

19 noviembre, 2012 Deja un comentario

El fin último de las decisiones municipales es el bienestar del ciudadano. Partiendo de esa base, los administradores toman medidas de distinta índole, siempre con el objetivo de aumentar la calidad de vida de los habitantes de su ciudad.

El problema viene cuando hay problemas que la Administración local desconoce, o cuando los problemas toman mayor dimensión de lo que los gestores están considerando. En estos casos, la opinión ciudadana es la clave para poder resolver estas situaciones de la mejor forma posible. Y para obtener esta opinión de forma transparente y sencilla podemos utilizar el Sensor Ciudadano.

Daedalus ve el Sensor Ciudadano como el registro de eventos en la relación del ciudadano con su municipio. Es una forma innovadora de capturar información heterogénea, de alto nivel, muy descriptiva y de gran valor añadido, sobre todo si se observa de forma agregada.

Los eventos generados pueden registrarse de distintas formas:

  • Utilizando el teléfono móvil del ciudadano como sensor. Para detectar contaminación acústica, por ejemplo, el usuario arranca una aplicación en su teléfono que registra el nivel de ruido y lo envía a un servidor. Este gesto, realizado por todos los usuarios, nos dará un mapa  de los focos de ruido más destacables de la ciudad, que evoluciona en el tiempo (obras por las mañanas, fiestas los fines de semana…). Este tipo de sensado, además, permite expandir la red con menor coste, y proporciona nuevas vías de investigación  con respecto al bienestar ciudadano.
  • Utilizando los registros del usuario interactuando con la ciudad. Estos eventos denotan tendencias ciudadanas. Por ejemplo, el usuario pica el billete de tren para dirigirse a su trabajo. Esto, agregado a los eventos generados por el resto de usuarios que usen el tren, nos dará una idea de la densidad de viajeros que usan el tren para ir al trabajo cada mañana y qué trayecto hacen.
  • Utilizando las redes sociales. De esta forma, la información capturada es más compleja y rica que la capturada por otros sensores, y es necesario procesarla de forma especial para sacarle todo el partido posible. Este método de recolectar información se basa en la tecnología desarrollada por Daedalus para análisis de opinión y sentimiento en redes sociales, ya utilizada en otros productos como Sentimentalytics.
    • Con Twitter, se puede analizar el flujo de tuits en una zona determinada para saber de qué hablan los usuarios, y si es algo que consideramos relevante (un accidente de coche que provoca retenciones, un incendio, un festival de música…) podemos usar estos datos para elaborar un modelo (de ruido, de contaminación atmosférica, de flujo de tráfico…) con predicciones mucho más ajustadas.
    • También se pueden recopilar opiniones y sentimientos de los ciudadanos sobre su municipio, haciendo un seguimiento  en redes sociales con respecto a medidas específicas tomadas por la administración local (por ejemplo, la política de disminuir el consumo en climatización en transporte público).

En definitiva, el Sensor Ciudadano (desarrollado en el marco del Proyecto Ciudad2020 [1][2] y financiado por el CDTI) es una herramienta fundamental a la hora de ajustar las políticas municipales a la realidad del ciudadano, ya que proporciona una visión de la ciudad a pie de calle de forma transparente para los usuarios.

Y vosotros, ¿qué opináis? ¿Creéis que los ciudadanos participarían activamente utilizando su teléfono móvil como sensor? ¿Pensáis que la información en redes sociales sería útil para mejorar la calidad de vida en la ciudad?

Daedalus obtiene el mejor resultado en una comparativa internacional de tecnologías para análisis de medios sociales

Daedalus ha obtenido los mejores resultados en un taller internacional de evaluación competitiva de tecnologías para análisis de la reputación online celebrado en el marco de CLEF 2012.

Hace unas semanas tuvo lugar en Roma la edición 2012 de CLEF. El Conference and Labs of the Evaluation Forum (CLEF) es una iniciativa internacional que tiene por misión promover la investigación, la innovación y el desarrollo de sistemas de acceso a la información con énfasis en los contenidos multilingües, multiformato y no estructurados. Además de una conferencia, CLEF consiste en una serie de talleres en los que se muestran implantaciones novedosas y se realizan evaluaciones competitivas de este tipo de sistemas.

CLEF 2012

Este año CLEF ha incorporado por primera vez un taller de evaluación específico (RepLab) dedicado a los sistemas de gestión de la reputación online y Daedalus ha participado en él. El objetivo era comparar distintas tecnologías y soluciones para el análisis de la reputación a partir de información vertida en medios sociales, específicamente en Twitter.

El taller constaba de dos fases: la de entrenamiento de los sistemas (previa a la conferencia) y la fase de evaluación, en la que se entregaba a los participantes un corpus extraído de medios sociales que debían procesar automáticamente. Posteriormente se comparaban los resultados obtenidos por los distintos participantes.

Para el entrenamiento se suministró un corpus formado por tweets en español e inglés asociados a seis empresas diferentes. Para cada una de ellas se habían extraído 30000 tweets, utilizando el nombre de la empresa como criterio de búsqueda. Para la fase de evaluación el corpus de test se compiló utilizando la misma metodología y consistió en tweets relacionados con un total de 31 empresas de diversos sectores (banca, automoción, cosmética, comunicaciones…), diferentes a las utilizadas en el corpus de entrenamiento, y cada una de ellas representada por entre 19400 y 50000 tweets.

En este taller se plantearon dos escenarios de trabajo:

  • Perfilado (profiling): el análisis de reputación se está convirtiendo en un indicador de relevancia para el marketing y la gestión de las relaciones con los clientes. Los medios sociales constituyen en este sentido una fuente de información fundamental para las empresas ya que les permiten medir directamente el sentir de los clientes hacia sus marcas y productos. En este contexto se plantearon dos tareas: filtrado (filtering) y clasificación de la polaridad (polarity classification). La primera de ellas tenía como objetivo determinar si un tweet estaba o no relacionado con una determinada empresa y la segunda -supuesto que el tweet se encuentra relacionado con la empresa objeto de análisis- clasificar su polaridad, es decir, establecer si el contenido del tweet tiene connotaciones positivas o negativas sobre la reputación de la empresa.
  • Monitorización (monitoring): en un escenario real a la empresa le interesa medir el sentir general de sus clientes y/o competidores, no la opción individual de cada uno de ellos. Por tanto, el análisis de reputación debe ir orientado a la extracción de los temas más relevantes sobre los que opinan los ciudadanos y de los puntos fuertes (opiniones positivas) y puntos débiles (opiniones negativas) que manifiestan sobre ellos. En este escenario se planteó una tarea consistente en, dada una secuencia de tweets, generar agrupaciones atendiendo a su temática y dotar cada una de ellas de un indicador de relevancia atendiendo a su polaridad, novedad, impacto potencial, etc.

Daedalus participó en las tareas derivadas del escenario de perfilado para poner a prueba las diferentes tecnologías multilingües que sobre reconocimiento de entidades y análisis de sentimientos ha venido desarrollando la empresa en los últimos años.

Los resultados fueron inmejorables. En la tarea de filtrado, de un total de 33 experimentos evaluados los tres de Daedalus coparon las tres primeras posiciones. En la tarea de clasificación de polaridad, entre 38 experimentos evaluados el enviado por Daedalus quedó en primer lugar. Aquí podéis encontrar nuestra ponencia, explicando el enfoque que aplicamos y el artículo de los organizadores analizando los resultados obtenidos por los participantes. Sinceramente, algo de lo que creo que podemos sentirnos orgullosos.

Daedalus organiza el Taller de Análisis de Sentimientos en la SEPLN

12 noviembre, 2012 1 comentario

En varias entradas de este blog hemos puesto de manifiesto el interés creciente que despierta la aplicación de las tecnologías semánticas para el análisis de medios sociales y cómo Daedalus ha apostado por el desarrollo de herramientas lingüísticas orientadas a satisfacer esta demanda (por ejemplo, Sentimentalytics).

En este contexto, durante el presente año Daedalus ha participado en diversos talleres de evaluación de soluciones para el análisis de sentimiento (opinión y/o reputación) sobre textos cortos extraídos de medios sociales. Estos talleres, con una marcada componente competitiva, tienen como objetivo identificar las diferentes técnicas y estrategias empleadas por los participantes y comparar las prestaciones de los diversos sistemas mediante la aplicación de métricas de evaluación.

Daedalus participó en calidad de organizador -junto con la Universidad Politécnica de Madrid y la Universidad de Jaén- en el TASS (Taller de Análisis de Sentimientos de la SEPLN) . Se trata de una iniciativa de evaluación experimental en el marco de la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural) para fomentar la investigación en el campo del análisis de sentimiento en los medios sociales, específicamente centrado en el idioma español.

El principal objetivo de este taller fue promover el diseño de nuevas técnicas y algoritmos y la aplicación de los ya existentes para realizar un análisis de reputación basado en opiniones a partir de textos cortos extraídos de medios sociales (concretamente Twitter).

Se compiló un corpus formado por 70000 tweets escritos en español, por cerca de doscientas personalidades de diferentes sectores de impacto (política, economía, medios de comunicación y cultura), entre noviembre del 2011 y marzo de 2012. Para la fase de entrenamiento se proporcionó un subconjunto del corpus (en torno a 7200 tweets) etiquetado. El etiquetado se realizó por medios semiautomáticos aplicando tecnología desarrollada por Daedalus.

El corpus se proporcionó en formato XML, conforme al esquema de la figura. El texto de cada uno de los tweets fue eliminado para satisfacer las restricciones impuestas por Twitter, proporcionándose el resto de metadatos.

XML Tweet

Para la cuantificación de la opinión, se establecieron seis grados de polaridad (muy positiva, positiva, neutra, negativa, muy negativa y sin opinión) y se definieron tres ámbitos de análisis: el documento, cada una de las entidades del documento y la temática.

En el taller se plantearon dos tareas:

  • Análisis de Sentimiento (Sentiment Analysis): aplicación de técnicas de procesamiento de lenguaje natural y análisis de texto orientadas a la identificación y extracción de información subjetiva existente en el texto y, en función de ellas, definición de la polaridad global del texto o de la polaridad asociada a cada una de las entidades identificadas en el mismo.
  • Análisis de tendencias (Trending Topic Coverage): aplicación de técnicas de clasificación textual para determinar las temáticas del texto y de técnicas de análisis de sentimientos para caracterizar la polaridad de cada una de ellas. Para esta tarea se definieron diez áreas temáticas presentes en el corpus (política, fútbol, literatura y entretenimiento entre otras).

En el taller se registraron un total de 15 grupos de los que únicamente 8 enviaron resultados. Todos ellos participaron en la primera de las tareas planteadas y 6 en la segunda.

La diversidad de los grupos participantes procedentes de diferentes áreas de conocimiento, tales como Recuperación de Información (Information Retrieval), Procesamiento de Lenguaje Natural/Lingüística Computacional, Máquinas de Aprendizaje/Minería de Datos/Análisis textual y Web Semántica, ha puesto de manifiesto que el Análisis de Sentimiento constituye un nicho de mercado emergente que está intentando ser abordado desde gran diversidad de enfoques tecnológicos.

En el contexto del XXVIII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural – SEPLN 2012 celebrado los días 4, 5 y 7 de septiembre de 2012 en la Universidad Jaume I de Castellón de la Plana tuvo lugar un monográfico sobre el taller, en el que los diferentes grupos participantes, empresas y miembros de la comunidad investigadora compartieron sus experiencias, soluciones, inquietudes y expectativas.

[¿Quieres saber cómo las tecnologías Semánticas y de Procesamiento del Lenguaje permiten analizar y explotar opiniones, ideas… y otros contenidos generados por los usuarios? Visita el sitio web de Daedalus y descubre cómo estamos ayudando a las empresas de seguimiento y análisis de medios, tanto tradicionales como sociales.]

Hazte global, hazte multilingüe, hazlo con Flavius!

3 septiembre, 2012 Deja un comentario

Cada día hay más información que se publica y comparte a través de internet, pero no siempre está disponible en la lengua que maneja un usuario. Aun contando con herramientas de traducción automática, el lenguaje sigue siendo la principal barrera ya que hay muchas personas que únicamente acceden a la información en su propio idioma. Hoy día existen opciones para acceder a contenidos en otros idiomas, sin embargo todos requieren el uso de escenarios y configuraciones particulares y por tanto no tienen un uso extendido. Existen herramientas que permiten a los visitantes de los sitios web sugerir traducciones, aunque estas herramientas no disponen de todas las características necesarias, no son personalizables y tampoco mantienen la estructura original de la página. Además, como las páginas web solo se indexan en la lengua original, son invisibles de cara a las búsquedas que se hacen en otros idiomas.

Flavius es la primera solución extremo a extremo para la traducción y el indexado de sitios web. Se trata de un proyecto Europeo financiado por el Programa de Apoyo a las Tecnologías de la Información y la Comunicación (ICT Policy Support Programme), en el contexto de la Web Multilingüe y las técnicas, herramientas y procedimientos relacionados con la gestión de contenidos.

Flavius le permite crear versiones multilingües de sus sitios web y sus aplicaciones en unos minutos, proporcionando además herramientas fáciles de utilizar para mejorar y revisar la traducción gracias a sus opciones de configuración.

  Flavius permite traducir cualquier archivo de datos (aplicaciones y blogs, XML y sus declinaciones: ReSX, WordPress …) o sitios web. El contenido de los sitios web se extrae realizando una copia idéntica para posteriormente ser traducida por Flavius.

  Para realizar una buena traducción es importante asegurar la calidad del texto de origen, para ello, Flavius incluye un corrector ortográfico y gramatical que detecta posibles errores y le invita a corregirlos. En este contexto Daedalus proporciona su experiencia en el campo de la corrección de textos, así como sus productos disponibles para ese fin.

  En pocos segundos, Flavius realiza una primera traducción que podrá revisar manualmente. Flavius incluye algunos motores personalizados para mejorar la calidad de la traducción, por ejemplo, para traducciónes Francés-Inglés, usted puede optar por traducir una página web sobre viajes utilizando el diccionario correspondiente a dicho tema. La calidad de la traducción aumentará, reduciendo el número de revisiones necesarias para alcanzar una traducción de buena calidad.

  A continuación, puede revisar y modificar la traducción. Accediendo a la vista previa de su sitio web traducido podrá seleccionar una “etiqueta” o un párrafo para editarlo, o si lo prefiere, puede invitar a un revisor. Adicionalmente Flavius implementa un módulo de retroalimentación que le permite obtener opiniones de los usuarios de su sitio web (obtendrá propuestas para mejorar la traducción, opiniones sobre los problemas de diseño y comentarios variados)

  Para garantizar la correcta traducción de expresiones y términos clave, Flavius permite crear un diccionario al que añadir sus palabras clave y su traducción. Además, los cambios realizados durante la etapa de revisión se mantienen y reutilizada durante las actualizaciones de su sitio web traducido, gracias a la función de memoria de traducción. Además, si usted ya tiene memorias de traducción en formato TMX, puede importarlos a Flavius y utilizarlos.

  Su sitio web está listo, traducido en nuestros servidores. Ahora sólo hay que ponerlo a disposición de todos los usuarios de Internet mediante la publicación a través de la plataforma.

  Los sitios web traducidos por Flavius se optimizan para asegurar una correcta indexación. Así, cuando un usuario de Internet realice una búsqueda mediante palabras clave en un idioma extranjero, su buscador habitual devolverá como resultado las páginas traducidas por Flavius.

La plataforma Flavius ya está disponible permitiendo hacer uso de todas las funcionalidades descritas, así que no lo dudes y crea tu cuenta gratuita para comprobar los beneficios de la traducción Flavius.

El consorcio que desarrolla este proyecto lo forman Softissimo (como empresa líder), Across, Language Weaver y Daedalus. Adicionalmente, varios proveedores de contenido participan en el proyecto (TVTrip, Overblog, Qype) aportando no solo la información de la que disponen sino también contribuyendo al lanzamiento de la plataforma a través de sus sitios web.

A %d blogueros les gusta esto: