Archivo

Posts Tagged ‘contaminación’

Whitepaper: “Pollution Predictive Modeling in the Sustainable City”

Recently we have published the whitepaper “Pollution Predictive Modeling in the Sustainable City“, which describes in detail the approach and methodology that we have adopted within the framework of the Ciudad2020 project to perform predictive modeling of environmental pollution levels in the city of the future. Given that the starting point of the analysis is made up of the immense volume of data collected by the network of sensors deployed around the city, both physical sensors and the citizen sensor, this modeling is addressed as a data mining project (data analytics). Therefore, the methodology, techniques and algorithms typical of data mining have been used to process and exploit the information.

crispdmThe term KDD (Knowledge Discovery in Databases) was coined to refer to the (broad) concept of finding knowledge in data and to emphasize the high level application of certain data mining processes. In an attempt at normalizing this process of knowledge discovering, similarly to what it is done in software engineering for standardizing software development, two main methodologies were taken into account: SEMMA and CRISP-DM. Both fix the tasks to perform in each phase described by KDD, assigning specific tasks and defining the expected outcome for each phase. In (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), both implementations are compared and the conclusion is that, although you can draw a parallel between them, CRISP-DM is more complete. In fact, it takes into account also the application of outcomes to the business environment, and, for this reason, it has been adopted for modeling in Ciudad2020.

By collecting different documentary references, the whitepaper presents a detailed description of the CRISP-DM methodology, its objectives, essential phases and tasks. Then, it focuses on describing thoroughly the two application scenarios that have been considered in Ciudad2020 and the pollution modeling process carried out following this methodology: air pollution prediction in the city of Santander (Cantabria, Spain) and noise pollution prediction in the city of Madrid (Spain).

SERENA project (Spanish acronym for Neural Network Statistical Prediction System for Madrid’s Air Quality)

You can find the whitepaper, further information, more documentation and demos on our web page: http://www.daedalus.es/ciudad2020/. If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Estudio: Modelado de la contaminación ambiental en la ciudad de Santander (España)

Hemos publicado un nuevo estudio titulado “Modelado de la contaminación ambiental en la ciudad de Santander (España)“, realizado en el contexto del proyecto Ciudad2020. En este nuevo documento -de forma análoga a lo que hicimos en nuestro estudio sobre contaminación acústica-, nos hemos centrado presentar el análisis completo de aplicación real en el modelado de la contaminación ambiental en la ciudad de Santander (España), que ya había sido descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Uno de los objetivos de Ciudad2020 en cuanto a contaminación es establecer una red amplia de sensores de bajo coste en la ciudad (frente al modelo actual, de pocas estaciones de medida muy caras y muy precisas). Sin embargo, actualmente, la red de sensores de bajo coste mencionada no está aún desplegada en ninguna ciudad, y para comprobar la validez de este modelo se necesitan datos de distintos contaminantes relacionados con un núcleo urbano.

cimaLos datos utilizados en este estudio son los datos históricos proporcionados por el Centro de Investigación del Medio Ambiente (CIMA). El CIMA es un organismo autónomo del Gobierno de Cantabria dependiente de la Consejería de Medio Ambiente, creado por ley en 1991,y centra su actividad en la realización de análisis físico-químicos sobre el estado del medio ambiente y gestión de la sostenibilidad, a través de la Información Ambiental, de la Participación, de la Educación y del Voluntariado Ambiental.

El conjunto de datos está formado por medidas cuarto-horarias (es decir, 1 medida cada 15 minutos) registradas en las 4 estaciones automáticas de medición de la Red de Control y Vigilancia de la Calidad del Aire de Cantabria que están establecidas en el entorno de la ciudad de Santander (Santander Centro, Tetuán, Cros y Guarnizo), entre el 1/1/2011 al 31/1/2013, de valores asociados a los siguientes contaminantes: PM10 (partículas en suspensión de tamaño inferior a 10 micras), SO2 (dióxido de azufre),NO y NO2 (óxidos de nitrógeno), CO (monóxido de carbono), O3 (ozono), BEN (benceno), TOL (tolueno) y XIL (xileno). Además, aquellas estaciones que disponen de torre meteorológica miden los siguientes parámetros meteorológicos: DD (dirección del viento), VV (velocidad del viento), TMP (temperatura), HR (humedad relativa), PRB (presión atmosférica), RS (radiación solar) y LL (nivel de precipitación).

estaciones-cantabria

Según se describe en el documento, el primer paso de cualquier estudio de modelado consiste en el análisis de los datos, realizado variable a variable y en cada estación de medida. En necesario al menos un estudio de los estadísticos básicos por estación (media y desviación típica, mediana, moda), la distribución de valores (histograma) tanto en global como a nivel mensual y la distribución horaria. Además se analiza la media móvil, estadístico aplicable al análisis de tendencias caracterizado por suavizar las fluctuaciones que se producen en mediciones instantáneas y capturar las tendencias existentes en un determinado período.

El siguiente paso es analizar cómo las variables dependen de las demás, con vistas a seleccionar aquel conjunto de variables que más rige el comportamiento de la variable de salida. Para ello se ha empleado el análisis de correlación, que es una herramienta estadística que permite medir y describir el grado o intensidad de asociación entre dos variables. En concreto se ha utilizado el coeficiente de correlación de Pearson, índice que mide la relación lineal entre dos variables aleatorias X e Y cuantitativas.

Se ha realizado un análisis de dependencias en el mismo instante de tiempo, en instantes de tiempo pasado, con valores diferenciados (diferencia del nivel de concentración registrado para un contaminante en un determinado instante de tiempo y el registrado 30 minutos antes: para intentar detectar tendencias a lo largo del tiempo con independencia de los valores absolutos) y con el valor de la media móvil de dicho contaminante considerando diferentes intervalos de tiempo.

El siguiente paso es evaluar una serie de algoritmos de modelado con aprendizaje supervisado (predicción, clasificación) o no supervisado (agrupamiento) para extraer conclusiones sobre el comportamiento de las variables de contaminación. El análisis de predicción se ha centrado en en Santander Centro, con horizontes de predicción a 1 hora, a 2 horas, a 4 horas, a 8 horas y a 24 horas. Se han entrenado y evaluado modelos de predicción para cada una de las variables de contaminación en todos esos horizontes. En cada caso (combinación variable-horizonte de predicción) se han entrenado diferentes algoritmos de aprendizaje automático: M5P, IBk, Multilayer Perceptron, regresión lineal, Regression by Discretization, RepTree, Bagging con RepTree, etc. La evaluación se realiza comparando el error medio absoluto (Mean Absolute Error) de los distintos métodos de predicción.

pollution

Por ejemplo, al estudiar la predicción a 8 horas, se ve que la hora del día comienza a cobrar importancia, debido a que los ciudadanos se comportan de forma cíclica y probablemente lo que ocurre a las 7 de la mañana (por ejemplo, se sale a trabajar) tenga relación con lo que ocurra a las 3 de la tarde (siguiendo con el ejemplo, se vuelve de trabajar).

El último paso del proceso de minería de datos según la metodología CRISP-DM sería la puesta en producción en un sistema de gestión medioambiental para la obtención de predicciones en tiempo real sobre los diferentes valores de contaminantes. Esta puesta en producción debe considerar lógicamente los resultados y conclusiones obtenidos en el proceso de análisis y modelado, en la hora de diseñar el despliegue y priorizar las posibles inversiones necesarias.

Lo más importante a destacar es que el estudio ilustra y detalla los pasos a seguir en un proyecto de modelado de la contaminación ambiental empleando minería de datos, aunque lógicamente el análisis y las conclusiones concretas sólo son válidas, en general, para la ciudad de Santander. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

Estudio: Modelado de la contaminación acústica en la ciudad de Madrid (España)

14 noviembre, 2013 3 comentarios

Ya puede consultar el estudio “Modelado de la contaminación acústica en la ciudad de Madrid (España)“, realizado en el contexto del proyecto Ciudad2020 como parte de nuestros trabajos de modelado predictivo de la contaminación en la ciudad del futuro, y componente esencial del sistema de Gestión Integral de la información medioambiental. Este documento contiene el estudio completo del segundo escenario descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Madrid es una ciudad ruidosa. A pesar de que el ruido no es considerado un contaminante tan obvio como la contaminación del aire por ozono y partículas, el riesgo para la salud a medio plazo causado por el ruido es muy superior a este tipo de contaminación. La UE exige a los estados miembros fijar objetivos de calidad para el ruido por zonas. En España los valores límites son 65 dB por el día y 55 dB por la noche, aunque la OMS recomienda valores más estrictos.

A pesar de la existencia de planes de acción contra el ruido (que se pueden consultar en la página web del Sistema de Información sobre Contaminación Acústica, SICA), la situación tiene que seguir mejorando. Es necesario aplicar más medidas sobre movilidad y trabajar en el control del ocio nocturno. El excesivo ruido de los bares en Madrid, concretamente entre las calles de Hilarión Eslava, Fernando el Católico, Guzmán el Bueno y Rodríguez San Pedro (donde se llegan a superar por la noche hasta en 20 decibelios los niveles admisibles), incluso llevó al Ayuntamiento de Madrid, a partir del verano del 2010, a cerrar los bares una hora antes. Esta zona de Madrid fue declarada Zona de Protección Acústica Especial, en la cual se aplica un programa especifico de medidas para reducir el ruido. Además, en una gran ciudad como Madrid, no sólo los vecinos y sus tradicionales actividades de ocio son ruidosas, sino que también emiten contaminación acústica las obras permanentes o el intenso tráfico, problemas indudablemente de difícil solución.

ruidomadrid

En los mapas de ruido de Madrid de 2006, creados por el área de gobierno de Medio Ambiente y Movilidad, se observaba que un porcentaje importante de la población está expuesta a valores superiores a los objetivos de calidad establecidos en la normativa: aproximadamente, por el día un 5.7% de la población sufría ruidos superiores a 65 decibelios, mientras que por la noche este porcentaje ascendía hasta el 20.2% expuestas a más de 55 decibelios. El nuevo mapa estratégico del ruido 2011 de Madrid recientemente publicado refleja avances: de 5.6% a 4.1% en la población expuesta durante el día, y de 20.2% al 14.9% de noche, aunque todavía queda mucho trabajo por delante (más información).

En nuestro estudio presentamos un análisis completo y real de contaminación acústica en la ciudad de Madrid, utilizando los datos históricos del año 2012 aportados por el Departamento de Control Acústico, perteneciente al Área de Gobierno de Medio Ambiente y Movilidad del Ayuntamiento de Madrid. El conjunto de datos proporcionado está compuesto de medidas horarias, desde el 1/1/2012 hasta el 31/12/2012, de las 28 estaciones automáticas de medición de la Red de Vigilancia de la Calidad del Aire del Ayuntamiento de Madrid.

Se realiza un extenso análisis cómo evolucionan los valores en el tiempo dependiendo de las zonas, y se proponen modelos de predicción empleando las técnicas de minería de datos y la metodología propuesta para el modelado de la contaminación en Ciudad 2020. Con estos modelos se tendría una predicción a corto plazo (de las siguientes 24 horas), con la que se podría saber cuándo se van a superar los límites de ruido establecidos por ley, y proponer medidas para paliar los efectos que pueden causar estas situaciones en los ciudadanos (dolores de cabeza, mareos, ansiedad y fatiga, nerviosismo, estrés…).

calairemadrid

Lo más importante es que, aunque por la disponibilidad de datos el estudio se centra en esta ciudad y las conclusiones obtenidas son aplicables exclusivamente en ella, ilustra de forma elaborada los pasos a seguir para el modelado de la contaminación ambiental en general en cualquier ubicación. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

Whitepaper: “Técnicas de modelado predictivo de la contaminación en la ciudad sostenible”

crispdmRecientemente hemos publicado el whitepaper “Modelado predictivo de la contaminación en la ciudad sostenible” que describe en detalle el enfoque y la metodología que hemos adoptado en el marco del proyecto Ciudad2020 para llevar a cabo el modelado predictivo de los niveles de contaminación medioambiental de la ciudad del futuro. Dado que el punto de partida del análisis está constituido por el inmenso volumen de datos recogidos por la red de sensores desplegada por la ciudad, tanto sensores físicos como el sensor ciudadano, este modelado se aborda como un proyecto de minería de datos (data analytics), y por tanto se han utilizado la metodología, técnicas y algoritmos típicos de minería de datos para tratar la información.

El término KDD (Knowledge Discovery in Databases) se acuñó para referirse al (amplio) concepto de hallar conocimiento en los datos, y para enfatizar la aplicación de alto nivel de determinados procesos de minería de datos. En un intento de normalización de este proceso de descubrimiento de conocimiento, de forma similar a como se hace en ingeniería software para normalizar el proceso de desarrollo software, surgieron dos metodologías principales: SEMMA y CRISP-DM. Ambas especifican las tareas a realizar en cada fase descrita por KDD, asignando tareas concretas y definiendo lo que es deseable obtener tras cada fase. En (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), se comparan ambas implementaciones y llega a la conclusión de que, aunque se puede establecer un paralelismo claro entre ellas, CRISP-DM es más completo porque tiene en cuenta la aplicación al entorno de negocio de los resultados, y por ello es la que se ha adoptado en el modelado en Ciudad2020.

El whitepaper, recopilando diferentes referencias documentales, presenta una detallada descripción de la metodología CRISP-DM, sus objetivos, fases de las que consta y tareas contenidas en cada fase. a continuación, se centra en describir en profundidad los dos escenarios de aplicación que se han utilizado en Ciudad2020 y el proceso de modelado de contaminación realizado siguiendo obviamente dicha metodología: predicción de la contaminación atmosférica en la ciudad de Santander (Cantabria, España) y predicción de la contaminación acústica en la ciudad de Madrid (Comunidad de Madrid, España).

calidadairemadrid

SERENA (Sistema Estadístico de predicción por REdes Neuronales de la calidad del Aire en la ciudad de Madrid)

Puede encontrar el whitepaper, información adicional, más documentación y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros… estaremos encantados de atenderle.

A %d blogueros les gusta esto: