Archivo

Posts Tagged ‘Santander’

Analysis: Modeling Air Pollution in the city of Santander (Spain)

We have published a new study entitled “Modeling Air Pollution in the City of Santander (Spain)“, carried out in the context of the project Ciudad2020. In this new document – in a similar way to what we did in our study on noise pollution-, we have focused on presenting the full analysis of real application in the modeling of air pollution in the city of Santander (Spain), which had already been summarily described in our whitepaper on pollution predictive modeling techniques in the sustainable city.

One of the objectives of Ciudad2020 as far as pollution in concerned is to install across the city a wide network of low-cost sensors (with respect to the current model, made of few very expensive and accurate measuring stations). However, at present, the mentioned low-cost sensor network has not been deployed in any city yet, and checking the validity of this model requires data about various pollutants related to an urban center.

cimaThe data used in this analysis are historical data provided by the Environmental Research Centre (CIMA).This entity is an autonomous body of the Government of Cantabria created by law in 1991 and headed by the Ministry of Environment. Its activity is centered on the realization of physico-chemical analyses on the state of the environment and the management of sustainability through Environmental Information, Participation, Education and Environmental Volunteering.

The data set consists of measures taken every 15 minutes between 1/1/2011 and 31/1/2013 by 4 automatic measuring stations of the Air Quality Control and Monitoring Network of Cantabria, which are located in the surroundings of Santander. The values associated to pollutants are the following: PM10 (particles in suspension of size less than 10 microns), SO2 (sulphur dioxide), NO and NO2 (nitrogen oxides), CO (carbon monoxide), O3 (ozone), BEN (benzene), TOL (toluene) and XIL (xylene). In addition, those stations that have a meteorological tower measure the following meteorological parameters: DD (wind direction), VV (wind speed), TMP (temperature), HR (relative humidity), PRB (atmospheric pressure), RS (solar radiation) and LL (precipitation level).

As described in the document, the first step in any modeling study consists in the analysis of data, performed variable by variable and from each measuring station. At least a study of the basic statistics by season (average and standard deviation, median, mode), the distribution of values (histogram) both at global and monthly level and the hourly distribution are requested. The moving average is also analyzed, a statistical feature applicable to the analysis of tendencies which smoothes the fluctuations typical of instant measurements and captures the trends in a given period.

estaciones-cantabria

The next step is to analyze how the variables depend on the others, in order to select the set of variables that most governs the behavior of the output variable. For that purpose correlation analysis has been employed, which is a statistical tool that allows measuring and describing the degree or intensity of association between two variables. In particular, Pearson’s correlation coefficient has been used, which measures the linear relationship between two random quantitative variables X and Y.

Analyses of dependencies have been carried out at the same moment of time, in moments of the past, with differentiated values (difference between the concentration level registered for a contaminant in a given moment of time and the level of 30 minutes before, aiming at detecting trends over time regardless of absolute values) and the moving average value of such contaminant considering different time intervals.

The next step is to evaluate a series of algorithms of modeling with monitored learning (prediction, classification) or not monitored (grouping) to draw conclusions about the behavior of pollution variables. The prediction analysis has been focused on Santander’s center, with 1-hour, 2-hour, 4-hour, 8-hour and 24-hour prediction horizons. Then, the models for each pollution variable in all those horizons have been trained and evaluated. Different machine learning algorithms have been trained in each case (variable-prediction horizon combination): M5P, IBk, Multilayer Perceptron, linear regression, Regression by Discretization, RepTree, Bagging with RepTree, etc. The assessment is performed by comparing the mean absolute error of all different prediction methods.

pollution

For example, when studying the 8-hour prediction, it can be noticed that the hour of the day becomes more important, since citizens behave cyclically and probably what happens at 7 a.m. (e.g. people go to work) relates to what happens at 3 p.m. (e.g. people come back from work).

The last step of the data mining process according to the CRISP-DM methodology would be the implementation in a system of environmental management for obtaining real-time predictions on the different values of pollutants. This implementation has to consider logically the results and conclusions obtained in the analysis and modeling processes at the time of setting up the deployment and prioritizing possible investments.

The most important thing to emphasize is that the analysis illustrates and details the steps to follow in a project of environmental pollution modeling using data mining, although, logically, the analysis and the concrete conclusions only apply, in general, to the city of Santander. You can access the complete study, more information and demos on our website: http://www.daedalus.es/ciudad2020/. If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Estudio: Modelado de la contaminación ambiental en la ciudad de Santander (España)

Hemos publicado un nuevo estudio titulado “Modelado de la contaminación ambiental en la ciudad de Santander (España)“, realizado en el contexto del proyecto Ciudad2020. En este nuevo documento -de forma análoga a lo que hicimos en nuestro estudio sobre contaminación acústica-, nos hemos centrado presentar el análisis completo de aplicación real en el modelado de la contaminación ambiental en la ciudad de Santander (España), que ya había sido descrito de forma resumida en nuestro whitepaper sobre técnicas de modelado predictivo de contaminación en la ciudad sostenible.

Uno de los objetivos de Ciudad2020 en cuanto a contaminación es establecer una red amplia de sensores de bajo coste en la ciudad (frente al modelo actual, de pocas estaciones de medida muy caras y muy precisas). Sin embargo, actualmente, la red de sensores de bajo coste mencionada no está aún desplegada en ninguna ciudad, y para comprobar la validez de este modelo se necesitan datos de distintos contaminantes relacionados con un núcleo urbano.

cimaLos datos utilizados en este estudio son los datos históricos proporcionados por el Centro de Investigación del Medio Ambiente (CIMA). El CIMA es un organismo autónomo del Gobierno de Cantabria dependiente de la Consejería de Medio Ambiente, creado por ley en 1991,y centra su actividad en la realización de análisis físico-químicos sobre el estado del medio ambiente y gestión de la sostenibilidad, a través de la Información Ambiental, de la Participación, de la Educación y del Voluntariado Ambiental.

El conjunto de datos está formado por medidas cuarto-horarias (es decir, 1 medida cada 15 minutos) registradas en las 4 estaciones automáticas de medición de la Red de Control y Vigilancia de la Calidad del Aire de Cantabria que están establecidas en el entorno de la ciudad de Santander (Santander Centro, Tetuán, Cros y Guarnizo), entre el 1/1/2011 al 31/1/2013, de valores asociados a los siguientes contaminantes: PM10 (partículas en suspensión de tamaño inferior a 10 micras), SO2 (dióxido de azufre),NO y NO2 (óxidos de nitrógeno), CO (monóxido de carbono), O3 (ozono), BEN (benceno), TOL (tolueno) y XIL (xileno). Además, aquellas estaciones que disponen de torre meteorológica miden los siguientes parámetros meteorológicos: DD (dirección del viento), VV (velocidad del viento), TMP (temperatura), HR (humedad relativa), PRB (presión atmosférica), RS (radiación solar) y LL (nivel de precipitación).

estaciones-cantabria

Según se describe en el documento, el primer paso de cualquier estudio de modelado consiste en el análisis de los datos, realizado variable a variable y en cada estación de medida. En necesario al menos un estudio de los estadísticos básicos por estación (media y desviación típica, mediana, moda), la distribución de valores (histograma) tanto en global como a nivel mensual y la distribución horaria. Además se analiza la media móvil, estadístico aplicable al análisis de tendencias caracterizado por suavizar las fluctuaciones que se producen en mediciones instantáneas y capturar las tendencias existentes en un determinado período.

El siguiente paso es analizar cómo las variables dependen de las demás, con vistas a seleccionar aquel conjunto de variables que más rige el comportamiento de la variable de salida. Para ello se ha empleado el análisis de correlación, que es una herramienta estadística que permite medir y describir el grado o intensidad de asociación entre dos variables. En concreto se ha utilizado el coeficiente de correlación de Pearson, índice que mide la relación lineal entre dos variables aleatorias X e Y cuantitativas.

Se ha realizado un análisis de dependencias en el mismo instante de tiempo, en instantes de tiempo pasado, con valores diferenciados (diferencia del nivel de concentración registrado para un contaminante en un determinado instante de tiempo y el registrado 30 minutos antes: para intentar detectar tendencias a lo largo del tiempo con independencia de los valores absolutos) y con el valor de la media móvil de dicho contaminante considerando diferentes intervalos de tiempo.

El siguiente paso es evaluar una serie de algoritmos de modelado con aprendizaje supervisado (predicción, clasificación) o no supervisado (agrupamiento) para extraer conclusiones sobre el comportamiento de las variables de contaminación. El análisis de predicción se ha centrado en en Santander Centro, con horizontes de predicción a 1 hora, a 2 horas, a 4 horas, a 8 horas y a 24 horas. Se han entrenado y evaluado modelos de predicción para cada una de las variables de contaminación en todos esos horizontes. En cada caso (combinación variable-horizonte de predicción) se han entrenado diferentes algoritmos de aprendizaje automático: M5P, IBk, Multilayer Perceptron, regresión lineal, Regression by Discretization, RepTree, Bagging con RepTree, etc. La evaluación se realiza comparando el error medio absoluto (Mean Absolute Error) de los distintos métodos de predicción.

pollution

Por ejemplo, al estudiar la predicción a 8 horas, se ve que la hora del día comienza a cobrar importancia, debido a que los ciudadanos se comportan de forma cíclica y probablemente lo que ocurre a las 7 de la mañana (por ejemplo, se sale a trabajar) tenga relación con lo que ocurra a las 3 de la tarde (siguiendo con el ejemplo, se vuelve de trabajar).

El último paso del proceso de minería de datos según la metodología CRISP-DM sería la puesta en producción en un sistema de gestión medioambiental para la obtención de predicciones en tiempo real sobre los diferentes valores de contaminantes. Esta puesta en producción debe considerar lógicamente los resultados y conclusiones obtenidos en el proceso de análisis y modelado, en la hora de diseñar el despliegue y priorizar las posibles inversiones necesarias.

Lo más importante a destacar es que el estudio ilustra y detalla los pasos a seguir en un proyecto de modelado de la contaminación ambiental empleando minería de datos, aunque lógicamente el análisis y las conclusiones concretas sólo son válidas, en general, para la ciudad de Santander. Puede acceder al estudio completo, más información y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros, que estaremos encantados de atenderle.

A %d blogueros les gusta esto: