Archivo

Posts Tagged ‘CRISP-DM’

Whitepaper: “Pollution Predictive Modeling in the Sustainable City”

Recently we have published the whitepaper “Pollution Predictive Modeling in the Sustainable City“, which describes in detail the approach and methodology that we have adopted within the framework of the Ciudad2020 project to perform predictive modeling of environmental pollution levels in the city of the future. Given that the starting point of the analysis is made up of the immense volume of data collected by the network of sensors deployed around the city, both physical sensors and the citizen sensor, this modeling is addressed as a data mining project (data analytics). Therefore, the methodology, techniques and algorithms typical of data mining have been used to process and exploit the information.

crispdmThe term KDD (Knowledge Discovery in Databases) was coined to refer to the (broad) concept of finding knowledge in data and to emphasize the high level application of certain data mining processes. In an attempt at normalizing this process of knowledge discovering, similarly to what it is done in software engineering for standardizing software development, two main methodologies were taken into account: SEMMA and CRISP-DM. Both fix the tasks to perform in each phase described by KDD, assigning specific tasks and defining the expected outcome for each phase. In (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), both implementations are compared and the conclusion is that, although you can draw a parallel between them, CRISP-DM is more complete. In fact, it takes into account also the application of outcomes to the business environment, and, for this reason, it has been adopted for modeling in Ciudad2020.

By collecting different documentary references, the whitepaper presents a detailed description of the CRISP-DM methodology, its objectives, essential phases and tasks. Then, it focuses on describing thoroughly the two application scenarios that have been considered in Ciudad2020 and the pollution modeling process carried out following this methodology: air pollution prediction in the city of Santander (Cantabria, Spain) and noise pollution prediction in the city of Madrid (Spain).

SERENA project (Spanish acronym for Neural Network Statistical Prediction System for Madrid’s Air Quality)

You can find the whitepaper, further information, more documentation and demos on our web page: http://www.daedalus.es/ciudad2020/. If you have any questions or comments, please do not hesitate to contact us, we will be happy to assist you.

[Translation by Luca de Filippis]

Whitepaper: “Técnicas de modelado predictivo de la contaminación en la ciudad sostenible”

crispdmRecientemente hemos publicado el whitepaper “Modelado predictivo de la contaminación en la ciudad sostenible” que describe en detalle el enfoque y la metodología que hemos adoptado en el marco del proyecto Ciudad2020 para llevar a cabo el modelado predictivo de los niveles de contaminación medioambiental de la ciudad del futuro. Dado que el punto de partida del análisis está constituido por el inmenso volumen de datos recogidos por la red de sensores desplegada por la ciudad, tanto sensores físicos como el sensor ciudadano, este modelado se aborda como un proyecto de minería de datos (data analytics), y por tanto se han utilizado la metodología, técnicas y algoritmos típicos de minería de datos para tratar la información.

El término KDD (Knowledge Discovery in Databases) se acuñó para referirse al (amplio) concepto de hallar conocimiento en los datos, y para enfatizar la aplicación de alto nivel de determinados procesos de minería de datos. En un intento de normalización de este proceso de descubrimiento de conocimiento, de forma similar a como se hace en ingeniería software para normalizar el proceso de desarrollo software, surgieron dos metodologías principales: SEMMA y CRISP-DM. Ambas especifican las tareas a realizar en cada fase descrita por KDD, asignando tareas concretas y definiendo lo que es deseable obtener tras cada fase. En (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), se comparan ambas implementaciones y llega a la conclusión de que, aunque se puede establecer un paralelismo claro entre ellas, CRISP-DM es más completo porque tiene en cuenta la aplicación al entorno de negocio de los resultados, y por ello es la que se ha adoptado en el modelado en Ciudad2020.

El whitepaper, recopilando diferentes referencias documentales, presenta una detallada descripción de la metodología CRISP-DM, sus objetivos, fases de las que consta y tareas contenidas en cada fase. a continuación, se centra en describir en profundidad los dos escenarios de aplicación que se han utilizado en Ciudad2020 y el proceso de modelado de contaminación realizado siguiendo obviamente dicha metodología: predicción de la contaminación atmosférica en la ciudad de Santander (Cantabria, España) y predicción de la contaminación acústica en la ciudad de Madrid (Comunidad de Madrid, España).

calidadairemadrid

SERENA (Sistema Estadístico de predicción por REdes Neuronales de la calidad del Aire en la ciudad de Madrid)

Puede encontrar el whitepaper, información adicional, más documentación y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros… estaremos encantados de atenderle.

A %d blogueros les gusta esto: