Whitepaper: “Técnicas de modelado predictivo de la contaminación en la ciudad sostenible”

crispdmRecientemente hemos publicado el whitepaper “Modelado predictivo de la contaminación en la ciudad sostenible” que describe en detalle el enfoque y la metodología que hemos adoptado en el marco del proyecto Ciudad2020 para llevar a cabo el modelado predictivo de los niveles de contaminación medioambiental de la ciudad del futuro. Dado que el punto de partida del análisis está constituido por el inmenso volumen de datos recogidos por la red de sensores desplegada por la ciudad, tanto sensores físicos como el sensor ciudadano, este modelado se aborda como un proyecto de minería de datos (data analytics), y por tanto se han utilizado la metodología, técnicas y algoritmos típicos de minería de datos para tratar la información.

El término KDD (Knowledge Discovery in Databases) se acuñó para referirse al (amplio) concepto de hallar conocimiento en los datos, y para enfatizar la aplicación de alto nivel de determinados procesos de minería de datos. En un intento de normalización de este proceso de descubrimiento de conocimiento, de forma similar a como se hace en ingeniería software para normalizar el proceso de desarrollo software, surgieron dos metodologías principales: SEMMA y CRISP-DM. Ambas especifican las tareas a realizar en cada fase descrita por KDD, asignando tareas concretas y definiendo lo que es deseable obtener tras cada fase. En (Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.), se comparan ambas implementaciones y llega a la conclusión de que, aunque se puede establecer un paralelismo claro entre ellas, CRISP-DM es más completo porque tiene en cuenta la aplicación al entorno de negocio de los resultados, y por ello es la que se ha adoptado en el modelado en Ciudad2020.

El whitepaper, recopilando diferentes referencias documentales, presenta una detallada descripción de la metodología CRISP-DM, sus objetivos, fases de las que consta y tareas contenidas en cada fase. a continuación, se centra en describir en profundidad los dos escenarios de aplicación que se han utilizado en Ciudad2020 y el proceso de modelado de contaminación realizado siguiendo obviamente dicha metodología: predicción de la contaminación atmosférica en la ciudad de Santander (Cantabria, España) y predicción de la contaminación acústica en la ciudad de Madrid (Comunidad de Madrid, España).

calidadairemadrid

SERENA (Sistema Estadístico de predicción por REdes Neuronales de la calidad del Aire en la ciudad de Madrid)

Puede encontrar el whitepaper, información adicional, más documentación y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/. O si tiene alguna pregunta o comentario, no dude en contactar con nosotros… estaremos encantados de atenderle.

The Citizen Sensor: the citizen as a sensor in the city of the future

sensorciudadano1One of our most promising lines of work in the Ciudad2020 R&D project (INNPRONTA Program, funded by CDTI, Technological and Industrial Development Center) focuses on the concept that we have defined as Citizen Sensor: the log of events in relation with citizens and their municipality.

By applying Textalytics’ semantic technologies, we can analyze in detail the citizen’s voice, extracting heterogeneous, high-level information. Being this highly descriptive and with high added value, it is useful to model the citizen’s urban behavior and his/her relationship with the city of the future. In this way the citizen becomes a sensor integrated in the network of sensors of the systems of the city.

The Citizen Sensor can provide data in different ways:

  • Mobile phone.- For example, to detect noise pollution, the user could start an application on his/her smartphone to record the noise level and send it to the city servers. This act will give us a map of the most significant sources of noise of the city, which evolves over time (works in the mornings, parties on weekends…).
  • Citizen’s events.- For example, the user validates the train ticket to go to work. This, added to the events generated by the rest of users who use the train, will give us an idea of the density of travelers who use the train to go to work each morning and which way they go through.
  • Social networks.- Our systems can analyze the flow of tweets in a geographic area to know what users are talking about, and if it is something relevant (a car crash that provokes traffic jams, a fire, a music festival…) we can use those data to develop a precise model with much more adjusted predictions. We can also collect the citizens’ thinking or opinion with respect to policies taken by the local authority (for example, the policy of reducing consumption on air-conditioning in public transport).

As a preliminary work, we have built an ontology that defines the different dimensions which are going to guide the semantic analysis. We are currently collecting information from Twitter, and in particular, our aim is to identify in each tweet the location where the user is located (a public building like the city hall or a hospital, parks, transportation facilities, places of leisure or work, etc.), the concept (city services, supplies, sign posts, etc.), or the specific event it refers to (concerts or sporting events, or problematic situations as breakdowns, traffic jams, accidents, fires), as well as the subject area of the message (politics, economy, quality of life, tourism, sport, social interest…). This analysis is complemented by a sentiment analysis able to detect the polarity of the message (very positive, positive, negative, very negative and neutral).

sensorciudadano2

The aim is to merge the semantic analysis with the user’s geopositioning in order to obtain interesting results on what citizens talk and opine about, in real time, as a city management console. This type of analysis could serve, for example, for early detection of risk situations such as accidents or supply breakdowns on public roads, fights in leisure areas, condition (cleaning, security, services) of public parks or beaches, etc.

For this analysis we use our APIs of language detection (which can process Spanish, English, French, Italian, Portuguese and Catalan), extraction of entities, automatic classification, sentiment analysis and demographic classification of users, all included in Textalytics Core.

sensorciudadano3

At the moment we are researching in temporal analysis, to try to detect the citizens’ tendencies of behavior and opinion throughout the time of analysis. This research consists of comparing the condition of the city at different moments of time to analyze and interpret the differences which will be due either to the daily life of the city (for example, the natural increase of public activity as the morning advances) or unexpected situations that might be predicted.

You can find more information, documentation, and demos on our web page: http://www.daedalus.es/ciudad2020/Sensor_Ciudadano. If you have any questions or comments, please do not hesitate to contact us.

[Translation by Luca de Filippis]

Offensive comments from readers in European online media have come to a full stop: Media will be responsible. What’s next?

28 octubre, 2013 1 comentario

The European Court of Human Rights issued on October 10th a very relevant sentence for European media companies. The case was brought by the Estonian news website Delfi, sued by the Justice of its country for having published offensive comments of readers against the director of a company which acted as a source of information. The publication of the news in question occurred on January 24th, 2006, and a few weeks later, on March 9th, the lawyers of the victim requested the withdrawal of 20 offensive comments and compensation for moral damages. The news website removed the comments on the same day and rejected the economic request. The following month, a civil lawsuit was filed before the Estonian courts. This lawsuit reached the national highest court, which upheld the guilty verdict and sentenced the media company to provide 320 euros in compensation to the plaintiff.

Delfi, the company that owns the news portal, resorted to Strasbourg (headquarters of the European Court of Human Rights), stating that the sentence violated the principle of freedom of expression, protected by article 10 of the Convention for the Protection of Human Rights and Fundamental Freedoms.

delfi

Now, this European court has ruled against the media company. And this despite the fact that Delfi had an automatic (rudimentary) system to filter out comments that included some keywords (insults or other problematic words). In addition, Delfi had a mechanism with which readers could mark a comment as inappropriate. The sentence considers that this filter was insufficient to prevent damage against the honor of third parties and that the media company should have taken more effective action to prevent these situations.

The court considers reasonable to hold responsible the editor, being its function to publish information and give visibility to the comments of readers, and profiting through the traffic generated by those comments.

What now? In an entry of this blog, entitled “Moderating participation in the media” [in Spanish] and published a couple of years ago, we summed up the difficulties and the keys of our approach to help solving a problem that is not trivial.

Difficulties are manifold. On the one hand, the detection of isolated offensive words is not enough and it is necessary to filter expressions, sometimes taking into account their context and inflected forms. On the other hand, it is also necessary to interpret the abbreviated language or texts with typographic errors, which are noticeably frequent in comments and user-generated content sections. These “errors” can arise from limitations of devices, the impulsive aspect of commenting, or the users’ intention to cheat the automatic filters trying to outsmart them by all means. (Sometimes in really witty ways).

In addition to this problem related to the Variety of texts, we find the other two recurring features in “big data” applications (forming the famous 3Vs): Volume of the comments to be processed and Velocity of response required.

At Daedalus, we have been addressing these problems for the media industry for years and lately also for other sectors, like banking and insurance.

As regards the integration architecture of our solutions, we are currently offering them in SaaS (Software as a Service) mode, from our new APIs platform in the cloud Textalytics, as well as the traditional licensing to run on-premises.

With automatic filtering systems, we cannot guarantee 100% accuracy for any filtering task. Different companies or media, and different sections within a same medium, require different strategies. It seems clear that it makes no sense applying the same filter criteria to the comments of a brilliant feature article and to the interventions that emerge during the live broadcast of a football match or a reality show. In this sense, our systems assess the gravity of the expression, allowing our customers to set flexibly their acceptability threshold. On the other hand, we provide customization tools to facilitate the incorporation of new problematic expressions. Finally, we also permanently monitor the operation of these systems for customers who wish it, within their plans of continuous quality assurance and improvement.

Are you interested? Feel free to contact Daedalus.

Discover our solutions for the media industry.

References to this topic:

Jose C. Gonzalez

See you at Big Data Spain!

The second edition of Big Data Spain, one of the landmark events in Europe on technologies and business applications of big data, will take place in Madrid next 7 and 8 November.

Some analysts’ estimates give an idea of the importance of the big data phenomenon. As reported in a survey by Gartner, 49% of organizations are already investing in these technologies or hope to do it over the next year. And according to IDC forecasts, big data will shape a market that will reach 16,900 million dollars in 2015.

Big Data Spain

In Daedalus, big data is one of our key technologies in multiple solutions to clients (usually combined with semantic processing) and therefore we proposed to the conference a paper which fortunately has been selected.

Our colleague César de Pablo (@zdepablo ) will be presenting, with the title “Real-time social semantic search engine for TV streams“, how we solve the problems of search and real-time analysis in social TV applications.

While TV viewers turn to social media in search of shared experiences while viewing programs, TV channels and brands do the same to get real-time insights about their programs and audience. This requires real-time processing of a large amount of social content, something that cannot be solved with traditional storage, analysis and retrieval technologies. More information about the presentation here.

If you plan to attend the conference it will be an excellent opportunity to talk in person. If not, we invite you to stay tuned to this channel, where we will soon publish our impressions of the event.

¡Nos vemos en Big Data Spain!

Los próximos 7 y 8 de noviembre se celebra en Madrid la segunda edición de Big Data Spain 2013, uno de los eventos de referencia en Europa sobre las tecnologías y las aplicaciones de negocio del big data.

Sobre la importancia del fenómeno big data dan idea algunas estimaciones de los analistas. Según un sondeo de Gartner, el 49% de las organizaciones ya está invirtiendo en estas tecnologías o espera hacerlo durante el próximo año. Y de acuerdo a las previsiones de IDC, el big data conformará un mercado que alcanzará los 16.900 millones de dólares en 2015.

Big Data Spain

En Daedalus, el big data es una de nuestras tecnologías clave en múltiples soluciones a clientes (generalmente combinada con el procesamiento semántico) y por eso propusimos a la conferencia una ponencia que afortunadamente ha sido seleccionada.

Nuestro compañero César de Pablo (@zdepablo) estará presentando, con el título “Real time semantic search engine for social tv streams”, cómo resolvemos los problemas  de búsqueda y análisis en tiempo real en aplicaciones de TV social.

A la vez que los espectadores de TV acuden a los medios sociales en busca de experiencias compartidas mientras ven los programas, los canales de TV y las marcas comerciales hacen lo propio para obtener insights en tiempo real sobre sus programas y la audiencia. Todo ello exige el proceso en tiempo real de grandes cantidad de contenido social, algo que no puede resolverse con las tecnologías de almacenamiento, análisis y búsqueda tradicionales. Más información sobre la ponencia aquí.

Si pensáis asistir a la conferencia será una excelente ocasión para hablar en persona. Y si no, os invitamos a que permanezcáis atentos a este canal donde pronto publicaremos nuestras impresiones sobre el evento.

Punto final para los comentarios ofensivos de los lectores en los medios de comunicación online: los medios serán los responsables. Y ahora, ¿qué?

24 octubre, 2013 1 comentario

El Tribunal Europeo de Derechos Humanos, el mismo que acaba de deslegitimar la aplicación retroactiva de la denominada “doctrina Parot”, dictó el pasado día 10 de octubre una sentencia muy relevante para los medios de comunicación europeos.

El caso en cuestión fue interpuesto por la web de noticias estonia Delfi, condenada por la justicia de su país por la publicación de comentarios ofensivos de lectores contra el director de una empresa que actuaba como fuente de una información. La publicación de la noticia en cuestión se produjo el 24 de enero de 2006, y algunas semanas después, el 9 de marzo, los abogados del ofendido solicitaron la retirada de 20 comentarios ofensivos y una indemnización por daños morales. La web de noticias retiró los comentarios el mismo día y rechazó la petición económica. Al mes siguiente, se interponía una demanda judicial civil ante los tribunales estonios. Esta demanda llegó hasta la máxima instancia judicial nacional, que confirmó la culpabilidad y condenó al medio a una indemnización de 320 euros para el demandante.

delfi

La empresa propietaria del portal de noticias, Delfi, recurrió a Estrasburgo (sede del Tribunal Europeo de Derechos Humanos), considerando que la condena vulneraba el principio de libertad de expresión, amparado por el artículo 10 de la Convención para la Protección de los Derechos Humanos y las Libertades Fundamentales.

Ahora, este tribunal europeo ha fallado en contra del medio de comunicación. Y ello a pesar de que Delfi disponía de un sistema automático (rudimentario) para filtrar comentarios que incluyeran algunas palabras clave (insultos u otras palabras problemáticas). Además, Delfi disponía de un mecanismo con el que los propios lectores podían marcar un comentario como inadecuado. La sentencia considera que este filtro era insuficiente para impedir daños contra el honor de terceros y que el medio debió tomar medidas más efectivas para prevenir estas situaciones.

El Tribunal considera razonable responsabilizar al editor, siendo su función publicar informaciones y dar visibilidad a los comentarios de los lectores, y lucrándose por ello a través del tráfico generado por esos comentarios.

Y ahora, ¿qué hacer? En un texto de este mismo blog, titulado “Moderar la participación en los medios“, publicado hace un par de años, resumíamos las dificultades y las claves de nuestro enfoque para ayudar a resolver un problema que no es trivial.

Las dificultades son múltiples. Por un lado, no basta con detectar palabras ofensivas aisladas, sino que es necesario filtrar expresiones, a veces teniendo en cuenta el contexto de la expresión y sus variantes flexivas. Por otro lado, hay que interpretar el lenguaje abreviado o los textos con errores ortotipográficos tan frecuentes en las secciones de participación o en los contenidos generados por usuarios. Estos “errores” pueden derivarse de las limitaciones de los dispositivos, del carácter impulsivo de los comentarios, o de la intención enmascaradora de los propios usuarios que, a sabiendas de la existencia de filtros automáticos, tratan de burlarlos por todos los medios (a veces con mucho ingenio).

Además de este problema relacionado con la Variedad de los textos, encontramos las otras dos características recurrentes en las aplicaciones de “big data” (conformando las famosas 3V): el Volumen de comentarios a tratar y la Velocidad de respuesta requerida.

En Daedalus, venimos abordando estos problemas desde hace años para el sector de los medios, y últimamente también en otros sectores, como el de banca y seguros.

En cuanto a la arquitectura de integración de estas soluciones, en la actualidad las estamos ofreciendo como un servicio en modo SaaS (Software as a Service), desde nuestra plataforma Textalytics de APIs en la nube, además del  tradicional licenciamiento para su ejecución on-premises.

Con los sistemas automáticos, no podemos garantizar un 100% de precisión para cualquier tarea de filtrado. Diferentes empresas o medios, y diferentes secciones dentro de un mismo medio, requieren distintas estrategias. Parece evidente que no tiene sentido aplicar los mismos criterios de filtrado a los comentarios de un sesudo artículo de fondo que a las intervenciones surgidas durante la transmisión en directo de un partido de fútbol o de un reality show. En ese sentido, nuestros sistemas caracterizan la gravedad de la expresión, permitiendo flexibilidad a nuestros clientes para establecer el umbral idóneo para su caso. Por otro lado, proporcionamos herramientas de personalización para facilitar la incorporación de nuevas expresiones problemáticas. Por último, también monitorizamos permanentemente el funcionamiento de estos sistemas para los clientes que lo desean, dentro de sus planes de aseguramiento y mejora continuada de la calidad.

¿Interesado? No dude en ponerse en contacto con Daedalus.

Descubra nuestras soluciones para el sector de medios.

Referencias a este asunto:

José Carlos González

Sensor Ciudadano: El ciudadano como sensor de la ciudad del futuro

Sensor ciudadanoUna de nuestras líneas de trabajo más prometedoras en el proyecto Ciudad2020 (Programa INNPRONTA, financiado por el CDTI) se centra en el concepto que hemos bautizado como Sensor Ciudadano: el registro de eventos en la relación del ciudadano con su municipio.

Mediante la aplicación de las tecnologías semánticas de Textalytics, podemos analizar en detalle la voz del ciudadano, extrayendo información heterogénea de alto nivel, muy descriptiva y de gran valor añadido, que sirve para modelar el comportamiento urbano del ciudadano y su relación con la ciudad del futuro. De esta forma el ciudadano se convierte en un sensor más integrado en la red de sensores de los sistemas de la ciudad.

El Sensor Ciudadano puede registrarse de distintas formas.

  • Teléfono móvil.- Por ejemplo, para detectar contaminación acústica, el usuario podría arrancar una aplicación en su smartphone para registrar el nivel de ruido y enviarlo a los servidores de la ciudad. Este gesto nos dará un mapa de los focos de ruido más destacables de la ciudad, que evoluciona en el tiempo (obras por las mañanas, fiestas los fines de semana…).
  • Eventos del ciudadano.- Por ejemplo, el usuario pica el billete de tren para dirigirse a su trabajo. Esto, agregado a los eventos generados por el resto de usuarios que usen el tren, nos dará una idea de la densidad de viajeros que usan el tren para ir al trabajo cada mañana y qué trayecto hacen.
  • Redes sociales.- Nuestros sistemas pueden analizar el flujo de tweets en un área geográfica para saber de qué hablan los usuarios, y si es algo relevante (un accidente de coche que provoca retenciones, un incendio, un festival de música…) podemos usar estos datos para elaborar un modelo preciso con predicciones mucho más ajustadas. También podemos recopilar la posición u opinión de los ciudadanos respecto a las políticas de la administración local (por ejemplo, disminución del consumo en climatización en transporte público).

Como trabajos preliminares, hemos construido una ontología que define las diferentes dimensiones hacia las que se va a orientar el análisis semántico. Actualmente estamos recogiendo información de Twitter, y en concreto vamos a intentar identificar en cada tweet la ubicación en la que se encuentra el usuario (un edificio público como ayuntamiento u hospital, parques, medio de transporte, lugar de ocio o de trabajo, etc.), el concepto (servicios de la ciudad, suministros, señalización, etc.), o evento específico al que se refiera (conciertos o eventos deportivos, o bien situaciones problemáticas como averías, atascos, accidentes, incendios), así como el área temática del mensaje (sobre economía, política, calidad de vida, turismo, deporte, interés social…). Este análisis se complementa con un análisis de sentimientos para obtener la polaridad del mensaje (muy positiva, positiva, negativa, muy negativa y neutra).

sensorciudadano2

El objetivo es combinar el análisis semántico con la geoposición del usuario para intentar obtener resultados interesantes sobre lo que hablan y opinan los ciudadanos, en tiempo real, a modo de consola de gestión de la ciudad. Este tipo de análisis podría servir, por ejemplo, para detección temprana de situaciones de riesgo como accidentes o averías de suministros en la vía pública, peleas en zonas de ocio, situación (limpieza, seguridad, servicios) de los parques públicos o playas, etc.

Para este análisis usamos nuestras API de detección de idioma (podemos tratar español, inglés, francés, italiano, portugués y catalán), extracción de entidades, clasificación automática, análisis de sentimientos y clasificación demográfica de usuarios, incluidas en Textalytics Core.

sensorciudadano3

Actualmente estamos investigando en el análisis temporal, para intentar detectar tendencias de comportamiento y opinión de los ciudadanos a lo largo del periodo de tiempo de análisis. Este análisis consiste en comparar la situación de la ciudad en diferentes instantes de tiempo para analizar e interpretar las diferencias, que serán debidas bien a la vida cotidiana de la ciudad (por ejemplo, el incremento natural de la actividad ciudadana según avanza la mañana) o bien a situaciones inesperadas que se quieren predecir.

Puede encontrar más información, documentación y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/Sensor_Ciudadano. Si tiene alguna pregunta o comentario, no dude en contactar con nosotros.

Grabación y Q&A del webinar sobre Textalytics

El pasado 8 de octubre celebramos nuestro webinar sobre Textalytics – la manera más sencilla de incorporar procesamiento semántico a tus aplicaciones.

Textalytics

Para vuestra comodidad hemos subido los contenidos a esta página del área de webinars del sitio de Daedalus. Esperamos que os sea útil.

Durante la sesión tuvimos la suerte de recibir numerosas preguntas. Como referencia, y para dar respuesta a algunas que se quedaron sin contestar por falta de tiempo aquí tenéis un resumen del Q&A:

Jorge: ¿Como se personaliza Textalytics con el vocabulario específico de cada dominio? Me refiero por ejemplo a vocabulario técnico. ¿Es con la funcionalidad que estará lista para octubre?

Con la primera versión de la API de Publicación Semántica estará disponible la posibilidad de definir un diccionario personalizado en el que se pueden añadir entidades y conceptos con información asociada como tipos e identificadores propios. Esto permitirá definir un vocabulario técnico específico como el que deseas.

Sergio: Si tengo mi ontología “propia” ¿la puedo incorporar a Textalytics ?

El diccionario personalizado te va a permitir introducir instancias de tu ontología y asociarles una de tus clases. También vas a poder añadir tus propias clases y establecer relaciones jerárquicas entre ellas.

José: ¿La API es vía servicio web o podemos integrarlo en nuestras aplicaciones Java?

Textalytics ofrece ambas posibilidades: se puede invocar vía servicios web REST o desde Java utilizando nuestro SDK para ese lenguaje. Lo mismo ocurre actualmente con Python y PHP.

Alfonso: ¿Hay planes de lanzar una API para .NET?

Las API de Textalytics son REST estándar y se pueden invocar desde aplicaciones .NET.

Marta: ¿Se diferencia entre subjetividad y objetividad? (¿polar facts?)

En Sentiment Analysis API (https://textalytics.com/core/sentiment-1.1-info) dentro del conjunto de Core API tienes la posibilidad de acceder a un análisis detallado de la opinión que incluye subjetividad/objetividad además de polaridad y la intensidad del sentimiento expresado (P+,P,NEU,N,N+). La combinación de ambos te permite identificar “polar facts”.

Rafa: ¿Qué valor añadido ofrecen vuestras bases de conocimiento en cuanto a las propiedades de las entidades? Estoy pensando por ejemplo en un caso de uso sencillo en el que después de haber analizado el texto y extraido entidades de tipo Lugar, quiero filtrar mis contenidos por ejemplo por aquellos documentos que hablen de ciudades con más de un cierto número de habitantes.

Nuestras bases de conocimiento propias incluyen principalmente información lingüística y temática (alias, variantes, etc.). Además mantenemos varios rasgos que son importantes para algunas tareas concretas (fictional characters, historic) y otros genéricos como son relaciones de inclusión geográfica. Para los datos más “factuales” como la población de una ciudad nuestros recursos semánticos están conectados con fuentes de Open Linked Data (Geonames, Dbpedia, Freebase, etc ) y Wikipedia. Puedes encontrar información más detallada en la página de Topics Extraction API (https://textalytics.com/core/topics-info). Nuestro servicio Semantic Linked Data Viewer (https://textalytics.com/core/semldviewer-1.1-info) permite entregar estos datos externos, que pueden utilizarse para filtrar y relacionar entidades y otros elementos desde la aplicación usuaria.

Enrique: ¿De temas multimedia en qué situación estáis?

Disponemos de una API para la transcripción voz-texto y el reconocimiento de locutor  (https://textalytics.com/core/asr-info) que ofrecemos junto a nuestros partners de Vocapia Research. Puedes evaluarla completamente gratis dentro del Plan Gratuito analizando hasta 50 minutos de audio.

Joan: ¿Qué idiomas están soportados?

Español e inglés están soportados para todas las API. En Francés, Italiano, Portugués y Catalán están disponibles muchas de las funcionalidades. Para una lista completa puedes visitar este enlace https://textalytics.com/core/supported-languages.

Ricardo: A la hora de captar entidades/contenidos dentro de un texto, ¿se podrán introducir, por ejemplo, listas con tus propios términos, y de ahí conseguir un análisis de los mismos?

Efectivamente, la funcionalidad de diccionario personalizado va a permitir introducir términos específicos para un dominio. Estos términos pasan a ser “de primer nivel” dentro de Textalytics de forma que es posible reconocer variantes morfológicas. Para poner un ejemplo típico, si se define “redes de ordenador” como concepto a la hora de reconocer y agrupar variantes morfológicas como “redes de ordenadores”.

Enrique: ¿Qué pasa si llego al tope de créditos?

Si se supera el límite mensual de créditos gratuitos el contador se pone a cero al principio del siguiente mes. Siempre se pueden contratar paquetes con más créditos, a precios que empiezan en 149 €. Más info en https://textalytics.com/precios.

Categorías:API, Textalytics

Sentiment Analysis in Spanish: TASS corpus released

The corpus used in TASS, the Workshop on Sentiment Analysis in Spanish organized by Daedalus, has been made freely available to the research community after the workshop. With the creation and release of this corpus, we aim to provide a common benchmark dataset that enables researchers to compare their algorithms and systems. Results from participants in TASS 2012 and TASS 2013 are already available to compare.

The corpus is divided into General and Politics corpus. Both are written in XML following the same schema.

General corpus

The General corpus contains 68 017 Twitter messages, written in Spanish by 154 well-known celebrities of the world of politics, communication and culture, between November 2011 and March 2012. Although the context of extraction has a Spain-focused bias, the diverse nationality of the authors, including people from Spain, Mexico, Colombia, Puerto Rico, USA and many other countries, makes the corpus reach a global coverage in the Spanish-speaking world.

Each message has been tagged with its global polarity, indicating whether the text expresses a positive, negative or neutral sentiment, or no sentiment at all. 5 levels have been defined: strong positive (P+), positive (P), neutral (NEU), negative (N), strong negative (N+) and one additional no sentiment tag (NONE). In addition, the sentiment agreement level within the content has been classified into two possible values: AGREEMENT and DISAGREEMENT. This allows to make out whether a neutral sentiment comes from neutral keywords or else the text contains positive and negative sentiments at the same time.

Moreover, the values of the polarity at entity level, i.e., the polarity values related to the entities that are mentioned in the text, has been also included. These values are similarly divided into 5 levels and include the level of agreement as related to each entity.

On the other hand, a selection of a set of 10 topics has been made based on the thematic areas covered by the corpus, such as “politics”, “soccer”, “literature” or “entertainment”. Each message has been assigned to one or several of these topics.

tass2013corpus

The General corpus has been divided into two sets: training (7 219 tweets) and test (60 798 tweets) sets. The training set has been manually tagged. The tagging in the test set has been generated by pooling all submissions from participants in the TASS tasks with a votation schema followed by an extensive human review of the ambiguous decisions, which unfortunately is subject to errors. In the case of the polarity at entity level, the tagging has just been done for the training set, due to the high volume of data to check and the lack of participants in the task.

In addition, the political tendency of users has been manually identified and assigned to one of the four possible values: LEFT, RIGHT, CENTRE and UNDEFINED. The aim of Task 4 in TASS 2013 was in fact to estimate his/her political tendency based on the user’s tweets.

topic

Politics corpus

The Politics corpus contains 2 500 tweets, gathered during the electoral campaign of the 2011 general elections in Spain (Elecciones a Cortes Generales de 2011), from Twitter messages mentioning any of the four main national-level political parties: Partido Popular (PP), Partido Socialista Obrero Español (PSOE), Izquierda Unida (IU) and Unión, Progreso y Democracia (UPyD).

Similarly to the General corpus, the global polarity and the polarity at entity level for those four entities has been manually tagged for all messages. However, in this case, only 3 levels are used in this case: positive (P), neutral (NEU), negative (N), and one additional no sentiment tag (NONE). Moreover, to simplify the identification of the named entities, a “source” attribute is assigned to each tagged entity, indicating the political party to which the entity refers.

 

All the information is available in the TASS 2013 Corpus page. If you are interested, please send an email to tass AT daedalus.es with your email, affiliation and a brief description of your research objectives, and you will be given a password to download the files in the password protected area.

Daedalus estará en Greencities & Sostenibilidad (Málaga)

Por segundo año, Daedalus estará presente en Greencities & Sostenibilidad, el IV salón profesional sobre Inteligencia aplicada a la Sostenibilidad Urbana que se celebra el 2 y 3 de octubre en Málaga, como socios del proyecto de I+D+i Ciudad 2020 (programa Innpronta). Greencities & Sostenibilidad es un foro profesional único y participativo, que aúna la iniciativa municipal y privada para poner sobre la mesa soluciones y tendencias que ayuden a mejorar la sostenibilidad en las urbes, centrado en tres temáticas fundamentales: Edificación, Eficiencia Energética y Ciudades Inteligentes.

Dentro del stand de Ciudad 2020 en la zona expositiva, presentaremos nuestros últimos trabajos en el proyecto, centrados en la sostenibilidad ambiental (investigación y desarrollo de modelos y sistemas de predicción y gestión de la contaminación ambiental y acústica), la evaluación del impacto de las políticas de eficiencia energética en la sociedad, y el concepto de “sensor ciudadano“, como modelo innovador de capturar, analizar y explotar información heterogénea, muy descriptiva y de gran valor añadido, generada directamente por los ciudadanos sobre la realidad de su ciudad, en concreto, en nuestro caso, proveniente de redes sociales.

malaga-peq

Además estaremos presentes en una mesa redonda en el Foro TIC & Sostenibilidad, en el bloque “Ciudades Inteligentes”, el 2 de octubre de 13:45 a 14:30 h, donde se expondrán los últimos avances de la segunda anualidad del proyecto Ciudad 2020, orientados a conseguir el diseño de un espacio urbano sostenible, inteligente y eficiente con un modelo de ciudad referente para alcanzar una calidad de vida óptima.

Por último, el mismo día 2 de octubre estaremos en el Foro Tikal, I Foro de Tecnología, Innovación y Conocimiento de América Latina, promovido por la Escuela de Organización Industrial (EOI) y el Área de Innovación y Nuevas Tecnologías del Ayuntamiento de Málaga y cofinanciado por Fondos Feder, donde se darán cita alcaldes, representantes y equipos técnicos municipales de las ciudades más importantes de países latinoamericanos para debatir sobre iniciativas de smart cities a ambos lados del Atlántico.

Categorías:Eventos, Smartcities
A %d blogueros les gusta esto: