Procesamiento semántico | El Blog de Daedalus

Archivo

Archive for the ‘Procesamiento semántico’ Category

Entendiendo la TV Social con tecnologías de Análisis Semántico y Big Data

25 noviembre, 2013 César de Pablo Deja un comentario

Recientemente hemos participado en la conferencia Big Data Spain con una charla titulada «Real time semantic search engine for social TV streams». En esta charla resumimos nuestra experiencia en el área de TV Social, donde estamos combinando tecnologías de análisis semántico y de procesamiento de flujos de datos (streams) en tiempo real para entender las redes sociales.

La TV Social es un fenómeno en claro crecimiento ya que cada vez es más frecuente el uso de redes sociales mientras vemos la televisión. Por ejemplo, Twitter ya reportaba el año pasado que en Reino Unido más de un tercio de todos los comentarios durante el primetime eran sobre lo que pasaba en la pantalla del televisor. Hace semanas, Facebook reivindicaba su lugar en la TV social afirmando que el volumen de comentarios privados sobre TV en su plataforma era 5 veces mayor. Esta red social ha empezado también a ofrecer hashtags e incluso una nueva API, Keywords Insight, para que algunos socios tengan acceso a estadísticas agregadas de las conversaciones dentro de los muros de Facebook.

A medida que el número de usuarios que acaban comentando su programa favorito de TV en las redes sociales con amigos o extraños, las cadenas han empezado a hacer uso de estas herramientas para participar en la conversación. Durante el último año se ha incrementado el número de programas que hacen uso de hashtags oficiales, a veces incluso varios durante una sola emisión. Más allá de la búsqueda del trending topic, los que con mayor éxito han experimentado fomentan incluso la participación de presentadores o actores durante la emisión del programa. En España, «Salvados» o «Pesadilla en la Cocina» son ejemplo de lo primero y la serie «Isabel» para el caso de los actores.

Aunque no hay nada nuevo en el hecho de socializar alrededor del contenido de la tele, la posibilidad de medir y de destilar estos comentarios sí que es característico del nuevo contexto. Además, esta conversación no se produce al día siguiente sino que su impacto es inmediato. Todo esto se suma para abrir un nuevo abanico de posibilidades para espectadores, radiodifusores y las grandes marcas. Los usuarios han encendido la mecha de la TV Social ya que les conecta con amigos y el resto de la audiencia. Es a la vez una forma de sentirse parte del programa y al mismo tiempo de involucrarse más. Por tanto, las herramientas que faciliten organizar y comprender la conversación son de especial interés para el espectador social. Para el resto de espectadores, incluso para aquellos que solo participan leyendo, es una forma de generar tanto recomendaciones sociales. Otro uso interesante es que analizar la conversación social permite contextualizar contenido relevante y relacionado con el programa como información sobre los actores, personajes o cualquier otro concepto del que se hable en la pantalla grande.

Por otro lado, comprender la conversación en torno a un programa es de tremenda utilidad para los canales de TV y las marcas que los financian. Las productoras y cadenas pueden medir las preferencias de sus espectadores y los de la competencia, y además en tiempo real, según se está emitiendo. Está información cualitativa permite hacer una lectura mucho más informada de los datos cuantitativos de audiencia. Llegar a los consumidores adecuados y medir el impacto de las campañas de publicidad son solo dos ejemplos de lo que las marcas buscan en la TV social. Por último, no solo se trata de escuchar pasivamente, tanto los programas como los anuncios van a ser cada vez más interactivos y a buscar la participación de los espectadores mediante las redes sociales.

En nuestra charla, describimos un sistema que combina análisis semántico y tecnologías de big data como una herramienta para sacar partido de las redes sociales. El sistema combina varios componentes de procesamiento de lenguaje natural de Textalytics API junto a una base de datos semi-estructurada, SenseiDB, para proporcionar visualizaciones interactivas de los comentarios de TV sobre la base de la búsqueda semántica, la búsqueda por facetas y un sistemas de analítica en tiempo real.

Mediante el uso de Textalytics API somos capaces de extraer información relevante para la TV social como el sentimiento acerca de una entidad (un programa, actor o deportista) Además, el reconocimiento de entidades y la extracción de información temática nos permite producir trending topics dentro de un programa con una alta correlación con lo que ocurre en pantalla. Estos temas unidos a las facetas online proporcionadas por SenseiDB funcionan como una manera efectiva de organizar la conversación al vuelo. Otras funcionalidades como el reconocimiento de idioma o la clasificación de texto cumplen un papel importante pero oculto y nos ayudan a filtrar el flujo de comentarios de contenido ruidoso.

El segundo de los componentes esenciales del sistema es SenseiDB, una base de datos semi-estructurada de código abierto que permite ingerir streams y buscarlos en tiempo real, es decir, con baja latencia tanto en la indexación como en la búsqueda. SenseiDB incluye un gran número de tipos de facetas que permiten organizar los metadatos semánticos que extraemos con Textalytics. Con la ayuda de facetas de tipo histograma o rango se pueden realizar incluso ciertas tareas de analítica que incluyen tipos de datos complejos como el tiempo. Además, una de las características más interesantes es que incluye un lenguaje de consulta sencillo e intuitivo, BQL, que es de gran utilidad para el desarrollo iterativo de visualizaciones.

Si te ha parecido interesante, te animo a que le eches un vistazo a la presentación o incluso al vídeo del evento.

Categorías: API, Big data, Eventos, Medios sociales, Procesamiento semántico, Textalytics, TV social Etiquetas: análisis semántico, Big data, nlp, PLN, procesamiento de eventos en tiempo real, procesamiento de lenguaje natural, redes sociales, senseidb, Textalytics, tv social

Últimas tendencias en análisis de datos en Big Data Spain 2013

19 noviembre, 2013 César de Pablo Deja un comentario

La segunda edición de Big Data Spain, uno de los eventos pioneros en las tecnologías y aplicaciones del procesamiento masivo de datos se celebró el 7 y el 8 de Noviembre en Madrid. El evento que consiguió atraer a más de 400 asistentes, el doble que el año pasado, refleja el creciente interés en estas tecnologías también en España. Daedalus participó con una ponencia donde demostraba el uso de tecnologías de procesamiento de lenguaje natural, Big Data y redes sociales para el análisis en tiempo real de la TV social.

La tecnología de Big Data ha crecido y madurado cuando están a punto de cumplirse 10 años desde la publicación de MapReduce, el modelo de computación masiva y distribuida que marcó su inicio.

Rubén Casado, en una de las charlas más útiles para establecer un mapa del ingente número de proyectos de Big Data y NoSQL definió la historia de la tecnología en tres fases:

Procesamiento masivo en batch ( 2003 – ) con exponentes como Hadoop o Cassandra.
Procesamiento en tiempo real ( 2010 – ) representado con tecnologías como Storm, Kafka o Samza
Procesamiento híbrido ( 2013 – ) que trata de unificar los dos anteriores en un modelo de programación única. Son ejemplos notables Summingbird o Lambdoop.

Sin duda, la primera hornada de soluciones está lista para la empresa con distribuciones basadas en la pila tecnológica de Hadoop como Cloudera, MapR o HortonWorks. Del mismo modo crece el número de empresas que están integrando u ofrecen servicios de consultoría sobre Big Data en sectores diversos como banca, finanzas, telecomunicaciones o marketing.

Otras tres tendencias claras a nivel tecnológico son:

la popularización de sistemas que facilitan la analítica online de grandes volúmenes de datos (Spark, Impala, SploutSQL o SenseiDB)
la vuelta de SQL, o al menos de dialectos que reduzcan el tiempo de desarrollo
la importancia de la visualización como herramienta para comunicar los resultados de manera efectiva.

Pero, por supuesto, adoptar la filosofía Big Data en una empresa no es una cuestión puramente tecnológica. Requiere de una visión clara de los beneficios que genera basar tu negocio en datos y del valor y el conocimiento que se puede extraer integrando los datos internos y externos. Otro factor importante es contar con profesionales que sepan romper la barrera entre los aspectos más técnicos y los de negocio. En ese sentido cobra especial importancia la figura del científico de datos. Sean Owen de Cloudera la definió como “una persona que entiende la estadística mejor que un ingeniero software y es mejor en ingeniería software que cualquier estadístico”. Sin duda a estas habilidades hay que añadir el conocimiento del negocio y la capacidad para plantear las preguntas adecuadas.

Aunque no todas las opiniones coincidían, la mejor forma de empezar a “hacer Big Data” es poco a poco y abordando proyectos con objetivos de negocio bien definidos. Buenos candidatos para experimentar con la tecnología son aquellos procesos que ya suponen un cuello de botella. En otros casos, sin embargo, la necesidad viene por el lado de innovar, bien mediante la integración de datos externos o el diseño de productos basados en los datos. Buen ejemplo de este caso es la iniciativa de Big Data desde el Centro de Innovación BBVA que proporciona información agregada sobre transacciones de tarjetas de crédito.

Por último, y entroncando con lo que fue nuestra charla, uno de los tipos de fuentes externas donde hay un valor importante es en el uso de datos de las redes sociales. Por su heterogeneidad, se trata de uno de las fuentes de datos que plantea mas retos. Por esta razón, las herramientas de análisis de texto, como Textalytics API, deben formar parte de cualquier estrategia de Big Data ya que nos van a facilitar cruzar información cuantitativa y cualitativa con todo el valor que esto genera.

Si te interesa entrar en más profundidad, los videos de las charlas y los paneles de expertos se encuentran disponibles desde la web de Big Data Spain

Categorías: Big data, Medios sociales, Procesamiento semántico, Textalytics Etiquetas: análisis de datos, análisis semántico, Big data, procesamiento de eventos en tiempo real

Punto final para los comentarios ofensivos de los lectores en los medios de comunicación online: los medios serán los responsables. Y ahora, ¿qué?

24 octubre, 2013 Jose C Gonzalez 1 comentario

El Tribunal Europeo de Derechos Humanos, el mismo que acaba de deslegitimar la aplicación retroactiva de la denominada «doctrina Parot», dictó el pasado día 10 de octubre una sentencia muy relevante para los medios de comunicación europeos.

El caso en cuestión fue interpuesto por la web de noticias estonia Delfi, condenada por la justicia de su país por la publicación de comentarios ofensivos de lectores contra el director de una empresa que actuaba como fuente de una información. La publicación de la noticia en cuestión se produjo el 24 de enero de 2006, y algunas semanas después, el 9 de marzo, los abogados del ofendido solicitaron la retirada de 20 comentarios ofensivos y una indemnización por daños morales. La web de noticias retiró los comentarios el mismo día y rechazó la petición económica. Al mes siguiente, se interponía una demanda judicial civil ante los tribunales estonios. Esta demanda llegó hasta la máxima instancia judicial nacional, que confirmó la culpabilidad y condenó al medio a una indemnización de 320 euros para el demandante.

delfi

La empresa propietaria del portal de noticias, Delfi, recurrió a Estrasburgo (sede del Tribunal Europeo de Derechos Humanos), considerando que la condena vulneraba el principio de libertad de expresión, amparado por el artículo 10 de la Convención para la Protección de los Derechos Humanos y las Libertades Fundamentales.

Ahora, este tribunal europeo ha fallado en contra del medio de comunicación. Y ello a pesar de que Delfi disponía de un sistema automático (rudimentario) para filtrar comentarios que incluyeran algunas palabras clave (insultos u otras palabras problemáticas). Además, Delfi disponía de un mecanismo con el que los propios lectores podían marcar un comentario como inadecuado. La sentencia considera que este filtro era insuficiente para impedir daños contra el honor de terceros y que el medio debió tomar medidas más efectivas para prevenir estas situaciones.

El Tribunal considera razonable responsabilizar al editor, siendo su función publicar informaciones y dar visibilidad a los comentarios de los lectores, y lucrándose por ello a través del tráfico generado por esos comentarios.

Y ahora, ¿qué hacer? En un texto de este mismo blog, titulado «Moderar la participación en los medios«, publicado hace un par de años, resumíamos las dificultades y las claves de nuestro enfoque para ayudar a resolver un problema que no es trivial.

Las dificultades son múltiples. Por un lado, no basta con detectar palabras ofensivas aisladas, sino que es necesario filtrar expresiones, a veces teniendo en cuenta el contexto de la expresión y sus variantes flexivas. Por otro lado, hay que interpretar el lenguaje abreviado o los textos con errores ortotipográficos tan frecuentes en las secciones de participación o en los contenidos generados por usuarios. Estos «errores» pueden derivarse de las limitaciones de los dispositivos, del carácter impulsivo de los comentarios, o de la intención enmascaradora de los propios usuarios que, a sabiendas de la existencia de filtros automáticos, tratan de burlarlos por todos los medios (a veces con mucho ingenio).

Además de este problema relacionado con la Variedad de los textos, encontramos las otras dos características recurrentes en las aplicaciones de «big data» (conformando las famosas 3V): el Volumen de comentarios a tratar y la Velocidad de respuesta requerida.

En Daedalus, venimos abordando estos problemas desde hace años para el sector de los medios, y últimamente también en otros sectores, como el de banca y seguros.

En cuanto a la arquitectura de integración de estas soluciones, en la actualidad las estamos ofreciendo como un servicio en modo SaaS (Software as a Service), desde nuestra plataforma Textalytics de APIs en la nube, además del tradicional licenciamiento para su ejecución on-premises.

Con los sistemas automáticos, no podemos garantizar un 100% de precisión para cualquier tarea de filtrado. Diferentes empresas o medios, y diferentes secciones dentro de un mismo medio, requieren distintas estrategias. Parece evidente que no tiene sentido aplicar los mismos criterios de filtrado a los comentarios de un sesudo artículo de fondo que a las intervenciones surgidas durante la transmisión en directo de un partido de fútbol o de un reality show. En ese sentido, nuestros sistemas caracterizan la gravedad de la expresión, permitiendo flexibilidad a nuestros clientes para establecer el umbral idóneo para su caso. Por otro lado, proporcionamos herramientas de personalización para facilitar la incorporación de nuevas expresiones problemáticas. Por último, también monitorizamos permanentemente el funcionamiento de estos sistemas para los clientes que lo desean, dentro de sus planes de aseguramiento y mejora continuada de la calidad.

¿Interesado? No dude en ponerse en contacto con Daedalus.

Descubra nuestras soluciones para el sector de medios.

Referencias a este asunto:

Tribunal Europeo de Derechos Humanos (10/10/2013): Sentencia del caso DELFI vs. Estonia
Forbes (11/10/2013): Every Website That Accepts Comments Now Has A European Problem
The Guardian Media Blog (11/10/2013): Online comments: why websites should be worried by court ruling
Wired (14/10/2013): European ruling on anonymous comment liability shouldn’t be universally damaging
The Wall Street Journal (16/10/2013): News Site Held Responsible for Readers’ Comments
The Telegraph (18/10/2013): EU ruling holds website responsible for offensive user comments
El País (23/10/2013): Estrasburgo responsabiliza a la prensa de los comentarios ofensivos de sus lectores

José Carlos González

Categorías: Corrección automática, Language Technology, Medios sociales, Procesamiento semántico, Textalytics Etiquetas: comentarios, comunicación, diarios, filtrado, foro, lenguaje ofensivo, medios, medios digitales, medios online, moderación, moderar, online, sentencia, tribunal

Sensor Ciudadano: El ciudadano como sensor de la ciudad del futuro

22 octubre, 2013 Julio Villena Román Deja un comentario

Una de nuestras líneas de trabajo más prometedoras en el proyecto Ciudad2020 (Programa INNPRONTA, financiado por el CDTI) se centra en el concepto que hemos bautizado como Sensor Ciudadano: el registro de eventos en la relación del ciudadano con su municipio.

Mediante la aplicación de las tecnologías semánticas de Textalytics, podemos analizar en detalle la voz del ciudadano, extrayendo información heterogénea de alto nivel, muy descriptiva y de gran valor añadido, que sirve para modelar el comportamiento urbano del ciudadano y su relación con la ciudad del futuro. De esta forma el ciudadano se convierte en un sensor más integrado en la red de sensores de los sistemas de la ciudad.

El Sensor Ciudadano puede registrarse de distintas formas.

Teléfono móvil.- Por ejemplo, para detectar contaminación acústica, el usuario podría arrancar una aplicación en su smartphone para registrar el nivel de ruido y enviarlo a los servidores de la ciudad. Este gesto nos dará un mapa de los focos de ruido más destacables de la ciudad, que evoluciona en el tiempo (obras por las mañanas, fiestas los fines de semana…).

Eventos del ciudadano.- Por ejemplo, el usuario pica el billete de tren para dirigirse a su trabajo. Esto, agregado a los eventos generados por el resto de usuarios que usen el tren, nos dará una idea de la densidad de viajeros que usan el tren para ir al trabajo cada mañana y qué trayecto hacen.

Redes sociales.- Nuestros sistemas pueden analizar el flujo de tweets en un área geográfica para saber de qué hablan los usuarios, y si es algo relevante (un accidente de coche que provoca retenciones, un incendio, un festival de música…) podemos usar estos datos para elaborar un modelo preciso con predicciones mucho más ajustadas. También podemos recopilar la posición u opinión de los ciudadanos respecto a las políticas de la administración local (por ejemplo, disminución del consumo en climatización en transporte público).

Como trabajos preliminares, hemos construido una ontología que define las diferentes dimensiones hacia las que se va a orientar el análisis semántico. Actualmente estamos recogiendo información de Twitter, y en concreto vamos a intentar identificar en cada tweet la ubicación en la que se encuentra el usuario (un edificio público como ayuntamiento u hospital, parques, medio de transporte, lugar de ocio o de trabajo, etc.), el concepto (servicios de la ciudad, suministros, señalización, etc.), o evento específico al que se refiera (conciertos o eventos deportivos, o bien situaciones problemáticas como averías, atascos, accidentes, incendios), así como el área temática del mensaje (sobre economía, política, calidad de vida, turismo, deporte, interés social…). Este análisis se complementa con un análisis de sentimientos para obtener la polaridad del mensaje (muy positiva, positiva, negativa, muy negativa y neutra).

El objetivo es combinar el análisis semántico con la geoposición del usuario para intentar obtener resultados interesantes sobre lo que hablan y opinan los ciudadanos, en tiempo real, a modo de consola de gestión de la ciudad. Este tipo de análisis podría servir, por ejemplo, para detección temprana de situaciones de riesgo como accidentes o averías de suministros en la vía pública, peleas en zonas de ocio, situación (limpieza, seguridad, servicios) de los parques públicos o playas, etc.

Para este análisis usamos nuestras API de detección de idioma (podemos tratar español, inglés, francés, italiano, portugués y catalán), extracción de entidades, clasificación automática, análisis de sentimientos y clasificación demográfica de usuarios, incluidas en Textalytics Core.

Actualmente estamos investigando en el análisis temporal, para intentar detectar tendencias de comportamiento y opinión de los ciudadanos a lo largo del periodo de tiempo de análisis. Este análisis consiste en comparar la situación de la ciudad en diferentes instantes de tiempo para analizar e interpretar las diferencias, que serán debidas bien a la vida cotidiana de la ciudad (por ejemplo, el incremento natural de la actividad ciudadana según avanza la mañana) o bien a situaciones inesperadas que se quieren predecir.

Puede encontrar más información, documentación y demostradores, en nuestro sitio web: http://www.daedalus.es/ciudad2020/Sensor_Ciudadano. Si tiene alguna pregunta o comentario, no dude en contactar con nosotros.

Categorías: API, Medios sociales, Procesamiento semántico, Smartcities, Soluciones Etiquetas: Ciudad2020, sensor ciudadano, Textalytics

Daedalus en las V Jornadas de la Red Gallega de Procesamiento del Lenguaje y Recuperación de Información

23 septiembre, 2013 José L. Martínez Deja un comentario

RedPlir

Hace unos días estuvimos invitados en las V Jornadas de la Red Gallega de Procesamiento del Lenguaje (PLN) y Recuperación de Información (RI), o RedPlir. Estas jornadas, pensadas para contrastar las necesidades de la industria con las investigaciones llevadas a cabo en el ámbito universitario, suponen una oportunidad única para que las empresas planteemos nuestras necesidades y problemas relacionados con el PLN y RI.

Este año, el tema estrella ha sido, como no podía ser de otra forma, el análisis de sentimiento, sobre todo en medios sociales. Elogia, agencia de marketing que emplea en su día a día tecnología de monitorización de medios sociales planteó una serie de retos, haciendo hincapié en la necesidad de que estas herramientas se adapten mejor al proceso de trabajo del analista de marketing y permitan la detección exhaustiva de comentarios y opiniones potencialmente relevantes. Por su parte, Eptica-Lingway describió cómo aplica su tecnología de lenguaje en el ámbito de la gestión de relaciones con clientes y el e-recruiting; Imaxin explicó cómo explotan la tecnología de PLN en la traducción automática y en interesantes proyectos de investigación, algunos relacionados con la inteligencia competitiva; el centro tecnológico Gradiant presentó algunas iniciativas interesantes para la clasificación y análisis de mensajes de Twitter en móviles haciendo uso únicamente de la capacidad de procesamiento de estos dispositivos (sin llamadas a servicios externos) y la start-up Berce planteaba posibles aplicaciones en su herramienta para la gestión de la actividad de niños y padres en entornos educativos.

Nosotros presentamos Textalytics, nuestra propuesta de “significado como servicio”, que facilita a desarrolladores de aplicaciones la integración de tecnología de procesamiento lingüístico, incluyendo análisis de sentimiento, reconocimiento de topics y un largo etcétera, sin necesidad de tener conocimientos profundos sobre los algoritmos que hay detrás. En las Jornadas planteamos la posibilidad de que cualquiera de los grupos de investigación presentes experimentase con Textalytics con el fin de facilitarles una plataforma base, multilingüe, que les permita centrarse en sus objetivos: detectar la ironía, mejorar la precisión y cobertura de los sistemas, etc. En Daedalus siempre hemos tenido un interés especial en el campo de la I+D en colaboración con universidades y queremos poner Textalytics a disposición de la comunidad investigadora. Buena prueba de esta implicación en tareas de I+D es la co-organización del Taller de Análisis de Sentimiento, TASS 2013, en el marco de las jornadas de la Sociedad Española para el Procesamiento del Lenguaje Natural, SEPLN, que se celebran esta semana.

Categorías: API, Eventos, Procesamiento semántico Etiquetas: análisis de sentimiento, procesamiento de lenguaje natural, recuperación de información, redplir

Webinar Textalytics: la manera más sencilla de incorporar procesamiento semántico a tus aplicaciones

18 septiembre, 2013 Antonio Matarranz 3 comentarios

Descubre en este Webinar cómo hacer más inteligentes tus contenidos y procesos con nuestras API semánticas

Las empresas están inundadas de contenidos no estructurados y necesitan convertirlos en recursos más explotables y útiles. Las tecnologías semánticas facilitan extraer la máxima señal de todo ese “ruido” de una manera eficaz, rápida y escalable, permitiendo

Entender lo que se dice en medios sociales de manera exhaustiva, a bajo coste y en tempo real
Enriquecer, relacionar y personalizar dinámicamente toda clase de contenidos multimedia para mejor combinarlos, distribuirlos y monetizarlos
Estructurar y extraer el significado de todo tipo de activos de información para una gestión, análisis y explotación más eficientes

Hasta ahora, el procesamiento semántico no estaba a alcance de todos. Por eso en Daedalus hemos lanzado Textalytics: una familia de API semánticas en la nube pensada para aquellos desarrolladores / integradores / startups que quieran construir soluciones semánticas de manera eficaz, rápida y barata.

El servicio Meaning-as-a-Service de Textalytics ofrece varias API, cada una con una funcionalidad específica del dominio de aplicación, así como SDK y plug-ins que hacen que su aprendizaje y uso sea mucho más fácil.

Lo vamos a explicar con más detalle en un webinar gratuito el próximo 8 de octubre. Veremos con ejemplos cómo Textalytcs reduce el esfuerzo necesario para obtener resultados y el time-to-market en la aplicación de tecnologías semánticas. Más información y registro aquí.

Webinar – Textalytics: La manera más sencilla de incorporar procesamiento semántico a tus contenidos y procesos

Día: martes, 8 de octubre de 2013
Hora inicio: 16:00 hora CET (Madrid)
Duración: 45 min.

Esperamos contar con tu asistencia.
ACTUALIZACIÓN: Para vuestra comodidad hemos subido los contenidos a esta página del sitio de Daedalus.

Categorías: API, Procesamiento semántico

¿Son de fiar las herramientas de monitorización de medios sociales?

3 septiembre, 2013 José L. Martínez Deja un comentario

Son muchas las voces que destacan la importancia de escuchar qué se comenta en las redes sociales (Rappaport) pero no siempre está claro cómo hacerlo (como trata de explicar Seth Grimes en este artículo). Aunque parezca mentira, existen infinidad de herramientas con ese objetivo; podemos encontrar decenas de listas con las mejores o las más populares pero ¿qué debemos exigir a esas herramientas para asegurarnos de que la información que vamos a obtener es de utilidad? Esta pregunta es importante, porque no son menos los que dudan de la fiabilidad de las métricas sobre SoV en redes sociales (al menos si atendemos a la infinidad de entradas de blog que tratan de convencerlos). Entonces, ¿a quién hacemos caso? ¿Debemos preocuparnos de lo que se comenta en las redes sociales? ¿Nos van a servir de algo esas herramientas? La respuesta a estas dos últimas preguntas es claramente sí, pero debemos tener claros varios aspectos antes de elaborar un plan de escucha en redes sociales y, sobre todo, antes de seleccionar las herramientas con las que vamos a trabajar. Entre esos aspectos debemos contemplar:

¿Qué queremos escuchar?

Evidentemente, no estamos interesados en cualquier cosa. Aunque quisiéramos, sería imposible. Pero sí podemos centrarnos en algún tema: por ejemplo, en nuestra marca, en nuestra empresa, en el calentamiento global, en productos financieros de ahorro, etc. Pero, ¿cómo nos referimos a esos temas? Es decir, ¿cómo le indicamos a una herramienta que nos interesan esos temas? Según la aplicación con la que trabajemos nos tocará a nosotros indicar diferentes formas en las que puede mencionarse el tema que nos interesa en un texto (por ejemplo, “cambio climático”, “efecto invernadero”, “agujero de ozono”) o será la propia aplicación la que nos sugiera términos aproximados. Sería deseable disponer de mecanismos que permitan relacionar unos términos con otros. Para eso se emplean las ontologías u otros recursos semánticos, como pueden ser Wikipedia, Freebase, etc., o puede ser el propio usuario quien indique cómo se relacionan esos términos. En este punto, las capacidades de análisis de texto (text analytics) y, más concretamente, de Procesamiento de Lenguaje Natural, de la herramienta son fundamentales. Debería dar igual si un término aparece en singular o plural (“depósito financiero” vs “depósitos financieros”) o si existe ambigüedad (“Santander” como entidad financiera vs. “Santander” como ciudad). Algo parecido sucede con el tratamiento de los idiomas, ¿cómo se traduce “efecto invernadero” al inglés? ¿Puede dar lugar a un término ambiguo? La explotación de ontologías existentes puede ser de gran ayuda a la hora de enlazar conceptos equivalentes en distintos idiomas.

¿Dónde queremos escuchar?

La respuesta a esta pregunta puede ser simple, “en las redes sociales”, pero ¿nos interesan todas las redes? ¿Tenemos presencia en todas ellas? Aunque no tengamos presencia en una red, ¿es posible que hablen de nosotros allí? Deberíamos plantearnos también si existen blogs que deberíamos monitorizar (que no forman parte de las denominadas “redes sociales”). Las respuestas a estas preguntas dependen, evidentemente, del tipo de empresa o marca que estemos considerando. ¿Es posible que se hable en Facebook de una empresa que fabrica lámparas cuándo no tiene presencia en esa red social?

Desde el punto de vista del análisis de texto, es importante la capacidad de trabajar tanto con texto bien formado, sobre el que se puede realizar un análisis sintáctico completo, como con texto “incorrecto” como el que suele emplearse en los mensajes que se publican en redes sociales. Éste es también un factor importante a la hora de seleccionar una herramienta.

¿En qué idiomas?

Hemos mencionado de pasada el problema de los idiomas, pero es un elemento fundamental. ¿La aplicación para análisis de medios sociales que nos ha llamado la atención cubre los idiomas que nos interesan? Muchas de ellas dicen que sí, pero es necesario verificar con qué nivel de profundidad lo hacen. Sería necesario tener en cuenta aspectos como: cuántas entidades reconocen de las que aparecen en un texto, si las clasifican en el tipo adecuado (persona, lugar, organización), si además de entidades reconocen otras estructuras como URL, hashtags, etc.; si, tratándose de aplicaciones de análisis de sentimiento, tratan negaciones o si pueden asignar polaridad a entidades o atributos.

¿Qué ganamos por escuchar? ¿Podemos medir el resultado de nuestra escucha?

La duda sobre si la inversión que supone escuchar lo que sucede en las redes sociales acaba recuperándose o no es recurrente. ¿Es suficiente con saber cuánta gente retuitea nuestros mensajes o indica que le gusta nuestra página de Facebook? Está claro que no, pero, si pudiésemos plantear la pregunta ¿cuánta gente habla bien de mi producto y cuánta lo critica? y obtener una respuesta fiable, seguramente no dudaríamos tanto. O, incluso, si pudiésemos interactuar con el cliente que ha realizado la crítica más dura. ¿Cuánto vale y cuánto cuesta un cliente satisfecho?

Hoy día, existe tecnología que puede responder a estas preguntas, también para castellano. ¿Qué opinas tú? ¿Confías en la tecnología para hacer el seguimiento de los medios sociales? Si usas alguna herramienta específica, ¿estás contento con ella?

Si quieres más información sobre cómo en Daedalus podemos ayudarte a mejorar es seguimiento que estás haciendo de los medios sociales, ponte en contacto con nosotros.

Categorías: Content Industry, Medios sociales, Procesamiento semántico

Textalytics – Meaning as a Service: nuestra nueva oferta semántica en modo SaaS

25 julio, 2013 Antonio Matarranz 1 comentario

Hace unas semanas hablábamos por aquí de cómo en Dedalus hemos explorado diversos modelos de negocio basados en API para la comercialización de nuestras tecnologías semánticas. Nuestra percepción era que las funcionalidades lingüísticas básicas son difíciles de usar para muchos desarrolladores -no expertos en estas tecnologías- y que eso les obliga a construir soluciones mediante un proceso de prueba y error tipo “hágaselo usted mismo”, que es lento e ineficiente.

Nuestra visión era ofrecer al mercado unas API con una filosofía más plug-and-play, que proporcionen una funcionalidad más cercana al negocio, una curva de aprendizaje más rápida y -como resultado- una mayor productividad. Esa visión había cristalizado en nuestro producto Textalytics y hoy podemos decir que ese producto ya está disponible.

Textalytics es la manera más sencilla de “semantizar” tus aplicaciones

Textalytics es una oferta en modo SaaS que ofrece una funcionalidad de procesamiento semántico de alto nivel multilenguaje a aquellos desarrolladores / integradores que quieran desarrollar soluciones semánticas de manera eficaz, rápida y barata. En comparación con otras ofertas semánticas en modo servicio, Textalytics ofrece varias API, cada una de ellas con una funcionalidad específica y cercana a un dominio de aplicación, así como SDK, plug-ins… que hacen que el aprendizaje y el uso sea mucho más fácil, reduciendo el tiempo necesario para obtener resultados y el time-to-market.

Para conseguirlo, Textalytics recoge el know-how de Daedalus ayudando a clientes en diversos sectores y lo “productiza” en forma de packaging de su funcionalidad, pipelines de proceso optimizados y recursos lingüísticos específicos para cada escenario. Frente a las API semánticas con enfoque “hágaselo usted mismo”, Textalytics proporciona una oferta en modo más plug & play. Además, funciona en español y otras lenguas.

Textalytics es Meaning as a Service en dos sentidos: primero, es un servicio web que extrae elementos de significado (opiniones, hechos, relaciones) de todo tipo de contenidos no estructurados. En segundo lugar, e igualmente importante, empaqueta y publica esa funcionalidad de modo que tenga significado desde el punto de vista del negocio y del escenario de aplicación. Textalytics oculta la dificultad técnica y salva la brecha entre las API semánticas y los desarrolladores enfocados en su negocio, acelerando el aprendizaje y multiplicando la productividad.

Textalytics está ya operativo e incluye las siguientes API:

Una primera versión de la API para Análisis de Medios (tanto sociales como tradicionales) incluyendo funcionalidad para monitorización de presencia online y análisis de sentimiento. Próximamente incorporará funciones para detección de señales de compra (buying signals) y análisis de reputación.
Una Core API, con funcionalidad más granular y horizontal, para aquellos usuarios que quieran desarrollar soluciones más a su medida.

En septiembre de 2013 liberaremos la API de Publicación Semántica (para medios de comunicación y editoriales), que inicialmente incluirá funcionalidad para etiquetado y enriquecimiento de contenidos.

En los últimos días hemos estado dando a conocer Textalytics, hablando con los medios internacionales especializados en nuestro sector (ver por ejemplo, aquí y aquí) y manteniendo briefings con los analistas más importantes. Esperamos daros más noticias pronto.

Y recordad que usar Textalytics es gratis. No dejéis de probar nuestro demostrador y registraos aquí.

Categorías: API, Procesamiento semántico

Mitos sobre los correctores automáticos en la era de la tecnología semántica

8 febrero, 2013 Concepción Polo Bayo 1 comentario

¿Cuántas veces habremos oído afirmaciones como estas acerca de los «malaventurados correctores automáticos»? En la era de las tecnologías semánticas, es hora de cambiar el chip:

1. El corrector automático me corrige cosas que no debería… «el listillo…»

¿El corrector os ha dejado alguna vez en apuros? Para que no ocurra simplemente hay que configurarlo bien. Esto significa que debemos asegurarnos de que esté revisando en la lengua del texto (en portugués ¡un «livro» no es un «libro»!) y de que (si la hubiera) esté desactivada la opción de «autocorrección». ¡No debemos perder el control de la revisión! Siguiendo este par de consejos evitaréis que la aplicación os juegue malas pasadas.

¡Maldito Corrector! Un equívoco provoca el cierre de dos colegios en Georgia y se lía parda

Resulta que alguien envió el siguiente mensaje: «gunna be at west hall today», que se traduciría como: «Hoy voy a estar en el West Hall». Sin embargo, el autocorrector hizo de las suyas y envió el siguiente mensaje: «gunman be at west hall today», que se traduciría como: «Hombre armado en el West Hall hoy». Además, a todo esto se unió que el que envió el mensaje se equivocó de número y lo envió a otra persona. Como resultado, el receptor del mensaje se quedó bastante asustado y acudió a la policía, y esta por motivos de seguridad consideró que lo mejor era proceder al cierre de los dos colegios de la zona. [Leer más…]

Sobre Stilus…

Con Stilus estarás a salvo de situaciones embarazosas. Corregirás sin perder el control de tus cambios.

Ajusta el idioma de revisión (español, inglés, francés o italiano).
Valora sus sugerencias justificadas con explicaciones didácticas y bibliografía antes de corregir.
Sé consciente del proceso de revisión y no publiques nada que no hubieras deseado haber escrito.

2. ¡Me apellido «Jahuira», no «Jauría»!

De acuerdo, es imposible que ningún corrector contenga en su diccionario todos los nombres propios que existan o puedan existir. Pero podemos minimizar las consecuencias de esa carencia teniendo en cuenta que:

a) Son aplicaciones que suelen incluir un «diccionario personal» editable donde poder añadir las palabras que a priori no reconozcan.

b) La tarea de editar el diccionario personal será tanto menos tediosa cuanto más amplia sea la base léxica del propio corrector. Es decir, resulta rentable perder un poco de tiempo en elegir herramientas con «buena cobertura léxica».

c) No debemos perder de vista otras funcionalidades que pudieran ofrecernos para luchar contra los siempre molestos falsos avisos sobre nombres propios (lee abajo las opciones de Stilus).

Corrector ortográfico (maldito)

Tiempo atrás escribí aquí, en el blog, un resumen y apreciación de una novela inédita, sin publicar. Hace unos días, me trajeron la novela impresa, la miré, la vi, y mi nombre ahí, en el prólogo: MAL ESCRITO.

Era para llorar, el corrector ortográfico jugó en mi contra, mi apellido materno JAHUIRA fue cambiado JAURÍA.

No lo corregí, porque nunca me dijo que ese texto sería prólogo. Sólo quedaba el FE DE ERRATAS en hoja anexa. [Leer más…]

Sobre Stilus…

Con Stilus los nombres propios no serán un problema.

Incorpora una base léxica de más de 9,5 millones de palabras de las cuales 160 000 son nombres propios.
Es continuamente actualizado con neologismos, nombres de personalidades, organizaciones, países, etc. surgidos en el panorama social contemporáneo.
Si aún así encuentras molesto que Stilus avise de los casos que ocasionalmente no reconozca, activa la opción «Detección inteligente de nombres propios», a partir de ese momento ningún nombre propio será un problema.

3. No saben diferenciar entre «que» y «qué»

Seamos honestos, a estas alturas del cuento ya no se pueden hacer afirmaciones tan tajantes. Incluso el popular corrector de Microsoft Word es hoy día capaz de detectar con precisión más del 50 % de las faltas debidas a acentuación diacrítica u ortografía homófona.

Es cierto que «en el siglo pasado» los correctores solo devolvían error sobre palabras que no estaban en su diccionario. Por la misma regla de tres, si se encontraban con una palabra que pertenecía a su diccionario, no eran capaces de determinar si el autor había incurrido en un error al emplear una forma homófona de la pretendida o sin acento en lugar de su par diacrítico.

Hoy en día sí existen correctores automáticos capaces de «desambiguar» en función del contexto sintáctico. Incluso se empiezan a dar los primeros pasos en desambiguación semántica para complementar así las posibilidades que ya ofrecía la gramática.

La *vaca del coche estaba mal colocada –> baca

VACA no pertenece a COCHE

BACA sí pertenece a COCHE

Resumiendo, actualmente no todos los correctores automáticos son simples comparadores formales de ortografía. También los hay «inteligentes».

En este texto hay doce errores. ¿Intuyes cuántos puede detectar el corrector de Microsoft Word? Averígualo, ¡es muy fácil!

– No se si lo sabia, pero mi mujer no esta.

– ¡Que pena!, ¿sé toma usted un café con migo?

– ¿Sabe cuanto bale?

– Si. Un euro y el te, dos.

– Prefiero te, gracias.

– Dé nada.

Sobre Stilus…

Stilus es un corrector inteligente que se basa en el contexto lingüístico para realizar una revisión avanzada del texto.

La desambiguación sintáctica y semántica hacen posible la detección de errores que suelen pasar inadvertidos a otros correctores automáticos… [Leer más…]

Microsoft Word, 7 – Stilus, 10

Compruébalo gratuitamente en nuestra web:

– No se si lo sabia, pero mi mujer no esta.

– ¡Que pena!, ¿sé toma usted un café con migo?

– ¿Sabe cuanto bale?

– Si. Un euro y el te, dos.

– Prefiero te, gracias.

– Dé nada.

4. Vale, aciertan algunas cosas de ortografía, pero de gramática ¡no saben nada!

Si acabamos de demostrar que los correctores de última generación son capaces de desambiguar en función del contexto sintáctico, ¿cómo no van a saber de gramática?

Informe de revisión Stilus

5. De revisar la puntuación ni hablemos…

Depende de los módulos de corrección que integre. Si bien es cierto que es absurdo confiar en que un programa informático se convierta en tu «asesor lingüístico personal» al estilo de un corrector humano, no lo es menos que muchas de las pautas marcadas en los manuales de estilo y ortotipografía son perfectamente factibles desde el punto de vista de la programación.

Vamos, que sí hay correctores automáticos que aconsejan sobre «dónde van o no van algunas comas».

Informe de revisión Stilus

Sobre Stilus…

Stilus revisa gran cantidad de aspectos ortotipográficos.

Coteja apertura y cierre de pares de signos (comillas, paréntesis, corchetes, signos de admiración e interrogación…).
Revisa el espaciado: dobles espacios, exigencia de espaciado o adyacencia entre signos ortográficos y palabras, etc.
Avisa sobre secuencias no permitidas de signos de puntuación.
Revisa la puntuación en las abreviaturas.
Verifica el uso de mayúsculas y minúsculas.
Indica la conveniencia de tipografía cursiva sobre voces extranjeras.
Recomienda la inserción o supresión de comas en ciertos contextos.
etc.

6. ¿Y la revisión de estilo, qué?

La revisión de estilo es más delicada y comprende muchas cuestiones que difícilmente una máquina puede controlar (pensamos en la verificación de la coherencia y la cohesión textual, o la detección de ambigüedades discursivas). Pero no minusvaloremos las capacidades de la lingüística computacional porque en el ámbito de la revisión estilística ¡nos puede ayudar más de lo que creemos! Los correctores de hoy son capaces de detectar:

ortografías no preferidas
expresiones incorrectas (solecismos y barbarismos)
expresiones no recomendables
impropiedades léxicas
extranjerismos léxicos, sintácticos o semánticos
expresiones redundantes
faltas de rección preposicional
faltas de régimen verbal (consecutio temporum)
queísmos y dequeísmos
repeticiones
coloquialismos y vulgarismos
etc.

En general, el 80 % de las indicaciones que incluye explícitamente un manual de estilo son potencialmente abordables por la revisión automática. E incluso, las tecnologías del texto empiezan a dar sus frutos en desambiguación semántica y detección de anáforas y correferencias (prueba el analizador morfosintáctico de Stilus), por lo que en un futuro próximo se auguran avances en detección de ambigüedades textuales; ¡no los perdamos de vista!

Sobre Stilus…

Stilus: revisor ortográfico, gramatical y de estilo

Stilus le permite revisar la ortografía y el estilo de sus textos en varios idiomas, según las preferencias lingüísticas del usurario y desde cualquier ordenador dotado de un navegador estándar o Microsoft Word.

7. «Eso de los correctores es lo peor que se ha podido inventar, es un crea asnos…»

¿Seguro? Si hablamos de una herramienta de calidad y prescindimos (de nuevo) de la autocorrección, un corrector automático delega en el usuario la responsabilidad de hacer efectiva la corrección, lo que redunda en el «autoaprendizaje significativo». Esto es, si el corrector sugiere y tú decides, puedes mejorar fácilmente tu competencia escrita.

Sobre Stilus…

Stilus Corrector, al servicio del aprendizaje de la ortografía

Es frecuente entre los docentes mantener un mal concepto de los correctores ortográficos y gramaticales automáticos porque los asociamos a la corrección automática creyendo así que el alumnado no detecta el error que ha cometido y la forma de resolverlo… [Leer más…]

8. En conclusión, los correctores automáticos solo molestan

¿Conoces todas las prescripciones que contempla un manual de estilo o la propia Ortografía de la Academia?, ¿realmente molesta a un nativo un falso aviso de concordancia?, ¿no merece la pena que la máquina realice por ti ciertas tareas tediosas…? Quizá deberíamos plantearnos todas estas cuestiones antes de rehuir de la corrección automática. Explotar las posibilidades que ofrece la tecnología suele ser interesante.

Mónica Castelló, correctora: «no dejan de ser herramientas programadas con un fin similar al nuestro, de las que podemos sacar ventajas…». Corrector humano vs. corrector automático.

Sobre Stilus…

Stilus es un nuevo concepto de corrector de textos

La tecnología semántica de Daedalus ha venido aplicándose con éxito en el ámbito corporativo: empresas como el Grupo Prisa, Unidad Editorial, Vocento o el Instituto Cervantes la utilizan para redactar, editar y clasificar noticias o para tareas avanzadas de búsqueda y recuperación de información multimedia.

Con Stilus, Daedalus aborda el mercado de profesionales (revisores, traductores, editores, profesores) y particulares. [Leer más…]

¿Te hemos convencido de que la «corrección automática» merece una segunda oportunidad? Si es así y te apetece redescubrir las capacidades de la verificación textual «hoy», prueba gratis el nuevo Stilus: www.mystilus.com, ¡cambiarás el chip!

Categorías: Corrección automática, Procesamiento semántico Etiquetas: corrector automático, desambiguación, estilo, gramática, ortografía, ortotipografía, tecnología semántica

La ciudad a pie de calle: el Sensor Ciudadano

19 noviembre, 2012 saravillanueva Deja un comentario

El fin último de las decisiones municipales es el bienestar del ciudadano. Partiendo de esa base, los administradores toman medidas de distinta índole, siempre con el objetivo de aumentar la calidad de vida de los habitantes de su ciudad.

El problema viene cuando hay problemas que la Administración local desconoce, o cuando los problemas toman mayor dimensión de lo que los gestores están considerando. En estos casos, la opinión ciudadana es la clave para poder resolver estas situaciones de la mejor forma posible. Y para obtener esta opinión de forma transparente y sencilla podemos utilizar el Sensor Ciudadano.

Daedalus ve el Sensor Ciudadano como el registro de eventos en la relación del ciudadano con su municipio. Es una forma innovadora de capturar información heterogénea, de alto nivel, muy descriptiva y de gran valor añadido, sobre todo si se observa de forma agregada.

Los eventos generados pueden registrarse de distintas formas:

Utilizando el teléfono móvil del ciudadano como sensor. Para detectar contaminación acústica, por ejemplo, el usuario arranca una aplicación en su teléfono que registra el nivel de ruido y lo envía a un servidor. Este gesto, realizado por todos los usuarios, nos dará un mapa de los focos de ruido más destacables de la ciudad, que evoluciona en el tiempo (obras por las mañanas, fiestas los fines de semana…). Este tipo de sensado, además, permite expandir la red con menor coste, y proporciona nuevas vías de investigación con respecto al bienestar ciudadano.
Utilizando los registros del usuario interactuando con la ciudad. Estos eventos denotan tendencias ciudadanas. Por ejemplo, el usuario pica el billete de tren para dirigirse a su trabajo. Esto, agregado a los eventos generados por el resto de usuarios que usen el tren, nos dará una idea de la densidad de viajeros que usan el tren para ir al trabajo cada mañana y qué trayecto hacen.
Utilizando las redes sociales. De esta forma, la información capturada es más compleja y rica que la capturada por otros sensores, y es necesario procesarla de forma especial para sacarle todo el partido posible. Este método de recolectar información se basa en la tecnología desarrollada por Daedalus para análisis de opinión y sentimiento en redes sociales, ya utilizada en otros productos como Sentimentalytics.
- Con Twitter, se puede analizar el flujo de tuits en una zona determinada para saber de qué hablan los usuarios, y si es algo que consideramos relevante (un accidente de coche que provoca retenciones, un incendio, un festival de música…) podemos usar estos datos para elaborar un modelo (de ruido, de contaminación atmosférica, de flujo de tráfico…) con predicciones mucho más ajustadas.
- También se pueden recopilar opiniones y sentimientos de los ciudadanos sobre su municipio, haciendo un seguimiento en redes sociales con respecto a medidas específicas tomadas por la administración local (por ejemplo, la política de disminuir el consumo en climatización en transporte público).

En definitiva, el Sensor Ciudadano (desarrollado en el marco del Proyecto Ciudad2020 [1][2] y financiado por el CDTI) es una herramienta fundamental a la hora de ajustar las políticas municipales a la realidad del ciudadano, ya que proporciona una visión de la ciudad a pie de calle de forma transparente para los usuarios.

Y vosotros, ¿qué opináis? ¿Creéis que los ciudadanos participarían activamente utilizando su teléfono móvil como sensor? ¿Pensáis que la información en redes sociales sería útil para mejorar la calidad de vida en la ciudad?

Categorías: Innovación, Medios sociales, Procesamiento semántico

El Blog de Daedalus

Archivo

Últimas tendencias en análisis de datos en Big Data Spain 2013

Punto final para los comentarios ofensivos de los lectores en los medios de comunicación online: los medios serán los responsables. Y ahora, ¿qué?

Sensor Ciudadano: El ciudadano como sensor de la ciudad del futuro

Daedalus en las V Jornadas de la Red Gallega de Procesamiento del Lenguaje y Recuperación de Información

Webinar Textalytics: la manera más sencilla de incorporar procesamiento semántico a tus aplicaciones

¿Son de fiar las herramientas de monitorización de medios sociales?

Textalytics – Meaning as a Service: nuestra nueva oferta semántica en modo SaaS

Textalytics es la manera más sencilla de “semantizar” tus aplicaciones

Mitos sobre los correctores automáticos en la era de la tecnología semántica

La ciudad a pie de calle: el Sensor Ciudadano

Nuestra empresa

Recibe actualizaciones (RSS)

Subscríbete (email)

Categorías

Entradas recientes

Suscríbete al blog por correo electrónico

Archivo

Comparte:

Comparte:

Comparte:

Comparte:

Comparte:

Comparte:

Comparte:

Textalytics es la manera más sencilla de “semantizar” tus aplicaciones

Comparte:

Comparte:

Comparte:

Nuestra empresa

Recibe actualizaciones (RSS)

Subscríbete (email)

Categorías

Entradas recientes

Suscríbete al blog por correo electrónico