Archivo

Posts Tagged ‘procesamiento de eventos en tiempo real’

Entendiendo la TV Social con tecnologías de Análisis Semántico y Big Data

25 noviembre, 2013 Deja un comentario

Recientemente hemos participado en la conferencia Big Data Spain con una charla titulada “Real time semantic search engine for social TV streams”. En esta charla resumimos nuestra experiencia en el área de TV Social, donde estamos combinando tecnologías de análisis semántico y de procesamiento de flujos de datos (streams) en tiempo real para entender las redes sociales. 

La TV Social es un fenómeno en claro crecimiento ya que cada vez es más frecuente el uso de redes sociales mientras vemos la televisión. Por ejemplo, Twitter ya reportaba el año pasado que en Reino Unido más de un tercio de todos los comentarios durante el primetime eran sobre lo que pasaba en la pantalla del televisor. Hace semanas, Facebook reivindicaba su lugar en la TV social afirmando que el volumen de comentarios privados sobre TV en su plataforma era 5 veces mayor. Esta red social ha empezado también a ofrecer hashtags e incluso una nueva API, Keywords Insight, para que algunos socios tengan acceso a estadísticas agregadas de las conversaciones dentro de los muros de Facebook.

A medida que el número de usuarios que acaban comentando su programa favorito de TV en las redes sociales con amigos o extraños, las cadenas han empezado a hacer uso de estas herramientas para participar en la conversación. Durante el último año se ha incrementado el número de programas que hacen uso de hashtags oficiales, a veces incluso varios durante una sola emisión. Más allá de la búsqueda del trending topic, los que con mayor éxito han experimentado fomentan incluso la participación de presentadores o actores durante la emisión del programa. En España, “Salvados” o “Pesadilla en la Cocina” son ejemplo de lo primero y la serie “Isabel” para el caso de los actores.   

Aunque no hay nada nuevo en el hecho de socializar alrededor del contenido de la tele, la posibilidad de medir y de destilar estos comentarios sí que es característico del nuevo contexto. Además, esta conversación no se produce al día siguiente sino que su impacto es inmediato. Todo esto se suma para abrir un nuevo abanico de posibilidades para espectadores, radiodifusores y las grandes marcas. Los usuarios han encendido la mecha de la TV Social ya que les conecta con amigos y el resto de la audiencia.  Es a la vez una forma de sentirse parte del programa y al mismo tiempo de involucrarse más. Por tanto, las herramientas que faciliten organizar y comprender la conversación son de especial interés para el espectador social. Para el resto de espectadores, incluso para aquellos que solo participan leyendo, es una forma de generar tanto recomendaciones sociales. Otro uso interesante es que analizar la conversación social permite contextualizar contenido relevante y relacionado con el programa como información sobre los actores, personajes o cualquier otro concepto del que se hable en la pantalla grande.

Por otro lado, comprender la conversación en torno a un programa es de tremenda utilidad para los canales de TV y las marcas que los financian. Las productoras y cadenas pueden medir las preferencias de sus espectadores y los de la competencia, y además en tiempo real, según se está emitiendo. Está información cualitativa permite hacer una lectura mucho más informada de los datos cuantitativos de audiencia. Llegar a los consumidores adecuados y medir el impacto de las campañas de publicidad son solo dos ejemplos de lo que las marcas buscan en la TV social. Por último, no solo se trata de escuchar pasivamente, tanto los programas como los anuncios van a ser cada vez más interactivos y a buscar la participación de los espectadores mediante las redes sociales.  

En nuestra charla, describimos un sistema que combina análisis semántico y tecnologías de big data como una herramienta para sacar partido de las redes sociales. El sistema combina varios componentes de procesamiento de lenguaje natural de Textalytics API junto a una base de datos semi-estructurada, SenseiDB, para proporcionar visualizaciones interactivas de los comentarios de TV sobre la base de la búsqueda semántica, la búsqueda por facetas y un sistemas de analítica en tiempo real.

 

Mediante el uso de Textalytics API somos capaces de extraer información relevante para la TV social como el sentimiento acerca de una entidad (un programa, actor o deportista) Además, el reconocimiento de entidades y la extracción de información temática nos permite producir trending topics dentro de un programa con una alta correlación con lo que ocurre en pantalla. Estos temas unidos a las facetas online proporcionadas por SenseiDB funcionan como una manera efectiva de organizar la conversación al vuelo. Otras funcionalidades como el reconocimiento de idioma o la clasificación de texto cumplen un papel importante pero oculto y nos ayudan a filtrar el flujo de comentarios de contenido ruidoso.  

El segundo de los componentes esenciales del sistema es SenseiDB, una base de datos semi-estructurada de código abierto que permite ingerir streams y buscarlos en tiempo real, es decir, con baja latencia tanto en la indexación como en la búsqueda. SenseiDB incluye un gran número de tipos de facetas que permiten organizar los metadatos semánticos que extraemos con Textalytics. Con la ayuda de facetas de tipo histograma o rango se pueden realizar incluso ciertas tareas de analítica que incluyen tipos de datos complejos como el tiempo. Además, una de las características más interesantes es que incluye un lenguaje de consulta sencillo e intuitivo, BQL, que es de gran utilidad para el desarrollo iterativo de visualizaciones.

Si te ha parecido interesante, te animo a que le eches un vistazo a la presentación o incluso al vídeo del evento.

Últimas tendencias en análisis de datos en Big Data Spain 2013

19 noviembre, 2013 Deja un comentario

logo Big Data SpainLa segunda edición de Big Data Spain, uno de los eventos pioneros en las tecnologías y aplicaciones del procesamiento masivo de datos se celebró el 7 y el 8 de Noviembre en Madrid. El evento que consiguió atraer a más de 400 asistentes, el doble que el año pasado, refleja el creciente interés en estas tecnologías también en España. Daedalus participó con una ponencia donde demostraba el uso de tecnologías de procesamiento de lenguaje natural, Big Data y redes sociales para el análisis en tiempo real de la TV social.

La tecnología de Big Data ha crecido y madurado cuando están a punto de cumplirse 10 años desde la publicación de MapReduce, el modelo de computación masiva y distribuida que marcó su inicio.

Rubén Casado, en una de las charlas más útiles para establecer un mapa del ingente número de proyectos de Big Data y NoSQL definió la historia de la tecnología en tres fases:

  • Procesamiento masivo en batch ( 2003 – ) con exponentes como Hadoop o Cassandra.
  • Procesamiento en tiempo real ( 2010 – ) representado con tecnologías como StormKafka o Samza
  • Procesamiento híbrido ( 2013 – ) que trata de unificar los dos anteriores en un modelo de programación única. Son ejemplos notables Summingbird  o Lambdoop.

Sin duda, la primera hornada de soluciones está lista para la empresa con distribuciones basadas en la pila tecnológica de Hadoop como Cloudera, MapR o HortonWorks. Del mismo modo crece el número de empresas que están integrando u ofrecen servicios de consultoría sobre Big Data en sectores diversos como banca, finanzas, telecomunicaciones o marketing.

Otras tres tendencias claras a nivel tecnológico son:

  • la popularización de sistemas que facilitan la analítica online de grandes volúmenes de datos (Spark, Impala, SploutSQL o SenseiDB)
  • la vuelta de SQL, o al menos de dialectos que reduzcan el tiempo de desarrollo
  • la importancia de la visualización como herramienta para comunicar los resultados de manera efectiva.

Pero, por supuesto, adoptar la filosofía Big Data en una empresa no es una cuestión puramente tecnológica. Requiere de una visión clara de los beneficios que genera basar tu negocio en datos y del valor y el conocimiento que se puede extraer integrando los datos internos y externos. Otro factor importante es contar con profesionales que sepan romper la barrera entre los aspectos más técnicos y los de negocio. En ese sentido cobra especial importancia la figura del científico de datos. Sean Owen de Cloudera la definió como “una persona que entiende la estadística mejor que un ingeniero software y es mejor en ingeniería software que cualquier estadístico”. Sin duda a estas habilidades hay que añadir el conocimiento del negocio y la capacidad para plantear las preguntas adecuadas.

Aunque no todas las opiniones coincidían, la mejor forma de empezar a “hacer Big Data” es poco a poco y abordando proyectos con objetivos de negocio bien definidos. Buenos candidatos para experimentar con la tecnología son aquellos procesos que ya suponen un cuello de botella. En otros casos, sin embargo, la necesidad viene por el lado de innovar, bien mediante la integración de datos externos o el diseño de productos basados en los datos. Buen ejemplo de este caso es la iniciativa de Big Data desde el Centro de Innovación BBVA que proporciona información agregada sobre transacciones de tarjetas de crédito.

TextalyticsPor último, y entroncando con lo que fue nuestra charla, uno de los tipos de fuentes externas donde hay un valor importante es en el uso de datos de las redes sociales. Por su heterogeneidad, se trata de uno de las fuentes de datos que plantea mas retos. Por esta razón, las herramientas de análisis de texto, como Textalytics API, deben formar parte de cualquier estrategia de Big Data ya que nos van a facilitar cruzar información cuantitativa y cualitativa con todo el valor que esto genera.

Si te interesa entrar en más profundidad, los videos de las charlas y los paneles de expertos se encuentran disponibles desde la web de Big Data Spain

A %d blogueros les gusta esto: