Archivo

Archive for the ‘Eventos’ Category

Entendiendo la TV Social con tecnologías de Análisis Semántico y Big Data

25 noviembre, 2013 Deja un comentario

Recientemente hemos participado en la conferencia Big Data Spain con una charla titulada “Real time semantic search engine for social TV streams”. En esta charla resumimos nuestra experiencia en el área de TV Social, donde estamos combinando tecnologías de análisis semántico y de procesamiento de flujos de datos (streams) en tiempo real para entender las redes sociales. 

La TV Social es un fenómeno en claro crecimiento ya que cada vez es más frecuente el uso de redes sociales mientras vemos la televisión. Por ejemplo, Twitter ya reportaba el año pasado que en Reino Unido más de un tercio de todos los comentarios durante el primetime eran sobre lo que pasaba en la pantalla del televisor. Hace semanas, Facebook reivindicaba su lugar en la TV social afirmando que el volumen de comentarios privados sobre TV en su plataforma era 5 veces mayor. Esta red social ha empezado también a ofrecer hashtags e incluso una nueva API, Keywords Insight, para que algunos socios tengan acceso a estadísticas agregadas de las conversaciones dentro de los muros de Facebook.

A medida que el número de usuarios que acaban comentando su programa favorito de TV en las redes sociales con amigos o extraños, las cadenas han empezado a hacer uso de estas herramientas para participar en la conversación. Durante el último año se ha incrementado el número de programas que hacen uso de hashtags oficiales, a veces incluso varios durante una sola emisión. Más allá de la búsqueda del trending topic, los que con mayor éxito han experimentado fomentan incluso la participación de presentadores o actores durante la emisión del programa. En España, “Salvados” o “Pesadilla en la Cocina” son ejemplo de lo primero y la serie “Isabel” para el caso de los actores.   

Aunque no hay nada nuevo en el hecho de socializar alrededor del contenido de la tele, la posibilidad de medir y de destilar estos comentarios sí que es característico del nuevo contexto. Además, esta conversación no se produce al día siguiente sino que su impacto es inmediato. Todo esto se suma para abrir un nuevo abanico de posibilidades para espectadores, radiodifusores y las grandes marcas. Los usuarios han encendido la mecha de la TV Social ya que les conecta con amigos y el resto de la audiencia.  Es a la vez una forma de sentirse parte del programa y al mismo tiempo de involucrarse más. Por tanto, las herramientas que faciliten organizar y comprender la conversación son de especial interés para el espectador social. Para el resto de espectadores, incluso para aquellos que solo participan leyendo, es una forma de generar tanto recomendaciones sociales. Otro uso interesante es que analizar la conversación social permite contextualizar contenido relevante y relacionado con el programa como información sobre los actores, personajes o cualquier otro concepto del que se hable en la pantalla grande.

Por otro lado, comprender la conversación en torno a un programa es de tremenda utilidad para los canales de TV y las marcas que los financian. Las productoras y cadenas pueden medir las preferencias de sus espectadores y los de la competencia, y además en tiempo real, según se está emitiendo. Está información cualitativa permite hacer una lectura mucho más informada de los datos cuantitativos de audiencia. Llegar a los consumidores adecuados y medir el impacto de las campañas de publicidad son solo dos ejemplos de lo que las marcas buscan en la TV social. Por último, no solo se trata de escuchar pasivamente, tanto los programas como los anuncios van a ser cada vez más interactivos y a buscar la participación de los espectadores mediante las redes sociales.  

En nuestra charla, describimos un sistema que combina análisis semántico y tecnologías de big data como una herramienta para sacar partido de las redes sociales. El sistema combina varios componentes de procesamiento de lenguaje natural de Textalytics API junto a una base de datos semi-estructurada, SenseiDB, para proporcionar visualizaciones interactivas de los comentarios de TV sobre la base de la búsqueda semántica, la búsqueda por facetas y un sistemas de analítica en tiempo real.

 

Mediante el uso de Textalytics API somos capaces de extraer información relevante para la TV social como el sentimiento acerca de una entidad (un programa, actor o deportista) Además, el reconocimiento de entidades y la extracción de información temática nos permite producir trending topics dentro de un programa con una alta correlación con lo que ocurre en pantalla. Estos temas unidos a las facetas online proporcionadas por SenseiDB funcionan como una manera efectiva de organizar la conversación al vuelo. Otras funcionalidades como el reconocimiento de idioma o la clasificación de texto cumplen un papel importante pero oculto y nos ayudan a filtrar el flujo de comentarios de contenido ruidoso.  

El segundo de los componentes esenciales del sistema es SenseiDB, una base de datos semi-estructurada de código abierto que permite ingerir streams y buscarlos en tiempo real, es decir, con baja latencia tanto en la indexación como en la búsqueda. SenseiDB incluye un gran número de tipos de facetas que permiten organizar los metadatos semánticos que extraemos con Textalytics. Con la ayuda de facetas de tipo histograma o rango se pueden realizar incluso ciertas tareas de analítica que incluyen tipos de datos complejos como el tiempo. Además, una de las características más interesantes es que incluye un lenguaje de consulta sencillo e intuitivo, BQL, que es de gran utilidad para el desarrollo iterativo de visualizaciones.

Si te ha parecido interesante, te animo a que le eches un vistazo a la presentación o incluso al vídeo del evento.

Semantic Analysis and Big Data to understand Social TV

25 noviembre, 2013 1 comentario

We recently participated in the Big Data Spain conference with a talk entitled “Real time semantic search engine for social TV streams”. This talk describes our ongoing experiments on Social TV and combines our most recent developments on using semantic analysis on social networks and dealing with real-time streams of data.

Social TV, which exploded with the use of social networks while watching TV programs is a growing and exciting phenomenon. Twitter reported that more than a third of their firehose in the primetime is discussing TV (at least in the UK) while Facebook claimed 5 times more comments behind his private wall. Recently Facebook also started to offer hashtags and the Keywords Insight API for selected partners as a mean to offer aggregated statistics on Social TV conversations inside the wall.

As more users have turned into social networks to comment with friends and other viewers, broadcasters have looked into ways to be part of the conversation. They use official hashtags, let actors and anchors to tweet live and even start to offer companion apps with social share functionalities.

While the concept of socializing around TV is not new, the possibility to measure and distill the information around these interactions opens up brand new possibilities for users, broadcasters and brands alike.  Interest of users already fueled Social TV as it fulfills their need to start conversations with friends, other viewers and the aired program. Chatter around TV programs may help to recommend other programs or to serve contextually relevant information about actors, characters or whatever appears in TV.  Moreover, better ways to access and organize public conversations will drive new users into a TV program and engage current ones.

On the other hand, understanding the global conversation about a program is definitely useful to acquire insights for broadcasters and brands. Broadcasters and TV producers may measure their viewers preferences and reactions or their competence and acquire complementary information beyond plain audience numbers. Brands are also interested in finding the most appropriate programs to reach their target users as well as understand the impact and acceptance of their ads. Finally, new TV and ad formats are already being created based on interaction and participation, which again bolster engagement.

In our talk, we describe a system that combines natural language processing components from our Textalytics API and a scalable semi-structured database/search engine, SenseiDB, to provide semantic and faceted search, real-time analytics and support visualizations for this kind of applications.

Using Textalytics API we are able to include interesting features for Social TV like analyzing the sentiment around an entity (a program, actor or sportsperson). Besides, entity recognition and topic extraction allow us to produce trending topics for a program that correlate well with whatever happens on-screen. They work as an effective form to organize the conversation in real-time when combined with the online facets provided by SenseiDB. Other functionalities like language recognition and text classification help us to clean the noisy streams of comments.

SenseiDB is the second pillar of our system. A semi-structured distributed database that helps us to ingest streams and made them available for search in real-time with low query and indexing times. It includes a large number of facet types that enable us to use navigation using a range of semantic information. With the help of histogram and range facets it could even be overused for simple analytics tasks. It is well rounded with a simple and elegant query language, BQL, which help us to boost the development of visualizations on top.

If you find it interesting, check out our presentation for more detail or even the video of the event.

Trends in data analysis from Big Data Spain 2013

19 noviembre, 2013 Deja un comentario

logo Big Data Spain

The second edition of Big Data Spain took place in Madrid on last November 7 and 8 and proved to be a landmark event on technologies and applications of big data processing. The event attracted more than 400 participants, doubling last year’s number, and reflected the growing interest on these technologies in Spain and across Europe. Daedalus participated with a talk that illustrated the use of natural language processing and Big Data technologies to analyze in real time the buzz around Social TV.

Big Data technology has matured when we are about to cellebrate its 10th birthday, marked by the publication of the MapReduce computing abstraction that later gave rise to the field.

Rubén Casado, in one of the most useful talks to understand the vast amnount of Big Data and NoSQL project outlined the recent history of the technology in three eras:

  • Batch processing ( 2003 – ) with examples like  Hadoop or Cassandra.
  • Real time processing ( 2010 – ) represented by recent projects like StormKafka o Samza.
  • Hybrid processing ( 2013 – ) which attempts to combine both worlds in an unified programming model like Summingbird  or Lambdoop.

Withouth any doubt, the first era of solutions is enterprise-ready with several Hadoop based distributions like Cloudera, MapR or HortonWorks. Likewise the number of companies that are integrating them or providing consultancy in this field is expanding and reaching every sector from finance and banking to telecomunications or marketing.

Some other technological trends clearly emerged from talk topics and panels:

  • growing number of alternatives to deal online with large volume data analysis tasks (Spark, Impala, SploutSQL o SenseiDB)
  • SQL comeback, or at least as dialects on top of actual systems that made easier to develop and maintain applications
  • the importance of visualization as a tool to communicate Big Data results effectively.

However, adopting Big Data as a philosophy inside your company is not just merely technology. It requires a clear vision of the benefits that grounding all your processes in data may carry, and the value and knowledge that you may obtain by integrating internal and also external data. Another important factor is to be able to find the right people to bridge the chasm between the technical and businness sides. In this sense, the role of the data scientist is very important and Sean Owen from Cloudera defined it as “a person who is better at statistics than any software engineer and better at software engineering than any statistician”. We may add to the whish list a deep knowledge of your businness domain and the ability to ask the right questions.

While not everybody agreed, it seems that the best way to start “doing Big Data” is one step at a time and with a project with clear bussiness goals. If you want to test the technology, good candidates are those business process that have already become a bottleneck using standard databases. On the other hand, innovation may also be an important driver, by using external open data or if you need to design data-centric products. A good example of that sort is the Open Innovation challenge from Centro de Innovacion BBVA,  providing aggregate information on  credit card transactions.

Textalytics

Finally, going back to the theme of our talk, one of the external sources that would is generating more value are social network data. Due to their heterogeneity, social networks are intrinsically difficult to analyze, but, fortunately, text analytics tools like Textalytics API, enable you to make sense of unstructured data. If implemented into your Big Data toolset they open the door to the intellingent integration of quantitative and qualitative data with all the valuable insights you would obtain.

If you want to dive into the Big Data world, videos of the talks and experts panel are available at the Big Data Spain site.

Sentiment Analysis in Spanish: TASS corpus released

The corpus used in TASS, the Workshop on Sentiment Analysis in Spanish organized by Daedalus, has been made freely available to the research community after the workshop. With the creation and release of this corpus, we aim to provide a common benchmark dataset that enables researchers to compare their algorithms and systems. Results from participants in TASS 2012 and TASS 2013 are already available to compare.

The corpus is divided into General and Politics corpus. Both are written in XML following the same schema.

General corpus

The General corpus contains 68 017 Twitter messages, written in Spanish by 154 well-known celebrities of the world of politics, communication and culture, between November 2011 and March 2012. Although the context of extraction has a Spain-focused bias, the diverse nationality of the authors, including people from Spain, Mexico, Colombia, Puerto Rico, USA and many other countries, makes the corpus reach a global coverage in the Spanish-speaking world.

Each message has been tagged with its global polarity, indicating whether the text expresses a positive, negative or neutral sentiment, or no sentiment at all. 5 levels have been defined: strong positive (P+), positive (P), neutral (NEU), negative (N), strong negative (N+) and one additional no sentiment tag (NONE). In addition, the sentiment agreement level within the content has been classified into two possible values: AGREEMENT and DISAGREEMENT. This allows to make out whether a neutral sentiment comes from neutral keywords or else the text contains positive and negative sentiments at the same time.

Moreover, the values of the polarity at entity level, i.e., the polarity values related to the entities that are mentioned in the text, has been also included. These values are similarly divided into 5 levels and include the level of agreement as related to each entity.

On the other hand, a selection of a set of 10 topics has been made based on the thematic areas covered by the corpus, such as “politics”, “soccer”, “literature” or “entertainment”. Each message has been assigned to one or several of these topics.

tass2013corpus

The General corpus has been divided into two sets: training (7 219 tweets) and test (60 798 tweets) sets. The training set has been manually tagged. The tagging in the test set has been generated by pooling all submissions from participants in the TASS tasks with a votation schema followed by an extensive human review of the ambiguous decisions, which unfortunately is subject to errors. In the case of the polarity at entity level, the tagging has just been done for the training set, due to the high volume of data to check and the lack of participants in the task.

In addition, the political tendency of users has been manually identified and assigned to one of the four possible values: LEFT, RIGHT, CENTRE and UNDEFINED. The aim of Task 4 in TASS 2013 was in fact to estimate his/her political tendency based on the user’s tweets.

topic

Politics corpus

The Politics corpus contains 2 500 tweets, gathered during the electoral campaign of the 2011 general elections in Spain (Elecciones a Cortes Generales de 2011), from Twitter messages mentioning any of the four main national-level political parties: Partido Popular (PP), Partido Socialista Obrero Español (PSOE), Izquierda Unida (IU) and Unión, Progreso y Democracia (UPyD).

Similarly to the General corpus, the global polarity and the polarity at entity level for those four entities has been manually tagged for all messages. However, in this case, only 3 levels are used in this case: positive (P), neutral (NEU), negative (N), and one additional no sentiment tag (NONE). Moreover, to simplify the identification of the named entities, a “source” attribute is assigned to each tagged entity, indicating the political party to which the entity refers.

 

All the information is available in the TASS 2013 Corpus page. If you are interested, please send an email to tass AT daedalus.es with your email, affiliation and a brief description of your research objectives, and you will be given a password to download the files in the password protected area.

Daedalus estará en Greencities & Sostenibilidad (Málaga)

Por segundo año, Daedalus estará presente en Greencities & Sostenibilidad, el IV salón profesional sobre Inteligencia aplicada a la Sostenibilidad Urbana que se celebra el 2 y 3 de octubre en Málaga, como socios del proyecto de I+D+i Ciudad 2020 (programa Innpronta). Greencities & Sostenibilidad es un foro profesional único y participativo, que aúna la iniciativa municipal y privada para poner sobre la mesa soluciones y tendencias que ayuden a mejorar la sostenibilidad en las urbes, centrado en tres temáticas fundamentales: Edificación, Eficiencia Energética y Ciudades Inteligentes.

Dentro del stand de Ciudad 2020 en la zona expositiva, presentaremos nuestros últimos trabajos en el proyecto, centrados en la sostenibilidad ambiental (investigación y desarrollo de modelos y sistemas de predicción y gestión de la contaminación ambiental y acústica), la evaluación del impacto de las políticas de eficiencia energética en la sociedad, y el concepto de “sensor ciudadano“, como modelo innovador de capturar, analizar y explotar información heterogénea, muy descriptiva y de gran valor añadido, generada directamente por los ciudadanos sobre la realidad de su ciudad, en concreto, en nuestro caso, proveniente de redes sociales.

malaga-peq

Además estaremos presentes en una mesa redonda en el Foro TIC & Sostenibilidad, en el bloque “Ciudades Inteligentes”, el 2 de octubre de 13:45 a 14:30 h, donde se expondrán los últimos avances de la segunda anualidad del proyecto Ciudad 2020, orientados a conseguir el diseño de un espacio urbano sostenible, inteligente y eficiente con un modelo de ciudad referente para alcanzar una calidad de vida óptima.

Por último, el mismo día 2 de octubre estaremos en el Foro Tikal, I Foro de Tecnología, Innovación y Conocimiento de América Latina, promovido por la Escuela de Organización Industrial (EOI) y el Área de Innovación y Nuevas Tecnologías del Ayuntamiento de Málaga y cofinanciado por Fondos Feder, donde se darán cita alcaldes, representantes y equipos técnicos municipales de las ciudades más importantes de países latinoamericanos para debatir sobre iniciativas de smart cities a ambos lados del Atlántico.

Categorías:Eventos, Smartcities

Daedalus en las V Jornadas de la Red Gallega de Procesamiento del Lenguaje y Recuperación de Información

RedPlir

Hace unos días estuvimos invitados en las V Jornadas de la Red Gallega de Procesamiento del Lenguaje (PLN) y Recuperación de Información (RI), o RedPlir. Estas jornadas, pensadas para contrastar las necesidades de la industria con las investigaciones llevadas a cabo en el ámbito universitario, suponen una oportunidad única para que las empresas planteemos nuestras necesidades y problemas relacionados con el PLN y RI.

Este año, el tema estrella ha sido, como no podía ser de otra forma, el análisis de sentimiento, sobre todo en medios sociales. Elogia, agencia de marketing que emplea en su día a día tecnología de monitorización de medios sociales planteó una serie de retos, haciendo hincapié en la necesidad de que estas herramientas se adapten mejor al proceso de trabajo del analista de marketing y permitan la detección exhaustiva de comentarios y opiniones potencialmente relevantes. Por su parte, Eptica-Lingway describió cómo aplica su tecnología de lenguaje en el ámbito de la gestión de relaciones con clientes y el e-recruiting; Imaxin explicó cómo explotan la tecnología de PLN en la traducción automática y en interesantes proyectos de investigación, algunos relacionados con la inteligencia competitiva; el centro tecnológico Gradiant presentó algunas iniciativas interesantes para la clasificación y análisis de mensajes de Twitter en móviles haciendo uso únicamente de la capacidad de procesamiento de estos dispositivos (sin llamadas a servicios externos) y la start-up Berce planteaba posibles aplicaciones en su herramienta para la gestión de la actividad de niños y padres en entornos educativos.

Nosotros presentamos Textalytics, nuestra propuesta de “significado como servicio”, que facilita a desarrolladores de aplicaciones la integración de tecnología de procesamiento lingüístico, incluyendo análisis de sentimiento, reconocimiento de topics y un largo etcétera, sin necesidad de tener conocimientos profundos sobre los algoritmos que hay detrás. En las Jornadas planteamos la posibilidad de que cualquiera de los grupos de investigación presentes experimentase con Textalytics con el fin de facilitarles una plataforma base, multilingüe, que les permita centrarse en sus objetivos: detectar la ironía, mejorar la precisión y cobertura de los sistemas, etc. En Daedalus siempre hemos tenido un interés especial en el campo de la I+D en colaboración con universidades y queremos poner Textalytics a disposición de la comunidad investigadora. Buena prueba de esta implicación en tareas de I+D es la co-organización del Taller de Análisis de Sentimiento, TASS 2013, en el marco de las jornadas de la Sociedad Española para el Procesamiento del Lenguaje Natural, SEPLN, que se celebran esta semana.

Join us at TASS-2013 – Workshop on Sentiment Analysis in Spanish – Sept. 20th, 2013

TASS is an experimental evaluation workshop for sentiment analysis and online reputation analysis focused on Spanish language, organized by Daedalus, Universidad Politécnica de Madrid and Universidad de Jaén, as a satellite event of the annual SEPLN Conference. After a successful first edition in 2012, TASS 2013 [http://www.daedalus.es/TASS2013] is going to be held on Friday September 20th, 2013 at Universidad Complutense de Madrid, Madrid, Spain. Attendance is free and you are all welcome to participate.

logo_p

The long-term objective of TASS is to foster research in the field of reputation analysis, which is the process of tracking, investigating and reporting an entity’s actions and other entities’ opinions about those actions. The rise of social media such as blogs and social networks and the increasing amount of user-generated contents in the form of reviews, recommendations, ratings and any other form of opinion, has led to creation of an emerging trend towards online reputation analysis, i.e., the use of technologies to calculate the reputation value of a given entity based on the opinions that people show in social media about that entity. All of them are becoming promising topics in the field of marketing and customer relationship management.

As a first approach, reputation analysis has two technological aspects: sentiment analysis and text classification (or categorization). Sentiment analysis is the application of natural language processing and text analytics to identify and extract subjective information from texts. Automatic text classification is used to guess the topic of the text, among those of a predefined set of categories or classes, so as to be able to assign the reputation level of the company into different facets, axis or points of view of analysis.

The setup of the workshop is based on a series of challenge tasks based on two provided corpus, specifically focused on Spanish language, which are intended to promote the application of existing state-of-the-art and new proposals of algorithms and techniques in these fields and provide a benchmark forum for comparing the latest approaches. In addition, with the creation and release of the fully tagged corpus, we aim to provide a benchmark dataset that enables researchers to compare their algorithms and systems.

Two corpus were provided:

  • The General corpus contains over 68 000 Twitter messages, written in Spanish by about 150 well-known personalities and celebrities of the world of politics, economy, communication, mass media and culture, between November 2011 and March 2012.

Sin título 1

  • The Politics corpus contains 2 500 tweets, gathered during the electoral campaign of the 2011 general elections in Spain (Elecciones a Cortes Generales de 2011), from Twitter messages mentioning any of the four main national-level political parties: Partido Popular (PP), Partido Socialista Obrero Español (PSOE), Izquierda Unida (IU) y Unión, Progreso y Democracia (UPyD).

Sin título

All messages are tagged with its global polarity, indicating whether the text expresses a positive, negative or neutral sentiment, or no sentiment at all. 5 levels have been defined: strong positive (P+), positive (P), neutral (NEU), negative (N), strong negative (N+) and one additional no sentiment tag (NONE). In addition, there is also an indication of the level of agreement or disagreement of the  expressed sentiment within the content, with two possible values: AGREEMENT and DISAGREEMENT. Moreover, a selection of a set of topics has been made based on the thematic areas covered by the corpus, such as politics, soccer, literature or entertainment, and each message has been assigned to one or several of these topics. More information on these corpus will be included in future posts.

Four tasks were proposed for the participants, covering different aspects of sentiment analysis and automatic text classification:

  • Task 1: Sentiment Analysis at Global Level. This task consists on performing an automatic sentiment analysis to determine the global polarity (using 5 levels) of each message in the test set of the General corpus.
  • Task 2: Topic Classification. The technological challenge of this task is to build a classifier to automatically identify the topic of each message in the test set of the General corpus.
  • Task 3: Sentiment Analysis at Entity Level. This task consists on performing an automatic sentiment analysis, similar to Task 1, but determining the polarity at entity level (using 3 polarity levels) of each message in the Politics corpus.
  • Task 4: Political Tendency Identification. This task moves one step forward towards reputation analysis and the objective is to estimate the political tendency of each user in the test set of the General corpus, in four possible values: LEFT, RIGHT, CENTRE and UNDEFINED. Participants could use whatever strategy they decide, but a first approach could be to aggregate the results of the previous tasks by author and topic.

31 groups registered (as compared to 15 groups in TASS 2012) and 14 groups (9 last year) sent their submissions. Participants were invited to submit a paper to the workshop in order to describe their experiments and discussing the results with the audience in the regular workshop session.

tass2013-tasks

If you feel curious about the approaches adopted by the different groups and the results achieved in each Task, you are very welcome to attend the session on Friday September 20th, 2013 at Universidad Complutense de Madrid!

Or stay tuned for future posts that will provide valuable information and conclusions.

The future of Semantic APIs

Business models based on in the cloud APIs (Application Programming Interfaces) are undoubtedly an excellent choice for the commercialization of semantic technologies. In Daedalus we have been experimenting with these models for some time, both directly in the B2B market with some early adopters and indirectly, developing on top of our APIs our own products for the B2C market: Stilus (text proofreading) and Sentimentalytics (sentiment analysis).

What we have learned is that basic language functionality is hard to use for many developers who are not expert in these technologies, and that this fact requires them to build solutions through a process of trial and error in a do-it-yourself fashion, which is slow and inefficient. The market demands APIs with a more plug-and-play philosophy, which provide functionalities that are closer to the business, a faster learning curve and, as a result, increased productivity.

Textalytics Meaning-as-a-Service

This is the reason why we have developed Textalytics, a new generation of semantic technologies in SaaS mode. As a provider, our idea is to deal with the technical details and provide developers with an offering that features high level functionality optimized for each application, process pipelines and linguistic resources preconfigured for various scenarios, SDKs and plug-ins that foster use and integration, and user communities to share good practices, among other features.

This was the content of our presentation at the recent API Days Mediterranea held in Madrid. You can access it here (recording of June 1, from minute 5:41:30) and the slides here.

Regarding Textalytics, we hope to give more details in the next LT-Innovate Summit 2013, to be held in Brussels (Belgium) on  June 26 and 27. Stay tuned.

Categorías:API, Eventos, Soluciones

El futuro de las API Semánticas

Sin duda los modelos de negocio basados en API (Interfaces de Programación de Aplicaciones) en la nube son una excelente alternativa para la comercialización de las tecnologías semánticas. En Daedalus llevamos algún tiempo experimentando con estos modelos, tanto directamente en el mercado B2B con algunos early adopters como indirectamente, desarrollando sobre nuestras API producto propio para el mercado B2C: Stilus (revisión de texto), Sentimentalytics (análisis de sentimiento).

Lo que hemos aprendido es que las funcionalidades lingüísticas básicas son difíciles de usar para muchos desarrolladores, no expertos en estas tecnologías, y que eso les obliga a construir soluciones mediante un proceso de prueba y error tipo hágaselo usted mismo, que es lento e ineficiente. El mercado demanda unas API con una filosofía más plug-and-play, que proporcionen una funcionalidad más cercana al negocio, una curva de aprendizaje más rápida y, como resultado, una mayor productividad.

Textalytics Meaning-as-a-Service

Por eso hemos desarrollado Textalytics, una nueva generación de tecnologías semánticas en modo SaaS. Nuestra idea como proveedor es ocuparnos de los detalles técnicos y proporcionar a los desarrolladores una oferta que incluya funciones de alto nivel optimizadas para cada aplicación, pipelines de proceso y recursos lingüísticos preconfigurados para diversos escenarios, SDK y plug-ins que fomenten el uso y la integración y una comunidad de usuarios para compartir buenas prácticas, entre otras características.

Este ha sido el contenido de nuestra presentación en el reciente API Days Mediterranea celebrado en Madrid. Podéis acceder a nuestra intervención aquí (grabación del día 1 de junio, a partir de minuto 5:41:30) y a las transparencias aquí.

En cuanto a Textalytics, esperamos dar más detalles en el próximo LT-Innovate Summit  2013 (foro europeo de la industria del lenguaje), a celebrar en Bruselas (Bélgica) los próximos 26 y 27 de junio. Seguid sintonizados.

Categorías:API, Eventos, Soluciones

Las tecnologías de la lengua y el futuro del sector de los contenidos

Hace unos días tuve oportunidad de participar como ponente en una jornada organizada por LT-Innovate (Foro de la industria europea en Tecnologías de la Lengua) orientada al sector editorial y de los medios de comunicación. Esta iniciativa forma parte de los “focus groups” que LT-Innovate está organizando para dinamizar y expandir la actividad de las empresas proveedoras de productos y servicios basados en las tecnologías del lenguaje (procesamiento inteligente de contenidos, tecnologías del habla y traducción automática). A este foro asistieron representantes de una treintena de empresas europeas, tanto clientes como proveedores.

En mi intervención resalté la trasformación que está sufriendo el sector como consecuencia de una crisis que tiene múltiples facetas: los cambios en el modo en que los usuarios consumen contenidos, el abandono de los soportes tradicionales y su desplazamiento rápido al entorno de internet, la abundancia de contenidos gratuitos, con un ingente volumen producido y publicado directa e instantáneamente por los usuarios, el descenso de los ingresos publicitarios… Un escenario que está causando la quiebra de modelos de negocio hasta hace poco exitosos, y la aparición de otros llenos de incógnitas.

Hasta hace no mucho, las soluciones basadas en tecnologías del lenguaje ocupaban lugares marginales en los gestores de contenidos o quedaban relegados a aplicaciones aisladas de los entornos de producción.  Sin embargo, la progresiva digitalización y crecimiento del canal de internet para el consumo de contenidos, las presiones por reducir costes y tiempos, la integración de las redacciones de los medios con independencia de los soportes, etc. han hecho crecer progresivamente las necesidades de nuestros clientes. Así, poco a poco, a lo largo de quince años, en Daedalus hemos ido cubriendo esas necesidades, aumentando nuestro catálogo de soluciones, entre las que se encuentran las siguientes:

  • Corrección ortográfica, gramatical y de estilo, orientada a un entorno profesional, que requiere de rigor y homogeneidad de criterio.
  • Publicación semántica, incluyendo la identificación automática de entidades (personas, organizaciones, lugares, instalaciones, conceptos, referencias temporales o monetarias…) y conceptos relevantes, la clasificación o agrupamiento de textos conforme a estándares periodísticos o documentales.
  • Moderación o filtrado automático de foros y la corrección al vuelo de contenidos generados por usuarios.
  • Indexación y búsqueda de contenidos multilingües y multimedia.
  • Interfaces de búsqueda aproximada y en lenguaje natural.
  • Búsqueda sobre contenidos multilingües, incorporando sistemas de traducción automática.
  • Transcripción de contenidos multimedia y subtitulado automático de vídeo.
  • Análisis automático de opiniones, sentimientos y reputación en medios sociales.

Todas estas aplicaciones tienen uso en procesos cada vez más diversos en la industria de los contenidos:

  • Entrega de contenidos y publicidad contextual adaptados a perfiles de intereses de usuarios.
  • Producción de contenidos transmedia (distribución simultánea, complementaria y sincronizada a través de múltiples soportes: TV, internet, tabletas, móviles inteligentes).
  • Soporte a funciones de documentación y de periodismo de datos, a partir del análisis y exploración avanzado de fuentes de información heterogéneas.
  • Soporte para funciones de posicionamiento en buscadores y marketing online.
  • Soporte para nuevos modelos de negocio, basados en la venta de piezas individuales de contenidos o de historias construidas por agregación de contenidos producidos a lo largo del tiempo sobre un tema, un evento, un personaje, etc.

Como vemos, las tecnologías del lenguaje han pasado de la marginalidad a desempeñar un papel ubicuo y central en todas las áreas de esta industria. En Daedalus nos sentimos orgullosos de acompañar en este proceso desde hace años a un buen número de empresas y grupos del sector, con los que nos sentimos estrechamente comprometidos.

Le invitamos a que acceda a nuestra presentación en el Foro del sector editorial/media de LT-Innovate (Berlín, 12 de abril de 2013).

José Carlos González
@jc_gonzalez
@jgonzalez_es

A %d blogueros les gusta esto: