Archivo del autor

Recognizing entities in a text: not as easy as you might think!

12 diciembre, 2013 Deja un comentario

Entities recognition: the engineering problem

As in every engineering endeavor, when you face the problem of automating the identification of entities (proper names: people, places, organizations, etc.) mentioned in a particular text, you should look for the right balance between quality (in terms of precision and recall) and cost from the perspective of your goals. You may be tempted to compile a simple list of such entities and apply simple but straightforward pattern matching techniques to identify a predefined set of entities appearing “literally” in a particular piece of news, in a tweet or in a (transcribed) phone call. If this solution is enough for your purposes (you can achieve high precision at the cost of a low recall), it is clear that quality was not among your priorities. However… What if you can add a bit of excellence to your solution without technological burden for… free? If you are interested in this proposition, skip the following detailed technological discussion and go directly to the final section by clicking here.

Where difficulties come from?

Now, I will summarize some of the difficulties that may arise when designing an automatic system for “Named Entities Recognition” (NER, in short, in the technical papers). Difficulties may come from two fronts:

  • Do you deal with texts in several languages? Do you know the language of each text in advance?
  • What is the source of the documents or items of text that you have to manage? Do they come from a professional newsroom? Did you ingest them from OCR (Optical Character Recognition) or ASR (Automatic Speech Recognition) systems? Did you catch them with the API of your favorite social network?
  • Do your texts follow strict academic conventions regarding spelling and typography? (i.e. do you always deal with well-written text?)  Did users generate them with their limited and error-prone devices (smartphones)? Did second language speakers or learners produce them?

Designing the perfect NER system: the language nightmare

The previous questions end up in a set of complex challenges:

Eiffel Tower

Eiffel Tower

1. Translingual equivalence:
Problem: When you deal with multilingual content, you are interested in recognizing not language-dependent names, but entities that are designated differently in different languages.
Example: Eiffel Tower (EN), Tour Eiffel (FR) and Torre Eiffel (ES) refer to the very same object.
Solution: You need to use semantic processing to identify meanings, relative to a consistent, language-independent world model (e.g. using ontologies or referring to linked data sources).


Nelson Mandela

2. Intralingual or intratext equivalence:
Problem: For a particular language, texts usually refer to the same entities in different flavors (to avoid repetition, due to style considerations or communication purposes).
Example: Nelson Mandela, Dr. Mandela (depending on the context) and Madiba are recognized by English speakers as the same entity.
Solution: Again, in the general case, you need to link multiword strings (tokens) to meanings (representing real world objects or concepts).

3. Transliteration ambiguity:
Problem: translation of names between different alphabets.
Example: Gaddafi, Qaddafi, Qadhdhafi can refer to the same person.
Solution: It is always difficult to decide the strategy to attach a sense to an unknown word. Should you apply phonetic rules to find equivalents from Arabic or from Chinese? Expressing it otherwise: is the unknown word just a typo, a cognitive mistake, a spelling variant or even an intended transformation? Only when context information is available you can rely on specific disambiguation strategies. For example, if you know or you deduce that you are dealing with a well-written piece of news about Libya, you should surely try to find alternative transliterations from Arabic. This problem is usually treated at dictionary level, incorporating the most widespread variants of foreign names.

George Washington

George Washington

4. Homonyms disambiguation
Problem: Proper names have usually more than one bearer.
Example: Washington may refer to more or less known people (starting by George Washington), the state on the Pacific coast of the USA, the capital of the USA (Washington, D.C.) and quite a few other cities, institutions and installations in the same and other countries. It can even be a metonym for the Federal government of the United States.
Solution: Semantic and contextual clues are needed for proper disambiguation. Are there any other references to the same name (maybe in a more complete form) along the piece of text under scrutiny? Can semantic analysis tell us if we deal with a person (producing human actions) or a place (where things happen)? Can we establish with confidence a geographical context for the text? This could also lead to favorite particular interpretations.

5. Fuzzy recognition and disambiguation:
Problem: in the general case, how to deal with unknown words when you rely on (maybe huge) multilingual dictionaries plus (maybe smart) tokenizers and morphological analyzers?
Example: If you find in an English text the word “Genva”, should you better interpret it as Geneva (in French Genève) or Genoa (in Italian Genova).
Solution: the presence of unknown words is linked most of times to the source of the piece of text that you are analyzing. When the text has been typed with a keyboard, the writer may have failed to type the right keys. When the text comes from a scanned image through OCR, the result can be erroneous depending on image resolution, font type and size, etc. Something similar occurs when you get a text through ASR. The strategy to interpret correctly the unknown word (identifying the meaning intended by the author) implies using metrics for distance between the unknown word and other words that you can recognize as correct. In our example, if the text has been typed with a qwerty keyboard, it seems that the distance between Genva and Geneva involves a single deletion operation, while the distance between Genva and Genoa involves a single substitution using a letter that is quite far apart. So, using distance metrics, Geneva should be preferred. But contextual information is equally important for disambiguation. If our text includes mentions to places in Switzerland, or it can be established as the right geographical context, then Geneva gains chances. Otherwise, if the text is about Mediterranean cruises, Genoa seems to be the natural choice.

Meaning as a Service


Textalytics: semantic technology at your fingertips

Systems or platforms for Content Management (CMS), Customer Relationship Management (CRM), Business Intelligence (BI) or Market Surveillance incorporate information retrieval functionality allowing the search of individual tokens (typically alphanumeric strings) or literals in unstructured data. However, they are very limited in terms of recognition of semantic elements (entities, concepts, relationships, topics, etc.) This kind of text analytics is very useful not only for indexing and search purposes, but also for content enrichment. The final aim of these processes is adding value in terms of higher visibility and findability (e.g. for SEO purposes), content linkage and recommendation (related contents), ads placing (contextual advertisement), customer experience analysis (Voice of Customer, VoC analytics), social media analysis (reputation analysis), etc.

To facilitate the integration of semantic functionality in any software application, Daedalus opened its multilingual semantic APIs to the community through the cloud-based service Textalytics. On the client side, you can send a call (petition) to our service in order to process one item of text (a piece of news, a tweet, etc.): what you get is the result of our processing in an interchange format (XML or JSON). Textalytics APIs offer natural language processing functionality in two flavors:
  • Core APIs: one API call for each single process (extraction of entities, text classification, spell checking, sentiment analysis, content moderation, etc.) Fine tuning is achieved through multiple parameterization. Besides natural language core processing, audio transcription to text is also available, as well as auxiliary functions. Auxiliary APIs are useful, for example, to link entities with open linked data repositories, as DBpedia/Wikipedia, or to guess crucial demographic features (type, gender, age) for a given social media user.
  • Vertical APIs (Media Analysis, Semantic Publishing): one API call provides highly aggregated results (e.g. extraction of entities and topics, plus classification, plus sentiment analysis…), convenient for standard use in a vertical market (media industry, publishing industry…)

To end this post, let me stress other benefits of selecting Textalytics for semantic processing:

  • SDKs (Java, Python, PHP and Visual Basic) are offered for quick integration. Software developers take not more than half an hour to read the documentation and integrate our semantic capabilities in any environment.
  • You can register in Textalytics, subscribe to the API or APIs of your choice, get your personal key and send as many petitions as you want for free, up to a maximum of 500.000 words processed per month. For research, academic or commercial usage. No matter.
  • If you need processing higher volumes of text (exceeding the free basic plan) or in case you require launching more than five API calls per second, you can subscribe at affordable prices. No long-term commitment. Pay per month. Check out our pricing plans.

Curious? Try our demo!
Interested?  Contact us!
Believer? Follow us!

José C. González (@jc_gonzalez)

Offensive comments from readers in European online media have come to a full stop: Media will be responsible. What’s next?

28 octubre, 2013 1 comentario

The European Court of Human Rights issued on October 10th a very relevant sentence for European media companies. The case was brought by the Estonian news website Delfi, sued by the Justice of its country for having published offensive comments of readers against the director of a company which acted as a source of information. The publication of the news in question occurred on January 24th, 2006, and a few weeks later, on March 9th, the lawyers of the victim requested the withdrawal of 20 offensive comments and compensation for moral damages. The news website removed the comments on the same day and rejected the economic request. The following month, a civil lawsuit was filed before the Estonian courts. This lawsuit reached the national highest court, which upheld the guilty verdict and sentenced the media company to provide 320 euros in compensation to the plaintiff.

Delfi, the company that owns the news portal, resorted to Strasbourg (headquarters of the European Court of Human Rights), stating that the sentence violated the principle of freedom of expression, protected by article 10 of the Convention for the Protection of Human Rights and Fundamental Freedoms.


Now, this European court has ruled against the media company. And this despite the fact that Delfi had an automatic (rudimentary) system to filter out comments that included some keywords (insults or other problematic words). In addition, Delfi had a mechanism with which readers could mark a comment as inappropriate. The sentence considers that this filter was insufficient to prevent damage against the honor of third parties and that the media company should have taken more effective action to prevent these situations.

The court considers reasonable to hold responsible the editor, being its function to publish information and give visibility to the comments of readers, and profiting through the traffic generated by those comments.

What now? In an entry of this blog, entitled “Moderating participation in the media” [in Spanish] and published a couple of years ago, we summed up the difficulties and the keys of our approach to help solving a problem that is not trivial.

Difficulties are manifold. On the one hand, the detection of isolated offensive words is not enough and it is necessary to filter expressions, sometimes taking into account their context and inflected forms. On the other hand, it is also necessary to interpret the abbreviated language or texts with typographic errors, which are noticeably frequent in comments and user-generated content sections. These “errors” can arise from limitations of devices, the impulsive aspect of commenting, or the users’ intention to cheat the automatic filters trying to outsmart them by all means. (Sometimes in really witty ways).

In addition to this problem related to the Variety of texts, we find the other two recurring features in “big data” applications (forming the famous 3Vs): Volume of the comments to be processed and Velocity of response required.

At Daedalus, we have been addressing these problems for the media industry for years and lately also for other sectors, like banking and insurance.

As regards the integration architecture of our solutions, we are currently offering them in SaaS (Software as a Service) mode, from our new APIs platform in the cloud Textalytics, as well as the traditional licensing to run on-premises.

With automatic filtering systems, we cannot guarantee 100% accuracy for any filtering task. Different companies or media, and different sections within a same medium, require different strategies. It seems clear that it makes no sense applying the same filter criteria to the comments of a brilliant feature article and to the interventions that emerge during the live broadcast of a football match or a reality show. In this sense, our systems assess the gravity of the expression, allowing our customers to set flexibly their acceptability threshold. On the other hand, we provide customization tools to facilitate the incorporation of new problematic expressions. Finally, we also permanently monitor the operation of these systems for customers who wish it, within their plans of continuous quality assurance and improvement.

Are you interested? Feel free to contact Daedalus.

Discover our solutions for the media industry.

References to this topic:

Jose C. Gonzalez

Punto final para los comentarios ofensivos de los lectores en los medios de comunicación online: los medios serán los responsables. Y ahora, ¿qué?

24 octubre, 2013 1 comentario

El Tribunal Europeo de Derechos Humanos, el mismo que acaba de deslegitimar la aplicación retroactiva de la denominada “doctrina Parot”, dictó el pasado día 10 de octubre una sentencia muy relevante para los medios de comunicación europeos.

El caso en cuestión fue interpuesto por la web de noticias estonia Delfi, condenada por la justicia de su país por la publicación de comentarios ofensivos de lectores contra el director de una empresa que actuaba como fuente de una información. La publicación de la noticia en cuestión se produjo el 24 de enero de 2006, y algunas semanas después, el 9 de marzo, los abogados del ofendido solicitaron la retirada de 20 comentarios ofensivos y una indemnización por daños morales. La web de noticias retiró los comentarios el mismo día y rechazó la petición económica. Al mes siguiente, se interponía una demanda judicial civil ante los tribunales estonios. Esta demanda llegó hasta la máxima instancia judicial nacional, que confirmó la culpabilidad y condenó al medio a una indemnización de 320 euros para el demandante.


La empresa propietaria del portal de noticias, Delfi, recurrió a Estrasburgo (sede del Tribunal Europeo de Derechos Humanos), considerando que la condena vulneraba el principio de libertad de expresión, amparado por el artículo 10 de la Convención para la Protección de los Derechos Humanos y las Libertades Fundamentales.

Ahora, este tribunal europeo ha fallado en contra del medio de comunicación. Y ello a pesar de que Delfi disponía de un sistema automático (rudimentario) para filtrar comentarios que incluyeran algunas palabras clave (insultos u otras palabras problemáticas). Además, Delfi disponía de un mecanismo con el que los propios lectores podían marcar un comentario como inadecuado. La sentencia considera que este filtro era insuficiente para impedir daños contra el honor de terceros y que el medio debió tomar medidas más efectivas para prevenir estas situaciones.

El Tribunal considera razonable responsabilizar al editor, siendo su función publicar informaciones y dar visibilidad a los comentarios de los lectores, y lucrándose por ello a través del tráfico generado por esos comentarios.

Y ahora, ¿qué hacer? En un texto de este mismo blog, titulado “Moderar la participación en los medios“, publicado hace un par de años, resumíamos las dificultades y las claves de nuestro enfoque para ayudar a resolver un problema que no es trivial.

Las dificultades son múltiples. Por un lado, no basta con detectar palabras ofensivas aisladas, sino que es necesario filtrar expresiones, a veces teniendo en cuenta el contexto de la expresión y sus variantes flexivas. Por otro lado, hay que interpretar el lenguaje abreviado o los textos con errores ortotipográficos tan frecuentes en las secciones de participación o en los contenidos generados por usuarios. Estos “errores” pueden derivarse de las limitaciones de los dispositivos, del carácter impulsivo de los comentarios, o de la intención enmascaradora de los propios usuarios que, a sabiendas de la existencia de filtros automáticos, tratan de burlarlos por todos los medios (a veces con mucho ingenio).

Además de este problema relacionado con la Variedad de los textos, encontramos las otras dos características recurrentes en las aplicaciones de “big data” (conformando las famosas 3V): el Volumen de comentarios a tratar y la Velocidad de respuesta requerida.

En Daedalus, venimos abordando estos problemas desde hace años para el sector de los medios, y últimamente también en otros sectores, como el de banca y seguros.

En cuanto a la arquitectura de integración de estas soluciones, en la actualidad las estamos ofreciendo como un servicio en modo SaaS (Software as a Service), desde nuestra plataforma Textalytics de APIs en la nube, además del  tradicional licenciamiento para su ejecución on-premises.

Con los sistemas automáticos, no podemos garantizar un 100% de precisión para cualquier tarea de filtrado. Diferentes empresas o medios, y diferentes secciones dentro de un mismo medio, requieren distintas estrategias. Parece evidente que no tiene sentido aplicar los mismos criterios de filtrado a los comentarios de un sesudo artículo de fondo que a las intervenciones surgidas durante la transmisión en directo de un partido de fútbol o de un reality show. En ese sentido, nuestros sistemas caracterizan la gravedad de la expresión, permitiendo flexibilidad a nuestros clientes para establecer el umbral idóneo para su caso. Por otro lado, proporcionamos herramientas de personalización para facilitar la incorporación de nuevas expresiones problemáticas. Por último, también monitorizamos permanentemente el funcionamiento de estos sistemas para los clientes que lo desean, dentro de sus planes de aseguramiento y mejora continuada de la calidad.

¿Interesado? No dude en ponerse en contacto con Daedalus.

Descubra nuestras soluciones para el sector de medios.

Referencias a este asunto:

José Carlos González

Language Technology and the Future of the Content Industry

A few days ago I had the opportunity to participate as a speaker at a conference organized by LT-Innovate (the European Industry of Language Technology Forum) oriented to the publishing and media industries. This initiative is part of the focus groups that LT-Innovate is organizing in order to boost and expand the activity of companies providing products and services based on language technology (intelligent content processing, speech technology and automatic translation). Representatives of around thirty European companies attended the forum, both customers and suppliers.

In my presentation I emphasized the transformation of the Content Industry as a result of a crisis with numerous facets: the changes in the way users consume contents, the departure from traditional supports and their prompt displacement to the Internet environment, the abundance of free content, with an enormous volume produced and published directly and instantly by users and the fall of advertising income. A scenario that is causing the failure of business models until recently successful and the rise of others still unpredictable.

Until not long ago, solutions based on language technology had little space in content management tools or were limited to isolated applications of the production environment.  Nevertheless, the progressive digitalization and the growth of the Internet’s segment dedicated to content consumption, the urgent need to reduce costs and time, the integration of media newsrooms independent of supports, etc. have let progressively grow our clients’ needs. Thus, gradually and throughout fifteen years, at Daedalus we have been covering those needs by increasing our catalog of solutions, among which are the following:

  • Spell, grammar and style checking oriented to the professional environment, which requires accuracy and uniform criteria.
  • Semantic publication, including the automatic identification of entities (people, organizations, places, facilities, concepts, time or currency references…) and significant concepts, the classification or grouping of texts according to journalistic or documentary standards.
  • Moderation or automatic filtering of forums and the immediate revision of user generated content.
  • Indexing and search of multilingual and multimedia content.
  • Approximate and natural language search interfaces.
  • Search in multilingual content by incorporating automatic translation systems.
  • Transcription of multimedia content and automatic video subtitling.
  • Automatic analysis of opinions, feelings and reputation in social media.

All these applications have use in the more and more diversified processes of content industry:

  • Delivery of content and contextual advertising adapted to the users’ interest profiles.
  • Production of transmedia content (simultaneous, complementary and synchronized distribution through multiple platforms: TV, Internet, tablets, smartphones).
  • Support to documentary research and data journalism, starting from the analysis and the advanced investigation of heterogeneous information sources.
  • Support to Search Engine Optimization features and marketing online.
  • Support for new business models based on the sale of single pieces of content or stories built up by the aggregation of content produced throughout the time on a subject, an event, a public figure, etc.

As we see, language technology has moved from marginal to central positions in all areas of this industry. At Daedalus we are proud of having served in this process to a good number of companies and groups of this industry for years, to which we feel closely committed.

We invite you to check out our presentation in the Publishing/Media Industry Forum organized by LT-Innovate (Berlin, April 12th, 2013).

Jose C. Gonzalez

Las tecnologías de la lengua y el futuro del sector de los contenidos

Hace unos días tuve oportunidad de participar como ponente en una jornada organizada por LT-Innovate (Foro de la industria europea en Tecnologías de la Lengua) orientada al sector editorial y de los medios de comunicación. Esta iniciativa forma parte de los “focus groups” que LT-Innovate está organizando para dinamizar y expandir la actividad de las empresas proveedoras de productos y servicios basados en las tecnologías del lenguaje (procesamiento inteligente de contenidos, tecnologías del habla y traducción automática). A este foro asistieron representantes de una treintena de empresas europeas, tanto clientes como proveedores.

En mi intervención resalté la trasformación que está sufriendo el sector como consecuencia de una crisis que tiene múltiples facetas: los cambios en el modo en que los usuarios consumen contenidos, el abandono de los soportes tradicionales y su desplazamiento rápido al entorno de internet, la abundancia de contenidos gratuitos, con un ingente volumen producido y publicado directa e instantáneamente por los usuarios, el descenso de los ingresos publicitarios… Un escenario que está causando la quiebra de modelos de negocio hasta hace poco exitosos, y la aparición de otros llenos de incógnitas.

Hasta hace no mucho, las soluciones basadas en tecnologías del lenguaje ocupaban lugares marginales en los gestores de contenidos o quedaban relegados a aplicaciones aisladas de los entornos de producción.  Sin embargo, la progresiva digitalización y crecimiento del canal de internet para el consumo de contenidos, las presiones por reducir costes y tiempos, la integración de las redacciones de los medios con independencia de los soportes, etc. han hecho crecer progresivamente las necesidades de nuestros clientes. Así, poco a poco, a lo largo de quince años, en Daedalus hemos ido cubriendo esas necesidades, aumentando nuestro catálogo de soluciones, entre las que se encuentran las siguientes:

  • Corrección ortográfica, gramatical y de estilo, orientada a un entorno profesional, que requiere de rigor y homogeneidad de criterio.
  • Publicación semántica, incluyendo la identificación automática de entidades (personas, organizaciones, lugares, instalaciones, conceptos, referencias temporales o monetarias…) y conceptos relevantes, la clasificación o agrupamiento de textos conforme a estándares periodísticos o documentales.
  • Moderación o filtrado automático de foros y la corrección al vuelo de contenidos generados por usuarios.
  • Indexación y búsqueda de contenidos multilingües y multimedia.
  • Interfaces de búsqueda aproximada y en lenguaje natural.
  • Búsqueda sobre contenidos multilingües, incorporando sistemas de traducción automática.
  • Transcripción de contenidos multimedia y subtitulado automático de vídeo.
  • Análisis automático de opiniones, sentimientos y reputación en medios sociales.

Todas estas aplicaciones tienen uso en procesos cada vez más diversos en la industria de los contenidos:

  • Entrega de contenidos y publicidad contextual adaptados a perfiles de intereses de usuarios.
  • Producción de contenidos transmedia (distribución simultánea, complementaria y sincronizada a través de múltiples soportes: TV, internet, tabletas, móviles inteligentes).
  • Soporte a funciones de documentación y de periodismo de datos, a partir del análisis y exploración avanzado de fuentes de información heterogéneas.
  • Soporte para funciones de posicionamiento en buscadores y marketing online.
  • Soporte para nuevos modelos de negocio, basados en la venta de piezas individuales de contenidos o de historias construidas por agregación de contenidos producidos a lo largo del tiempo sobre un tema, un evento, un personaje, etc.

Como vemos, las tecnologías del lenguaje han pasado de la marginalidad a desempeñar un papel ubicuo y central en todas las áreas de esta industria. En Daedalus nos sentimos orgullosos de acompañar en este proceso desde hace años a un buen número de empresas y grupos del sector, con los que nos sentimos estrechamente comprometidos.

Le invitamos a que acceda a nuestra presentación en el Foro del sector editorial/media de LT-Innovate (Berlín, 12 de abril de 2013).

José Carlos González

“Compete or Retire”: Competitive challenges – Learning from research in language technologies

It’s been almost 20 years since the first TREC (Text REtrieval Conference), started in 1992. This technical workshop series, co-sponsored by the National Institute of Standards and Technology (NIST) and the U.S. Department of Defense, was, to my knowledge, the first attempt to abandon the classical model of scientific conferences, where colleagues meet “simply” for exchanging knowledge advances or discoveries in a scientific or technical discipline.

TREC deepened into an experimental approach started at Cranfield University years before. The TREC model consists in proposing a set of tasks or challenges to be addressed by research teams along a period of time (a campaign which lasts several months). Large-size data sets are prepared by the organizers (NIST), permitting the different teams to build, train and tune their systems for each task during several months. At a particular moment in the campaign, unseen testing data are delivered to the teams to produce results in a few days. Afterwards, results from different teams are evaluated against a blueprint developed manually or extracted from the pool of solutions obtained by the participants through automatic or semiautomatic procedures. With the output of the evaluation process at hand, teams write reports describing the approach, architecture and algorithms used in their “runs”, explaining the reasons for failure or success, comparing the output of other teams, and proposing ways for improving performance. Such reports are presented to colleagues in a workshop, where results are discussed and tasks for the following year are planned.

In the area of Information Retrieval, TREC was followed by parallel events in Japan (NTCIR, Japanese National Institute of Informatics Test Collection for IR Systems, started in 1999 and specialized in Asian languages) and in Europe (CLEF, Cross-Language Evaluation Forum, started in 2000, and focused around the specific challenges of a multilingual Europe). Nowadays, the same approach is followed by many other national and international conferences linked to language technologies, artificial intelligence and other disciplines.

The field of Information Retrieval has shown great progress during all these years, and the contribution of these (both cooperative and competitive) challenges cannot be dismissed.

Let’s be honest: a great deal of the research published in scientific conferences and journals is simply useless. Researchers have been forced to write papers (“publish or perish”) for years as the main output of their work. And the obligation of publishing (and organizing) in workshops and symposiums has led to an inflation of scientific events and publications.

Against the publication fever, M.I.T. Media Lab started in 1985 a new culture incarnated in its unofficial motto “demo or die”. Excerpting its founder Nicholas Negroponte: “When we started the Media Lab, I kept telling people we must demo, demo, demo… Forget technical papers and to a lesser extent theories. Let’s prove by doing.”

Competitive challenges go a step further in the Media Lab model, fostering cooperation among competing research teams in a model that we call now “coopetition”, a first-class citizen of the country of open innovation. I would propose “compete or retire” as the advertising slogan of this 20-years old approach.

Take a look at the work by Michael Schrage (fellow at MIT Center for Digital Business, Sloan School of Management) for a thorough discussion on the key role of experiments in organizations: a pillar of innovation and entrepreneurship.

Daedalus has been cooperating with research teams from Spanish universities: LABDA (Carlos III University of Madrid, GSI (Technical University of Madrid), LLI (Autonomous University of Madrid) and SINAI (University of Jaen) in CLEF,  NTCIR and other competitive conferences since 2003. Our experience participating hand in hand with them has been always highly motivating and encouraging, and has provided a valuable contribution to our company’s learning and growth.  And, moreover… it is being plenty of fun!

Right now, Daedalus co-organizes a challenge on sentiment analysis in social media (TASS Workshop, at the SEPLN-2012 Conference). The proposed task consists in performing automatic sentiment analysis on tweets to determine the polarity of each message in a test collection. A training data set of 70,000 tweets in Spanish has been tagged manually for use by participants. Our experimental vocation is also well represented by our web site for demos: the Daedalus showroom.

How was your experience in competitive challenges in any scientific or technical field? At some universities, experiment-oriented approaches are used as the basis of learning processes. Have you followed this experimental and competitive approach in undergraduate or graduate courses in any computing-related area, as a student or as a teacher?

Jose C. Gonzalez

Categorías:Innovación, Soluciones

Buscando emprendedor desesperadamente

19 octubre, 2011 6 comentarios

El apoyo a los emprendedores está siendo uno de los ejes de las proclamas de los candidatos de las próximas Elecciones Generales. Tanto Rubalcaba como Rajoy se reúnen con colectivos de emprendedores y explican sus ideas para facilitar la creación de nuevos proyectos empresariales, como remedio para compensar la debilidad de la economía más tradicional e impulsar la recuperación del empleo.

Las medidas que se están proponiendo, tanto en el ámbito administrativo, como en el financiero, como en el fiscal, pueden ser útiles, en mayor o menor medida, para aliviar las dificultades y rebajar los riesgos que supone cualquier emprendimiento empresarial. Sin embargo, cabe preguntarse dónde están todos esos emprendedores deseosos de aprovechar estas medidas. ¡Como si existiera en España una legión de emprendedores agazapados a la espera de un toque de corneta y un empujoncito gubernamental! Haberlos, haylos, claro, pero me temo que son muchos menos de los deseables.

El del emprendimiento ha sido un gen recesivo en nuestro ADN colectivo. Nuestros genes se han ido inclinando durante décadas por la tendencia a la “seguridad” en contraposición al “riesgo”. La “seguridad” se ha asociado en el ámbito laboral al funcionariado o la gran empresa y en el económico a la inversión inmobiliaria: tierra y ladrillo. Por su parte, en nuestra conciencia colectiva, el “riesgo” ha quedado ligado a la incertidumbre del azar y al vicio del juego. Es evidente que nuestra genética está cambiando, y que tendrá que continuar adaptándose a las nuevas condiciones ambientales, por los inevitables recortes en los presupuestos de las administraciones públicas, por las reducciones de plantilla y por las consecuencias del estallido de la burbuja inmobiliaria. Pero estas adaptaciones no se efectúan de la noche a la mañana.

Como profesor universitario, veo en nuestros alumnos escasas muestras de espíritu emprendedor. Participé como ponente hace unas semanas en los cursos de verano de la Universidad Politécnica de Madrid en La Granja (Segovia). Se trataba de una mesa redonda, titulada “La universidad emprendedora”. Mi intervención servía para relatar la experiencia de creación de Daedalus S.A., fundada en 1998 en el marco de una -entonces nueva- línea de actuaciones del Vicerrectorado de Investigación de la UPM para la promoción de la creación de empresas de base tecnológica. Daedalus fue el primer spin-off universitario creado con el apoyo de esa iniciativa.

Desde la primera decisión adoptada por la universidad en este ámbito (la impartición de un curso de creación de empresas) hasta ahora, han transcurrido más de 13 años, y los esfuerzos de la UPM (y de otras universidades) para fomentar el emprendimiento se han multiplicado: concursos de creación de empresas, creación de viveros de empresas en los campus y en parques tecnológicos, acuerdos con empresas de capital-riesgo, etc. Sin embargo, la permeabilidad y el impacto de estas iniciativas son, todavía, muy limitados. Su despegue solo se producirá si los estudiantes tienen un contacto efectivo con esas experiencias.

Si eres profesional o estudiante de cualquier área tecnológica:

  • ¿Cuántos de tus profesores universitarios crearon una empresa?
  • Si has conocido algún caso, ¿en qué medida esa experiencia se reflejaba en la docencia?
  • ¿Cuál ha sido hasta ahora tu contacto con el mundo del emprendimiento empresarial?
  • ¿Te plantearías la posibilidad de participar como socio o como empleado en el arranque de una nueva empresa de base tecnológica?

Esperemos que nuestros políticos encuentren finalmente al emprendedor, como Rosanna Arquette da con Madonna en la película “Buscando a Susan desesperadamente”. ¿Y si, como en la película, aceptaran un intercambio de papeles? ¿Quién no sustituiría mil políticos por mil emprendedores?


El lenguaje en los Discursos del Estado de la Nación

28 junio, 2011 1 comentario

Que el lenguaje de los políticos cambia a lo largo del tiempo es una obviedad: igual que se transforma la coyuntura social, económica y política en las esferas nacional e internacional, e igual que mudamos los ciudadanos, destinatarios de sus discursos. Han pasado casi 28 años desde que Felipe González pronunciara el primer discurso en un Debate del Estado de la Nación, y mucho hemos cambiado España y los españoles desde entonces.

En Daedalus nos hemos planteado el interés de proporcionar herramientas para comparar léxicamente los discursos de los tres Presidentes del Gobierno  (diez de Felipe González y seis de José María Aznar y otros tantos de José Luis Rodríguez Zapatero, incluyendo el que pronuncia hoy).  Es curioso ver cómo algunos términos, como “sostenibilidad” o “igualdad” no han sido relevantes hasta hace muy poco. En el extremo, el término inmigración, no apareció ni una sola vez hasta el año 2001.

También podrán comprobar que la “crisis” fue un tema recurrente en los discursos de Felipe González de los años 83, 84, 91 y 94 (citado entre 14 y 23 veces), mencionando siempre esa palabra en algún momento de sus 10 discursos. Con mucha menor profusión, Aznar también habló de crisis (en todos sus discursos menos en uno). Sin embargo, no hubo ninguna mención a este término en ninguno de los tres primeros discursos de Rodríguez Zapatero, para surgir con fuerza (20 citas) en el año 2009.

Nuestra iniciativa hace posible que el investigador, el lector interesado o el simple curioso, analicen las fuentes de información por sí mismos. Este tipo de iniciativas  no son muy habituales en el periodismo tradicional, más dado a transmitir mensajes más “digeridos” (cuando no claramente orientados a su clientela).

Si lo desea, puede probar nuestro demostrador:

Análisis de los Discursos del Estado de la Nación

Como precedente de este sistema (que no tiene más propósito que el de servir de demostrador de nuestra tecnología), debemos citar los análisis de los discursos del Estado de la Unión que, desde hace algunos años, lleva a cabo el diario “The New York Times”. Pueden ver algunos ejemplos en estos enlaces:

Análisis de los discursos del Estado de la Unión pronunciados por el Presidente Bush

75 Años de Discursos del Estado de la Unión

También es interesante el análisis de los discursos del Presidente Obama propuesto por The Wall Street Journal:

Principales temas y palabras en los discursos del Presidente Obama

Y, por supuesto, una iniciativa independiente: “Speechwars”, donde se analizan las palabras usadas en todos los discursos de la unión desde 1790:

Speechwars: las palabras que hacen una nación

Para terminar, permítanme dos últimas recomendaciones muy especializadas (tesis doctorales), de interés para lingüistas, sociólogos y politólogos:

Emilio Alejandro Núñez Cabezas: “Aproximación al léxico del lenguaje político español”. Tesis Doctoral. Universidad de Málaga, 2000.

Francisco José Sánchez García: “Estudio pragmático del discurso periodístico político español. A propósito de los debates sobre el estado de la nación”. Tesis Doctoral. Universidad de Granada, 2009.

En cuanto finalice el discurso de hoy del Presidente Rodríguez Zapatero, lo incorporaremos para que puedan analizarlo en nuestro sitio de demostraciones: Showroom Daedalus


Anonimización: un enfoque útil para protección de la privacidad y de la confidencialidad

En un reciente informe titulado “Derribando los mitos sobre la eliminación de datos personales: la anonimización, herramienta potente para la protección de la privacidad”, los autores (investigadores canadienses) proclaman la utilidad de las técnicas de filtrado automático para anonimizar información. La anonimización consiste en eliminar en una base de datos (estructurada o documental) aquella información sensible que afecta a personas u organizaciones cuya identidad deba protegerse legalmente.

La anonimización es un requisito imprescindible para dar un uso legítimo a grandes volúmenes de conocimiento almacenados en formato digital. Estamos hablando de usos no solo legítimos, sino muy beneficiosos socialmente. Pensemos en la información incorporada en historias clínicas de pacientes y que los investigadores deben analizar aplicando técnicas de inferencia estadística o de minería de datos para extraer nuevo conocimiento sobre enfermedades, terapias, interacción entre fármacos, etc. Pensemos también en la gran cantidad de documentos (autos y sentencias judiciales, actas de inspección de impuestos, informes periciales, etc.) que incorporan gran cantidad de conocimiento especializado sobre procedimientos, normas, jurisprudencia, etc. No podemos permitirnos que ese conocimiento quede encerrado e invisible, ya que de su reutilización depende a menudo la eficiencia de las organizaciones: como instrumento de aprendizaje (estudio de casos), como medio para incrementar la productividad y como herramienta para evitar la repetición de errores. Errores cuyo impacto se puede medir en términos de coste o productividad de los servicios públicos o privados, o incluso de vidas humanas.

Los usos de esas fuentes de información están limitados por la protección necesaria de la privacidad o de la confidencialidad de determinadas informaciones, por ejemplo las que regulan la comunicación entre abogado y cliente o entre médico y paciente. Esto nos lleva a la necesidad de anonimizar bases de datos o documentos. En el caso de información no estructurada, como la presente en documentos textuales u objetos multimedia, el problema no es, ni mucho menos trivial. El problema de la anonimización implica normalmente:

  • Eliminar o sustituir algunos nombres de personas (físicas o jurídicas), direcciones y demás información de contacto, números identificativos, apodos o cargos.
  • Eliminar o sustituir algunos lugares mencionados (ciudades, barrios, regiones, instalaciones, monumentos, áreas naturales, etc.)
  • Mantener otros nombres de entidades (personas, organizaciones o lugares) cuando aportan información relevante para el caso y no facilitan la identificación.
  • En ocasiones es necesario también filtrar fechas o cantidades monetarias.
  • Si se sustituyen referencias a entidades por etiquetas, es necesario mantener la consistencia a lo largo de un mismo documento, a pesar de que existan variaciones en la denominación (por ejemplo, si no se usa el nombre completo en todo el texto, si se usan alias, o si existen variantes debido a errores ortográficos).

Garantizar una precisión del 100% en la anonimización de documentos no estructurados es materialmente imposible, por la casuística infinita de estos problemas. Además, es preciso adaptar estos procesos a las necesidades y tipología del problema en cada caso. Sin embargo, la anonimización sigue siendo una alternativa a considerar en muchos dominios. En el estudio canadiense mencionado, se cita el caso de la anonimización de 15.000 historias clínicas utilizando estándares conformes a la legislación americana (Health Insurance Portability and Accountability Act, HIPAA). Un equipo de expertos consiguieron identificar, utilizando bases de datos externas, a dos de los pacientes (probabilidad de 0,013%), a través de un análisis exhaustivo de los historiales a lo largo del tiempo. (No se indica en el trabajo cuántos recursos se dedicaron a la identificación, ni con qué coste.) Esta probabilidad se considera extremadamente baja, y suficiente para casi cualquier aplicación, entre otras cosas porque no existe normalmente motivación suficiente para invertir tal esfuerzo en la reidentificación de los casos.

La tecnología de procesamiento del lenguaje ha progresado notablemente en los últimos tiempos, con lo que las técnicas automáticas de anonimización no son ya un reto, sino una solución útil en múltiples casos. Daedalus ha trabajado en este tipo de soluciones para la Agencia Tributaria, en la anonimización de Actas de Inspección. En este caso, el objetivo era que los inspectores pudieran hacer uso no restringido de las actas levantadas por compañeros, protegiendo los requisitos imprescindibles de confidencialidad. ¿Se encuentra su organización frente a un problema parecido?

A. Cavoukian and K. El Emam: Dispelling the Myths Surrounding De-identification: Anonymization Remains a Strong Tool for Protecting Privacy. Office of the Information & Privacy Commissioner, Ontario, Canada, 2011.


Look4leaks: ricerca sui cable di Wikileaks

Mario Vargas Llosa ha dichiarato pochi giorni fa i suoi sentimenti ambivalenti per quanto riguarda Wikileaks e la pubblicazione dei cabli del Dipartimento di Stato. Sul lato positivo, valora la trasparenza, che ci protegge dal intrighi e inganni. Per quanto riguarda il negativo, è un rischio per gli stati, in particolare i democràtici, per la loro vulnerabilità alla scomparsa di ogni forma di privacy. (vedi la cronaca, ad esempio,  The Swedish Wire: “WikiLeaks dangerous and wonderful”). Da parte sua, il presidente Obama ha fatto riferimento alla perdita come un’atto deplorevole.

La nostra valutazione complessiva della pubblicazione di questi documenti non è negativa. Rappresenta una piccola vittoria, ma importante per i cittadini, società civile, sull’apparato del potere statale. D’ora in poi, i governi dovranno preoccuparsi di trasparenza nelle relazioni internazionali. In questo punto usciremo, probabilmente, vincendo.

Inoltre, questo problema chiama in causa il ruolo dei servizi segreti di oggi. Le dichiarazioni rivelano, a volte, interpretazioni e opinioni molto superficiale o molto personali. Quel poco che ha pubblicato fino ad oggi degli 250.000 cablogramme, evidenzia anche la distesa ei metodi delle reti di influenza del governo degli Stati Uniti. Non si tratta fino a questo momento,  in ogni caso, di rivelazioni particolarmente sorprendenti. Alla luce dei risultati, i cittadini degli Stati Uniti potranno chiedere in che misura è ora necessario implementare una rete di informazioni così vasta e costosa (e apparentemente, così vulnerabile) come quella che mantiene il suo paese.

Ma analizziamo anche altri aspetti controversi del tema. Per quanto riguarda alla perdita di riservatezza, è un segno dei nostri tempi, il risultato di una società immediatamente interconnessa in cui viviamo. Una scomparsa facilitata dalla tecnologia e amplificata dai media. Qualsiasi azione volta a garantire la privacità e la riservatezza dovrà fare i conti con l’onnipresenza di dispositivi tecnologici e l’immediatezza delle reti di comunicazione … Ma, soprattutto, si incontreranno con la curiosità (spesso morbosa) di una legione di consumatori avidi di informazioni più o meno intima e robusta. La maggior parte dei mezzi di comunicazione sfrutta questa vena con grande successo di audizione, senza evidenti segni di saturazione. Qualsiasi azione per fermare questa tendenza di rifiuti e di curiosità morbosa deve cominciare dalla educazione.

Comprendiamo le paure che possono sorgere davanti ad un abisso d’informazioni, come può succedere nel caso di Wikileaks, ma crediamo che gli effetti positivi saranno predominanti. Per questo motivo, abbiamo riunito, in Daedalus, alcuni componenti della nostra tecnologia per il trattamento di contenuti multilingue in un motore di ricerca specializzato. Questo modulo permette di esplorare le poche centinaia di cablogramma che Wikileaks ha pubblicato e sono pubblicamente accessibili in virtù dei cinque mezzi di comunicazione che realizzano la gestione esclusiva, EL PAÍS tra di loro.

La ricerca sui documenti rilasciati finora (e sono facilmente accessibili da chiunque in rete) è disponibile in

José Carlos González

Categorías:Uncategorized Etiquetas: , , ,
A %d blogueros les gusta esto: