En 2015 la Asamblea General de las Naciones Unidas adoptó la Agenda 2030 para el Desarrollo Sostenible. Sus 17 “Objetivos de Desarrollo Sostenible” (ODS), se convirtieron en una demanda universal para la adopción de medidas que pudieran poner fin a la pobreza, proteger el planeta y garantizar que todas las personas crezcan en paz y tengan una vida digna.

Como no podía ser de otra manera, y como servicio público, RTVE adquirió el compromiso de acercar esos ODS a toda la sociedad.

Así, para velar por el cumplimiento de este compromiso, se realiza un seguimiento pormenorizado del tratamiento de cada uno de los ODS en nuestras actividades.

Esta no es una tarea fácil ya que, si bien a veces la atención a los ODS se materializa en forma de campañas concretas o programas monográficos que son visibles y fácilmente identificables, en otras ocasiones no es tan sencillo cuantificar cuándo se habla de ellos, bien porque se trata de información que se ofrece como parte de un programa o por aparecer como una pieza dentro de un informativo.

A menudo surge la necesidad de presentar a organismos nacionales o internacionales los resultados de este seguimiento en forma de informes y análisis de los tiempos dedicados a contenidos relacionados con cada ODS. Históricamente estos reportes se hacían de forma manual consumiendo una gran cantidad de recursos humanos y económicos sin que fuera viable descender al detalle de analizar lo tratado en piezas o noticias.

En este contexto, como parte de las actividades de innovación de RTVE, se decide llevar a cabo una prueba de concepto (PoC) en colaboración con el Grupo de investigación Knowledge Reuse del Departamento de Informática de la Universidad Carlos III para comprobar de qué manera la Inteligencia Artificial, apoyada en redes neuronales y en las técnicas más modernas de Procesamiento de Lenguaje Natural, es capaz de ayudar en la tarea de evaluar lo relativo al cumplimiento del objetivo de servicio público de divulgación de los ODS.

Por todo lo anterior, se puso el foco en los programas informativos ya que, al ser los que vienen marcados por los acontecimientos y la actualidad, contienen cada día gran cantidad de temas diferentes. Además, se fijó como parte de la prueba partir de la emisión de los informativos para el análisis sin recurrir a ayudas extras como guiones, escaletas, etc.

Y ahora… a probar

En los inicios del proyecto se utilizó el informativo de RNE de cuya transcripción y segmentación automática por noticias disponíamos gracias al proyecto de Innovación anteriormente mencionado. En este caso la segmentación va acompañada de los correspondientes códigos de tiempo, de forma que, cuando se detectaba que se estaba hablando de uno de los ODS a analizar, se asignaba todo el tiempo de la noticia a dicho ODS.

Los primeros resultados no fueron buenos, con aciertos en el entorno del 37%. El motivo principal de estos datos es que las ontologías iniciales, que consistían en vocabularios en bruto importados y traducidos de fuentes de la UE, no resultaban suficientes. Fue necesaria la ampliación de los términos con nombres propios de mujeres célebres, palabras derivadas, asociaciones, organismos, términos compuestos, etc. También lo fue la generación de patrones para la identificación de estructuras sintácticas en el texto para evitar que la aparición de forma aislada de palabras como “lluvia” o “mujer” llevara a clasificar el texto como ODS si no aparecía acompañada de algún término más de la ontología.

A veces hubo que aumentar más todavía la complejidad de estos patrones aplicando también reglas gramaticales como, por ejemplo [sujeto género] + [verbo violencia] + [sujeto de género], atendiendo a los resultados del proceso de validación. También se crearon reglas de transformación para términos que habitualmente la trascripción automática de voz a texto presentaba de forma errónea, por ejemplo “0 16” por “016, o “CO dos” por “CO2”. Obviamente la fiabilidad de la ontología requiere un mantenimiento continúo actualizando nuevos términos y patrones.