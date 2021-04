El pasado 17 de marzo, como parte de las actividades de la Cátedra de RTVE con la Universidad de Zaragoza, se presentaron los resultados del Reto Albayzín RTVE 2020 en tecnologías de Inteligencia Artificial aplicadas al sector audiovisual. En esta jornada se dieron a conocer los ganadores en cada una de las categorías, y se destacó el valor de la colaboración entre investigación y empresa como el principio esencial para alcanzar soluciones tecnológicas adecuadas a las necesidades de los medios audiovisuales. RTVE demuestra con esta iniciativa su vocación de servicio público impulsando el desarrollo de tecnologías punteras y su compromiso con la investigación haciendo accesibles datos para la comunidad científica.

El Reto a escena

Este acto, celebrado en el Instituto RTVE, contó con la participación de la Secretaria General de RTVE, Verónica Ollé, y del Vicerrector de Política Académica de la Universidad de Zaragoza, José Ángel Castellanos,junto a las intervenciones de Pere Vila, director de Estrategia Tecnológica e Innovación Digital de RTVE y del Director del Fondo Documental RTVE, Alberto de Prada.

En esta jornada estuvieron representados grupos de investigación de primera línea como VivoLab (Universidad de Zaragoza), AtlantTic (Universidad de Vigo) y el Centro Tecnológico Vicomtech. Investigadores de estos grupos, junto al Director de la Cátedra RTVE – Universidad de Zaragoza, Eduardo Lleida, reflexionaron sobre la necesaria colaboración entre industria, ciencia y empresas y pusieron de manifiesto la relevancia de retos como el Albayzín RTVE 2020 para desarrollar tecnologías útiles y adaptadas al sector audiovisual.

El acto fue abierto por la Secretaria General de RTVE Verónica Ollé, y el Vicerrector de Política Académica de la Universidad de Zaragoza, José Ángel Castellanos, quienes destacaron el compromiso de RTVE con la investigación y el valor de la colaboración entre industria y universidad para el impulso de la Inteligencia Artificial. José Ángel Castellanos destacó la necesidad de contar con grandes cantidades de datos que permitan a la ciencia seguir avanzando y, en este sentido, agradeció el gran esfuerzo que RTVE ha realizado para poner a disposición de la comunidad científica estos datos mediante la RTVE Database 2020.

Virginia Bazán (RTVE) y Alfonso Ortega (UNIZAR) RTVE

Antonio Miguel, de la Universidad de Zaragoza, presentó los pilares sobre los que se ha desarrollado la Inteligencia Artificial en la última década con su conferencia “Inteligencia Artificial para organizar sonidos, imágenes y textos… ¿Qué hay detrás de la cortina?”. La Inteligencia Artificial, afirmó en su ponencia, ha irrumpido con fuerza en todos los ámbitos de trabajo y está afectando a la forma en la que los profesionales desempeñan su labor, es por ello que, cuanto más profundo sea el conocimiento de esta tecnología y sus posibilidades entre los profesionales que la usan, mayores serán las oportunidades para desarrollar soluciones útiles y adaptadas.

De forma muy gráfica Antonio Miguel explicó el funcionamiento de las redes neuronales y como el uso de algoritmos permite mejorar los procesos a través del aprendizaje. Así mismo, destacó la importancia de contar con datos masivos para el entrenamiento de los sistemas y señaló que los datos pueden aportar sesgos. ¿Cómo es posible saber que los datos se están presentando en una proporción adecuada para evitar estos sesgos?, se preguntaba Antonio Miguel, quien opina que hasta que esto sea posible tecnólogos y usuarios deben ser conscientes de que existen implicaciones éticas en el uso de las tecnologías. El profesor Miguel presentó también algunas de las aplicaciones más comunes de la IA para el sector media y su evolución en los últimos años, como la clasificación de imágenes, la predicción de textos e imágenes o la generación e incrustación de publicidad en tiempo real. Antonio Miguel finalizó la conferencia destacando la importancia de retos con el RTVE-Albayzín para fomentar la investigación, el aprendizaje y la comunicación de resultados.

Antonio Miguel (UNIZAR) RTVE

Tras este análisis entre bambalinas, llegó la oportunidad de poner estas tecnologías en el escenario de los medios de comunicación. Alfonso Ortega de la Universidad de Zaragoza, José Luis Alba de la Universidad de Vigo y Aitor Álvarez de Vicomtech, reflexionaron sobre las aplicaciones de la Inteligencia Artificial en el sector audiovisual. Alfonso Ortega se centró en las tecnologías que permiten detectar la voz de una persona de forma que, mediante la asignación de etiquetas, sea posible identificar y recuperar todos y cada uno de los fragmentos de correspondientes a una voz en un contenido media. El profesor Ortega se detuvo en los logros pero también en las limitaciones de estas tecnologías, puesto que buscar una voz en un archivo, afirmó, no siempre es un juego de niños. Al contrario, esta puede ser una tarea compleja que hace que los sistemas arrojen tasas de error relativamente altas entre el 10% y el 20% como consecuencia de la variabilidad del entorno acústico (música, aplausos, risas), voz emocional, intervenciones muy cortas, solapamiento entre hablantes, etc. Si bien hay entornos como los informativos, los debates ordenados o las entrevistas en los que es posible obtener tasas de error por debajo del 10%. Para finalizar, Alfonso Ortega señaló que estamos ante tecnologías robustas que requieren, no obstante, ser adaptadas a problemas concretos para mejor su rendimiento.

El profesor Alba centró su presentación en el reconocimiento multimodal, es decir, en el uso simultáneo de voz, reconocimiento facial, reconocimiento de texto en pantalla y reconocimiento del contexto en que se produce la escena y sus múltiples aplicaciones en el sector media. Durante su intervención señaló algunas de las dificultades a las que se enfrentan los sistemas como son los rostros que no aparecen en primer plano, las pantallas partidas, las escenas en el exterior (donde las poses y las expresiones son menos comunes que en un estudio), la presencia de caras en pantalla a las que no corresponden ninguna voz o los parecidos razonables entre dos personas. José Luis Alba destacó la complejidad del Albayzín-RTVE 2020 como consecuencia de la variedad de programas que formaban el reto, algo que por otra parte, señaló, nos ayuda a detectar dónde se concentran los problemas. En este sentido, recalcó la dificultad del reconocimiento facial en entornos abiertos, como paso previo a la identificación de personas, si bien, destacó que, en reconocimiento de identidades, cuando no hay grades variaciones de edad, pueden alcanzarse tasas de acierto superiores a las de un humano. Al igual que el profesor Ortega, José Luis Alba coincidió en señalar que la tecnología ya es útil entornos sencillos como platós, con buena acústica, poco movimiento de cámara o escaso solapamiento de voces.

Aitor Álvarez, del centro tecnológico Vicomtech, dedicó su intervención al procesamiento del habla. Estas tecnologías permiten comprender qué se dice, quién, cuándo y cómo lo dice (reconocimiento de emociones), en qué entorno acústico se hace y en qué idioma. Esta tecnología, que se encuentra integrada ya en aplicaciones de uso diario como los asistentes personales como Siri, Alexa o Cortana, tiene aplicaciones específicas en el sector audiovisual como el seguimiento de medios, la generación de subtítulos para mejorar la accesibilidad y por supuesto, la generación de metadatos para la recuperación de contenidos audiovisuales y su preservación. Las principales dificultades con las que se encuentran estos sistemas, a juicio de Álvarez, están en buena medida relacionadas con la disponibilidad de datos correctamente anotados. El habla espontánea, la dicción, el ritmo con el que se habla, la voz actuada, los acentos y dialectos ponen a prueba el rendimiento de estas tecnologías, sin perder de vista que los sistemas de reconocimiento funcionan mejor cuando se adaptan a dominios concretos. A pesar de que muchos sistemas pueden superar el rendimiento de un humano en determinados contextos, en su aplicación para el sector media la precisión máxima suele estar en torno al 90% de acuerdo con los datos obtenidos en la evaluación de Red Bee Media (2018), aunque hay que tener en cuentaque la evolución y mejora es constante. Como conclusión Aitor Álvarez señaló que, si bien muchos sistemas son capaces de alcanzar tasas de error por debajo del 20%, es necesario comprender en qué entornos requieren los medios de comunicación mejores tasas de error ya que la aplicación de estos sistemas puede realizarse en contextos distintos, como son los casos del subtitulado o el etiquetado de contenidos de archivo.

Tras estas presentaciones se planteó como elegir la tecnología más adecuada en el ámbito de los medios de comunicación y, de forma más concreta, en el contexto de los archivos de radio y televisión. Alfonso Ortega destacó una vez más la necesidad de establecer una colaboración estrecha entre tecnólogos y usuarios de la tecnología, de forma que los primeros puedan comprender los contextos de aplicación de las tecnologías y las necesidades reales de quienes las usan. La clave, afirmó, es generar herramientas que permitan mejorar el trabajo. José Luis Alba, por su parte, destacó la necesidad de crear retos como Albayzín-RTVE 2020 orientados a problemas concretos, así como establecer prioridades que permitan el desarrollo de soluciones adecuadas a determinados dominios, bien publicitados y capaces de atraer a grupos internacionales para fomentar una competencia más sana. En este sentido, Aitor Álvarez destacó la participación de grupos de investigación nacionales e internacionales de gran nivel y señaló que retos, como el que se presentan en esta jornada, ofrecen indicadores útiles para la puesta en producción de estas tecnologías y muestran, a los grupos de investigación, cuáles son las necesidades reales y dónde están los verdaderos retos una vez que la tecnología sale del laboratorio. Todos ellos coincidieron en señalar la importancia de adoptar de forma temprana la tecnología permitiendo que, sean el propio sector media y en concreto los archivos de radio y televisión, los que puedan definir y decidir la evolución de los sistemas. Adopción temprana, por tanto, pero de forma planificada, lo que supone identificar prioridades y, en función de los resultados, incrementar la dificultad de las tareas para mejorar con ello el rendimiento de los sistemas. El debate concluyó con una conclusión clara: la necesidad de profundizar en la colaboración entre industria e investigación.