Cargando...
Cómo se hizo el Grafo de Conocimiento de RTVE: El modelo ontológico
Estándares semánticos y datos enlazados
El Grafo de Conocimiento de RTVE Play se ha construido sobre los estándares de la web semántica y de acuerdo con los principios de la Web de Datos Enlazados (o Linked Data Web), lo que ha permitido:
- Conectar los sistemas de gestión de los recursos audiovisuales y documentación de Televisión Española con la publicación del espacio digital RTVE Grafo
- Optimizar el uso de dichos sistemas de documentación, dando valor al conjunto del trabajo de todas las áreas de la corporación
- Convertir el sistema de información de RTVE en un Grafo de Conocimiento que se expresa por medio de una Web de Datos Enlazados.
- Desarrollar modos de interrogación y visualización de ese Grafo adaptados a diferentes audiencias y orientados a maximizar la satisfacción de sus intereses, ofreciendo datos relacionados explícitamente con aquellos resultados que satisfacen las preguntas del usuario.
- Construir páginas web temáticas sobre la base de un conjunto de datos o subgrafo que cumpla con ciertos requisitos.
- Construir una experiencia semánticamente consciente de exploración, descubrimiento, interrogación y búsqueda por los contenidos de RTVE, que posibilita explorar en profundidad y de manera contextual cualquier tema relacionado con los recursos digitales que conforman en mundo de la televisión.
Todos los contenidos de esta web están representados y publicados según los estándares del W3C para la web semántica y de acuerdo con los principios que promueve el Linking Open Data Project con el fin de promover y facilitar la publicación y enlazado de datos en la web. Estos metadatos semánticos generan, como hemos ya señalado, un grafo de conocimiento unificado que es explotado en primera instancia, si bien no sólo, en la propia web a través de los sistemas de interrogación y recomendación, ofreciendo a los usuarios una experiencia superior.
El modelo ontológico de RTVE
Una ontología de dominio (u ontología de dominio específico) representa conceptos que pertenecen a una parte específica del mundo; puede considerarse por tanto que gestiona conocimiento altamente especializado. Las aspiraciones ontológicas de las ciencias y tecnologías de la información propenden a cerrar y controlar los vocabularios hasta donde sea posible con el fin de que el significado particular de un término perteneciente a ese dominio sea proporcionado por la ontología de manera precisa y sin ninguna clase de ambigüedades. La principal ontología o vocabulario específico que se ha utilizado en este proyecto ha sido el modelo de referencia EBUCorePlus, que provee de las descripciones y de la estructura formal para describir los conceptos explícitos e implícitos, y sus relaciones, utilizados en el dominio de la documentación del mundo audiovisual, lo que en la práctica permite representar, con los ajustes necesarios, de manera adecuada la información contenida en los sistemas de información de RTVE.
Las ontologías de dominio representan los conceptos de su ámbito de aplicación de manera muy específica, acotada y cerrada, como ya hemos señalado. Sin embargo, la realidad en su conjunto muestra una notable propensión a la continuidad y los dominios en los que se organiza el mundo suelen ser menos puros o más mezclados que nuestros vocabularios controlados. Es por ello por lo que los sistemas del mundo, tal y como puede ser considerada una televisión pública, necesitan de ontologías híbridas, que proceden de la mezcla e integración de diferentes ontologías de dominio en una representación más general.
El proyecto ontológico desarrollado en RTVE Play para la construcción de su Grafo de Conocimiento ha extendido la ontología de dominio EBUCorePlus y la ha hibridado con esquemas de metadatos y vocabularios de propósito general como son Dublin Core (dc) y schema, integrándolos en un marco ontológico común que representa el conjunto de las actividades desarrolladas en el ámbito audiovisual, entendido éste en el sentido de conjunto de técnicas, prácticas y procesos relativos al funcionamiento de un ente audiovisual.
En el siguiente punto explicitamos el proceso de extensión ontológica e hibridación realizado en el proyecto de la plataforma semántica digital RTVE Grafo. El modelo ontológico se utiliza no sólo para generar un dataset reutilizable, sino también para resolver el conjunto de operaciones e interrogaciones que puedan querer realizar los distintos grupos de usuarios sobre ese conocimiento así representado.
La red de ontologías de RTVE
Con este proyecto, RTVE aborda la confección de una ontología que pueda operar mediante un grafo de conocimiento, teniendo como propósito principal mejorar la interoperabilidad semántica de la nueva plataforma RTVE Grafo con diversos sistemas, participantes del mercado y con el Archivo de RTVE, así como la implementación de un estándar europeo de referencia dentro del sector audiovisual español, además de poner a disposición del público general todo el patrimonio audiovisual del área de interactivos a través de un punto único de interrogación.
Ontología RTVE Play. Principios de modelado
RTVE, en calidad de miembro de la Unión Europea de Radiodifusión (UER), forma parte de iniciativas de estandarización como el grupo EBU-AIM, el cual supervisa y promueve la implementación de sistemas estándares de metadatos como es EBUCorePlus.
La integración de estándares en el ámbito de representación del conocimiento dentro de una organización propicia una mejora en la interoperabilidad tanto interna como externa, simplifica la vinculación de datos y fortalece la conexión con otras ontologías que representan el contenido. Es por esto por lo que, en el ámbito de este proyecto, se ha partido de los siguientes principios de diseño para la elaboración de la ontología de RTVE:
- Utilización como ontología de referencia EBUCorePlus.
- Adhesión a la ontología de referencia siempre que sea posible. En el modelado del dominio se adoptarán preferentemente las clases, atributos y relaciones de EBUCOREPLUS siempre que sea semánticamente compatible con los objetos del domino a modelar
- Mecanismos de extensión: cuando el modelo de referencia no cubra las necesidades requeridas para el modelado del dominio (i.e. en aquellos casos en los que surjan propiedades específicas que refinan una clase, cuando cambia la cardinalidad de alguna propiedad o cuando sea relevante semánticamente) se procederá a la extensión del modelo recurriendo a mecanismos de herencia. Las nuevas clases y atributos se alojan en un espacio de nombre propio denominado RTVE Play.
El dominio modelado se corresponde con la totalidad de los contenidos que RTVE tiene disponibles online (más de dos millones de recursos multimedia). Estos contenidos se exponen a través de la web RTVE Play. En aquellos casos en los que se puede hacer uso directo de la clase de la ontología de referencia se ha optado por ello, sin embargo, en otros de estos casos se ha optado por un mecanismo de extensión de la clase de referencia con el objeto de dar cabida a las propiedades específicas del modelo de negocio de RTVE.
Exposición detallada del modelo ontológico de RTVE Play
La ontología RTVE Play a la que nos referimos se ha consolidado en lo que denominamos el Modelo Ontológico de RTVE Play, que está compuesto de un conjunto de vocabularios articulados alrededor del modelo EBUCorePlus.
EBUCorePlus es una extensión de la especificación EBUCore, que es un estándar desarrollado por la Unión Europea de Radiodifusión (European Broadcasting Union, EBU) para la descripción y el intercambio de metadatos de contenido audiovisual. EBUCore proporciona un modelo de metadatos que cubre varios aspectos del contenido, como la identificación, descripción, derechos, y técnicas.
EBUCorePlus se basa en EBUCore y agrega capacidades adicionales para soportar necesidades específicas de la industria audiovisual. Estas extensiones incluyen:
- Mejoras en la descripción del contenido: Añadiendo más detalles y categorías para una descripción más precisa del contenido audiovisual.
- Soporte para nuevos tipos de contenido: Adaptación a las nuevas formas de medios y formatos que puedan surgir.
- Interoperabilidad mejorada: Facilitando el intercambio de metadatos entre diferentes sistemas y plataformas de una manera más eficiente.
- Integración con otros estándares: Mejor compatibilidad e integración con otros modelos de metadatos y estándares tecnológicos.
- Avances en la gestión de derechos y protección de contenido: Proporcionando estructuras para manejar mejor los derechos de autor y la distribución del contenido.
EBUCorePlus es utilizado principalmente por radiodifusores, productores de contenido, archivos audiovisuales, y otros actores en la cadena de valor de los medios para asegurar que los metadatos asociados al contenido audiovisual sean precisos, completos y útiles para una variedad de aplicaciones, desde la producción y distribución hasta el archivo y la recuperación.
Como decimos, para el caso del grafo de RTVE Play se partió de EBUCorePlus extendiendo la ontología, dotándola de nuevas clases, atributos y relaciones en aquellos casos donde las necesidades específicas del proyecto lo requerían, bien por dar precisión semántica a las clases según los contenidos manejados por RTVE o bien para refinar la cardinalidad de algunos de sus atributos.
La siguiente imagen representa modelo de clases definido en la ontología RTVE Play.
Una simplificación del modelo de clases general que nos permite identificar las principales clases del mismo es el que representa el siguiente diagrama:
Las principales entidades de la web semántica RTVE Play: Programa, Temporada, Vídeo, Audio, Género, Agente, se representan según el mencionado modelo de referencia de EBUCorePlus o bien se recurre a mecanismos de extensión para aquellos casos en los que el modelo de referencia no cubra las necesidades requeridas para el modelado del dominio (i.e. en aquellos casos en los que surjan propiedades específicas que refinan una clase, cuando cambia la cardinalidad de alguna propiedad o cuando sea relevante semánticamente).
Entre los principales elementos del dominio encontramos, en primer lugar, el programa, entendido como un contenedor de información que relaciona diferentes elementos que de manera coherente conforman una unidad lógica de emisión. Los programas, que pueden ser de televisión o radio, son los que agrupan contenidos de vídeo y audio. Para modelar Programa partimos de la clase de la ontología de referencia EditorialGroup, que se define en EBUCorePlus como “una colección/grupo de recursos media”. EditorialGroup da cobertura al concepto de programa, y posee unas subclases (Series, Serial, Colección, etc.) que nos permitirán clasificar los programas convenientemente.
Como hemos comentado en el párrafo anterior, los programas pueden ser de TV o Radio (y tener asociados recursos de vídeo y audio). Para modelar tanto el vídeo como el audio, partimos de la clase Programme, utilizando TVProgramme para los vídeos (un TVProgramme es “un programa para su distribución en canales de TV”) y RadioProgramme para los audios (un RadioProgramme es “un programa para su distribución en canales de radio”).
Los programas, audios y vídeos se relacionan con personas y organizaciones, en la medida en la que estas participan en la producción del material audiovisual (actores, directores, productores, etc.) Para modelar esto, se ha recurrido a extender la clase Agent de EBUCorePlus al espacio de nombres de RTVE Play y denominarla Agente, dado que se prevé que puede haber personas y organizaciones provenientes de fuentes distintas, que necesitarán atributos de información propios de RTVE. Agent es definida en EBUCorePlus como “un contacto, persona u organización al que se asocia un rol correspondiente a la contribución que el «Agente» aporta a la realización de un MediaResource o EditorialObject”. Recordemos que EditorialObject es la clase padre de la que hereda EditorialGroup, que es la que hemos utilizado como base para modelar Programa mediante un mecanismo de extensión.
En cuanto a los géneros, se ha recurrido a implementar tres de las siete dimensiones que se utilizan en ESCORT2007, el sistema de clasificación de EBU para programas de radio y televisión, para los programas, audios y vídeos. En concreto, se han utilizado las dimensiones Intención, Formato y Contenido.
Con el fin de asegurar un mayor control del vocabulario empleado para la descripción de los objetos, se ha implementado una ontología OWL propia para el proyecto semántico del RTVE Play y para cada uno de los objetos mencionados.