Antoni Bibiloni, Bartomeu Estrany, Ricardo Galli
Depart. Matemàtiques i Informàtica
Universitat de les Illes Balears
Ctra. de Valldemossa Km 7,5
E-07071 Palma (Baleares)
Tel: 971 173204
Fax: 971 173003
e-mail: dmiabc0@ps.uib.es
El valor del media vídeo viene avalado desde el momento en que la información sobre aspectos del mundo real, sólo pueden ser presentada al usuario de una forma exitosa cuando ésta es presentada dinámicamente dependiente del tiempo. Luego como planteamiento general, pensamos que el vídeo no será una parte efectiva de los entornos multimedia o hypermedia hasta que no pueda ser tratado con la misma facilidad con la que nosotros utilizamos el texto a nivel de organización, recuperación y relaciones entre contenidos. La digitalización de diferentes medios audiovisuales ha posibilitando el acceso directo a la información y una riqueza de presentación de contenidos (información en general) muy superior a la información textual. Incluso el concepto de Hypertexto, como una forma de acceso interactivo a la información textual, queda obsoleto, apareciendo el concepto de Hypermedia, donde la información ya es de tipo multimedia (texto, images, gráficos, sonido y vídeo). En este artículo presentaremos el concepto de vídeo interactivo (objeto vídeo), permitiendo la interactividad y navegación dentro del propio medio y su integración dentro de entornos Multimedia.
Podemos definir el vídeo digital como un conjunto de imágenes y sonidos organizados a lo largo de un tiempo concreto, donde la coordenada tiempo es la base de su representación en momentos discretos. Ésta definición conlleva una serie de características propias, diferenciándolo radicalmente de la información estática ( texto, gráficos e imágenes). La correlación con el audio, su necesidad de sincronización, ser un media dependiente del tiempo, su componente espacial aplicable a nivel contenido de la imagen y su compleja semántica, son factores clave para determinar su estructura interna, su organización dentro de las bases de datos y su gestión específica de manejo dentro de los sistema multimedia interactivos.
A pesar de los grandes avances en tecnología digital, el uso del vídeo digital todavía está seriamente limitado por dos razones principales: 1) el gran tamaño de información digital que supone el almacenamiento de imagen en movimiento de alta calidad ( aunque recientemente esta limitación disminuye gracias a la aparición de nuevas técnicas y estandards de compresión/decompresión, como MPEG y H.261) y 2) la falta de sistemas viables para gestionar dicha información, ofreciendo una organización efectiva y una recuperación selectiva de la información. Donde a partir de los años 90, se han empezado a desarrollar tecnologías y sistemas muy innovadores, con grandes perspectivas de éxito y aceptación, que plantean de un modo realista la utilización del vídeo digital de una forma auténticamente interactiva dentro de nuevos entornos informáticos.
Grupos comerciales y de investigación han desarrollado sistemas de vídeo a la carta, conocidos como Video On Demand (VOD), permitiendo al usuario seleccionar y visualizar películas y vídeos en formato digital. Estos sistemas han sido diseñados para distribuir vídeos a un set-top device conectados a la televisión de casa o a un ordenador multimedia. Asi se han resuelto los problemas de comunicaciones y gestión de ficheros, ofreciendo servicio al mayor número posible de usuarios concurrentemente; [Keeton93], [Rangan92], [Tobagi93], en vez de orientar el problema a localizar un vídeo, una secuencia o un objeto dentro una gran colección de películas, debido a que las aplicaciones actuales sólo requieren el acceso a pocos títulos distintos y esencialmente su filosofía es alquiler de vídeos on line. Por ejemplo, el SGI/Time-Warner experiment in Orlando proporciona acceso a 250 películas. La idea de los sistemas VOD comerciales es totalmente opuesta a las librerías de vídeo, con cientos de horas digitalizadas a más de hyperlinks a otros materiales, donde el problema que se presenta es localizar un conjunto de datos, una secuencia deseada, o buscar información vídeo relacionada con un contenido concreto.
Este artículo expone la definicón y creación de librerias de vídeo digital ofreciendo el acceso y recuperación por contenido de su información almacenada. La siguiente sección expone las características y procesos necesarios para la implementación de un sistema de vídeo digital, asi como la problemática que conlleva la representación digital del contenido y la definición de herramientas y interfaces de usuario para su acceso y recuperación. La siguiente sección es una exposición del proyecto de Video Educativo, explicando el objetivo del mismo y su actual fase de implementación. Finalmente, el artículo concluye con el apartado de conclusiones obtenidas durante la fase de estudio e implementación del proyecto y el trabajo futuro a realizar en la linea de investigación de las bases de datos audio-visuales digitales ofreciendo acceso por contenido.
Ofrecer recuperación por contenido del media vídeo significa realizar búsquedas de campos específicos dentro un conjunto de datos, inicialmente no estructurados, donde, primeramente necesitamos modelar su contenido. Este proceso de modelación requiere "codificar", "identificar", "representar" y "clasificar" la información a partir del vídeo fuente, posiblemente en formato analógico. Como investigaciones relacionadas podemos citar, dentro del modelado de datos no estructurados [O'Docherty91], [MacNeil91], y [Swanberg92], y en modelaje concreto del vídeo [Davenport91], [Rowe92-94] y [Aguirre92].
La arquitectura propuesta en la figura 1, está basada en la suposición de que la información ha de ser gestionada dentro de una base de datos. El SGBD, motor gestor del sistema, es el encargado de manejar las direcciones físicas de la información audio-vídeo digital, los atributos asignados a cada secuencia y las relaciones generadas entre las distintas secuencias. Estas entidades de información (objetos vídeo) generan un grafo de relaciones encargado de la representación del conocimiento adquirido y convertiendose en el corazón del servidor. Este grafo se define como la red semántica de la información almacenada.
Si caracterizamos los procesos de la arquitectura anterior en temas específicos, podemos definirlos de la siguiente forma:
El proceso de segmentación conlleva la definición de una nueva estructura del vídeo indexado, creando nuevas entidades de indexación y organización. Siguiendo el trabajo realizado por Davenport en la modelación del vídeo, podemos expresar las siguientes entidades [Davenport91]:
El problema, actualmente pendiente de solución, es la detección automática del contenido sensorial representado en los clips a indexar. Investigaciones relacionadas apuntan hacia la conveniencia de basar los índices de los clips, sobre un modelo de conocimiento ayudando a la identificación del contexto además de ofrecer recuperación por contenido [Smoliar94-94a]. Otros investigadores apuntan a que los índices deben de estar basados en propiedades semánticas generando una organización donde explícitamente se representará una estructura temática del material fuente. Tal representación se realiza normalmente mediante una red semántica, aunque los índices texto pueden ir hacia una estructura de árbol, y los índices de contenido hacia una estructura de grafo. Para generar dicha estructura también deberíamos basarnos en el paradigma del hypertexto [Little93]. Como ejemplo de indexación, (figura 3), podemos observar una representación abstracta de la indexación por contenido de varios clips, donde un nodo-vídeo representa la unión de distintas secuencias formando una representación coherente. Luego, dependiendo de la consulta realizada por el usuario, el sistema de indexación, englobado dentro del SGBD, deberá de decidir que "nodo-video" o conjunto de "nodos-video" presentar al usuario.
A partir de la caracterización de las consultas deseadas se planteará la estructura interna de los índices dentro de la BD, o sea, el modelo de datos dedicado a representar los índices necesarios para responder a las consultas de los usuarios de la forma más rápida y fiable posible. Una vez definida la estructura interna del modelo ya sabemos en que unidades de información trabajar, pudiendo definir los patrones de segmentación, donde la salida del proceso de segmentación es la entrada al proceso de indexación, y la salida del proceso de indexación es la entrada al proceso de almacenamiento y actualización de la base de datos, definido por el SGBD.
Posiblemente, cientos de horas de vídeo analógico sean menos útiles que una hora, debido al acceso secuencial del medio; pero al ser digitalizado ofrece la posibilidad del acceso directo a tantas horas de vídeo como seamos capaces de almacenar, además de la posibilidad de definir enlaces a otros tipos de información MM. Para conseguir acceso directo por contenido será necesario encontrar la forma de representar su contenido en formato digital, de tal forma que dicha representación sea inteligible tanto por el sistema informático como por el usuario final. Como resultado de la representación se generará una estructura de datos rica en información ( inherente del vídeo) e indexada (pendiente del vídeo convencional).
El vídeo tiene radicalmente una estructura diferente a nivel sintáctico y semántico que el texto, donde la sintaxis es altamente determinativa de su semántica, sin olvidar que la principal característica del vídeo es ser un soporte temporal y espacial en contenido, por ello, cualquier lenguaje de anotaciones debería de representarlas, además de garantizar una percepción correcta del contenido conceptual de sus imágenes.
Actualmente no existen máquinas que sean capaces de mirar y entender por nosotros, por ello, el único método de representación del contenido es el procedimiento manual o asistido por ordenador. Este método ofrece una interface de "usuario gestor" para ir visualizando y realizando las anotaciones oportunas del contenido, como veremos en la implementación piloto dels sistema "Video educativo on line". Ésta solución todavía no soluciona todos los problemas de representación del contenido, debido a varias razones:
La tabla 1, proporciona un ejemplo, donde la clase profesor, podría contener los siguientes atributos, y a partir de ella definir dos clases asociadas una perteneciente a asignaturas y otra a las clases de dichas asignaturas.
CLASE PROFESOR |
Nombre |
Departamento |
Categoría |
Doc. asociados |
...... |
CLASE OBJETO ASIGNATURA |
Nombre |
Descripción |
Palabras CLAVE |
Doc. asociados |
...... |
CLASE INSTANCIACION LECCION |
Indices por Contenido |
Relaciones otros Doc. |
Descrip |
Tiempo inicio-fin |
...... |
Una vez que tenemos la información almacenada e indexada, de la forma más convenientemente posible, queda pendiente desarrollar las técnicas de recuperación y las herramientas de visualización con el objetivo de ofrecer al usuario una interface fácil, amigable y con un amplio abanico de posibilidades. La interface debería de ofrecer: ejecutar uno o más vídeos seleccionados, incluir operadores relacionales (ex. seleccionar clips utilizando composición de condiciones), aplicar jerarquías temáticas ( restringuir la búsqueda de tópicos a sub-tópicos), realizar búsquedas por palabras clave (selección de vídeos utilizando palabras simples o compuestas), selección por contenido o acción ( seleccionar un clip dependiendo de una acción determinada), interactividad con los objetos ( seleccionar un objeto de la secuencia para obtener más información).
Las técnicas o herramientas de interacción con objetos vídeo las podemos clasificar en dos niveles. Un nivel de proposito general, donde intentamos dar el mayor entendimiento posible de los objetos dependientes directamente del tiempo, donde implícitamente la componente tiempo ha de ser representada perdiendo importancia los índices por contenido. Como técnicas de propósito general, presentaremos los iconos de vídeo interactivo, micons, y jerarquización de vídeo. Este nivel está dedicado principalmente a representar la estructura visual del vídeo. Un segundo nivel,donde las posibilidades de interacción dependerán de la aplicación en concreto y de los índices generados para tal fin, luego aparece la importancia de los índices por contenido para afrontar las consultas del usuario final. Este segundo nivel está reflejado en la presentación del proyecto Vídeo Educativo on Line.
Una representación visual muy comunmente utilizada para secuencias de vídeo es el icono de vídeo, nombrado, micon [Smoliar94], (figuras 5 y 6). La figura 5 ilustra un entorno diseñado para la manipulación y examen de dichos iconos, donde cada clip tiene una etiqueta de texto y un fotograma representativo. Esta representación revela que un clip puede ser concebido como un volumen de pixels, donde distintas vistas pueden proporcionar una nueva información muy valiosa, como por ejemplo, trayectoria de objetos o cambios de plano. También es posible visualizarlo en tiempo real, la visualización empleando dicha representación se conoce por vídeo streamer [Smoliar94].
A veces es más importante poder realizar una rápida navegación dentro de una película entera que poder examinar los efectos especiales en detalle. La jerarquización proporciona de forma rápida un conjunto de snapshots , ofreciendo al usuario una orientación inicial de por donde puede empezar la búsqueda, siempre teniendo presente la posibilidad de bajar de nivel dentro de la estructura jerárquica, gracias a que no presenta límites de niveles, como puede observarse en la figura 7.
El SGBD, está siendo implementado sobre la base de datos relacional ORACLE, sobre la cual almacenamos y gestionamos los índices y el metadata relacionado con la información vídeo digitalizada, siendo la plataforma del servidor un Alpha DEC AXP 10620. Los índices contienen los atributos asignados a cada secuencia, además de apuntadores a la localización de los datos vídeo y audio comprimidos, actualmente en formato QuickTime de Apple Macintosh, debido a que la interface de usuario esta implementada sobre plataforma Macintosh, implementada en C++ y librerias de "Oracle for Macintosh", estando la implementación en un entorno distribuido y multiplataforma.
La implementación contiene aproximadamente una hora de vídeo digitalizado, segmentado en 30 clips. Actualmente el sistema sólo soporta consultas por palabras clave, ofrecidas por los índices de la base de datos, (figura 11), y la representación del contenido sigue un procedimiento asistido por ordenador, (figura 9), habiendo generado una interface "gestor-profesor" para la introducción de las anotaciones, también desarrollada sobre plataforma Macintosh. Luego el entorno de trabajo, tanto para el "usuario-gestor-profesor" como para el "usuario-cliente-alumno" es transparente al sistema de gestión de la base de datos. La captura, digitalización y almacenamiento de las clases ha seguido un proceso totalmente manual y externo a los dos entornos mencionados anteriormente, donde en un futuro también sería necesario definir su automatización.
La base de datos vídeo, presenta el problema del volumen de la información, una hora de vídeo, calidad VHS, comprimida consume 1 Gigabyte de almacenamiento. Luego, un archivo de clases y material relacionado puede requerir grandes capacidades de almacenamiento. Tomando como ejemplo, durante un curso de licenciatura, para almacenar cuatro asignaturas podríamos predecir:
3 horas/semana * 30 semanas/curso = 90 horas curso/asig -> 90 Gbytes
90 Gbytes* 4 asignaturas = 360 Gbytes
La librería requerirá terabytes de almacenamiento, las soluciones hardware a estas necesidades de almacenamiento son los Optical jukebox o los Tape jukebox., capaces de almacenar hasta 10 TB, pero en contra tienen un seek time muy elevado, entre 30sg y 1,5 minutos. En la actualidad estamos utilizando el HD del servidor, dejando pendiente la utilización de los soportes mencionados anteriormente, pero indistintamente del periférico utilizado o utilizados, nosotros hemos adoptado la solución de transmitir el fichero vídeo al cliente y la aplicación de interface usuario-alumno ejecutará la visualización del fichero cuando sea completamente transmitido al cliente, ofreciendo mayores posibilidades de interactividad y sin preocuparse, en principio, de la velocidad de transmisión.
El prototipo de la aplicación está desglosado en dos fases de implementación:.
1
Este nuevo material editado por el profesor es almacenado dentro de la BD audio-visual generando una reestructuración automática de los índices internos y del metadata asociado.
El contenido de la información está organizado en una estructura jerárquica de clases y sub-clases. La clase central de la base de datos es la clase CARRERA, teniendo una entrada para cada documento. A partir de esta clase se generan otros tipos de índices con la finalidad de aumentar las facilidades de las consultas, en la tabla 2 podemos observar los índices generales de la base de datos. En este contexto aparece el concepto de registro semántico asignado a cada clip almacenado en el servidor, por ejemplo, la clase TEMA. Por registro semántico entendemos el conjunto de atributos comunes asignados, encargados de definir el contenido de la secuencia, las relaciones existentes, clases o sub-clases y enlaces a otros objetos de información.
CARRERA | ||
Codigo | N | 4 |
Nombre | C | 20 |
Descripción | C | Memo |
PROFESOR | ||
Codigo_Prof | N | 4 |
Nombre | C | 40 |
...... |
ASIGNATURA | ||
Codigo_A | N | 4 |
Codigo_C | N | 4 |
Nombre | C | 20 |
Curso | C | 5 |
...... |
CLASE | ||
Codigo_CL | N | 4 |
Codigo_A | N | 4 |
Codigo_Prof | N | 4 |
Apunt_Vídeo | C | 30 |
Fecha_grab | D | 8 |
...... |
TEMA | ||
Codigo_T | N | 4 |
Codigo_CL | N | 4 |
Inicio | SMPTE | 11 |
Fin | SMPTE | 11 |
Descripción | C | 20 |
Dependencia | N | 4 |
...... |
CODIGO | DESCRIPCION | DEPENDENCIA |
0001 | Tema 1 | ---- |
0002 | Subtema 1.1 | 0001 |
0003 | Subtema 1.2 | 0001 |
0004 | Subtema 1.1.1 | 0002 |
0005 | Subtema 1.1.2 | 0002 |
0006 | Tema 2 | ---- |
0007 | Tema 3 | ---- |
0008 | Subtema 3.1 | 0007 |
0009 | Subtema 3.2 | 0007 |
0010 | Subtema 3.3 | 0007 |
0011 | Subtema 3.1.1 | 0008 |
0012 | Subtema 3.1.1.1 | 0011 |
Como observaciones puntuales adquiridas durante el proceso de implementación del prototipo, nos gustaría mencionar:
Es conveniente aproximar el problema de integración del media vídeo dentro entornos Hypermedia desde el punto de vista de definir una estructura de datos que sea adecuada para el media, y a la vez compatible con otros tipos de datos de estructuras muy distintas. El vídeo es una fuente de datos secuencialmente organizada en el tiempo, pero no organizada bajo ninguna información clave, común a todos los elementos, luego aparece la necesidad de encontrar atributos comunes a todos los elementos.
El proceso de segmentación es muy importante debido a que nos ofrece una primera aproximación de su contenido, proporcionando la estructura visual del vídeo. También es evidente la necesidad de ayuda adicional al proceso de detección, donde la aproximación por modelos de conocimiento parece la mejor forma de acotar el problema.
La utilización de base de datos relaciones para el almacenamiento y gestión de los índices vídeo es correcto, sin ser necesario definir nuevos entornos para el SGBD. El ejemplo de implementación sobre ORACLE, ofrece todas las operaciones del diseño funcional, donde también es posible definir campos tipo movie dentro la estructura de sus tablas. Otros factores importantes son la auto-gestión de la localización de los ficheros vídeo, su entorno multiusuario y distribuido.
Como líneas de trabajo futuras, nos gustaría anotar que el audio es una laguna practicamente no estudiada por nadie. Nuestra opinión, conjuntamente con otros investigadores es que podría ser de gran ayuda dentro los procesos de detección y recuperación del contenido. Es evidente que el audio proporciona una fuente muy rica de información y que puede ayudar a comprender la fuente vídeo.
Como amplicaciones futuras a la implementación expuesta, proponemos: a) aumentar los formatos de los ficheros vídeo con el proposito de soportar un amplio rango de configuraciones hardware (cliente), b) ampliar los sistemas de almacenamiento dentro el contexto de entorno distribuido, c) mejorar los procesos de recuperación y d) desarrollar una interface en entorno WWW.
[Aguirre 92] Aguirre Smith T.G.A, Davenport G., "The Stratification System: A Design Environment for Random Access Video", Proc. 3nd International Workshop on Network and Operating System Support for Digital Audio and Video, La Jolla, CA, 1992.
[Davenport 91] Davenport, G., Smith, T.G.A., and Pincever, N., "Cinematic Primitives for Multimedia", IEEE Computer Graphics & Applications, July 1991, pp. 67-74.
[Keeton 93] Keeton, K. and Katz, R., "The Evaluation of Video Layout Strategies on a High-Bandwidth File Server", Fourth Int´l. Workshop on Operating Systems and Network Support for Digital Audio and Video, 1993.
[Little 93] Little, T.D.C, Ahanger, G., Folz, R.J., Gibbon, J.F. Reeve, F.W. Schelleng, D.H., and Venkatesh, D., " A Digital On-Demand Video Service Supporting Content-Based Queries", Proc. ACM Multimedia 93, Anaheim, CA, August, 1993.
[MacNeil 91] MacNeil R., "Generating Multimedia Presentations Automatically using TYRO", Proc IEEE Workshop on Visual Languages, Japan, 74-79, 1991.
[O´Docherty 91] O´Docherty M.H., Daskalakis C.N., "Multimedia Information Systems" - The Management and Semantic Retrieval of All Electric Data Types", The Computer Journal, Vol 34,3 225-238, 1991.
[Rangan 92] Rangan, P.V., Vin H.M., Ramanathan, S., "Designing an On-Demand Multimedia Service", IEEE Communications Magazine, Vol. 30 No. 7, July 1992, pp 56-64.
[Rowe 92] Rowe, L A, B C Smith, "A Continuos Media Player", Proc. 3nd International Workshop on Network and Operating System Support for Digital Audio and Video, La Jolla, CA, 1992.
[Rowe 94] Lawrence A. Rowe, John S. Boreczky, and Charles A. Eads, "Indexes for User Acces to Large Video Databases", Storage and Retrieval for Image and Video Database II, IS&T/SPIE, Symp. on Elec. Imaging Sci & TEch., San Jose, CA, February 1994.
[Smoliar 94] Stephen W. Smoliar, Hongjlang Zhang, Siew Lian Koh, and Guo Jun Lu, "Interacting with Digital Video", TENCON ´94- December 24, 1993. [Smoliar 94a] Stephen W. Smoliar, Hongjlang Zhang. " Content-Based Video Indexing and Retrieval", IEEE Multimedia pag 62-72. 1994
[Swanberg 93] Swanberg, D., Shu C.F., and Jain, R., "Knowledge Guided Parsing and Retrieval in Video Databases", Proc. Soc. Imaging Science and Technology IS&T/SPIE Symposium on Electronic Imaging: Science and Technology, San Jose, CA, February, 1993.
[Tobagi 93] Tobagi, F.A. and Pang,J., "StarWorks *TM - A video Applications Server", Proc. IEEE COMPCON ´93, San FRancisco, CA, February 1993
![]() |
Edutec 95 - Materials |