comunicacio BIESGA

EL VIDEO DIGITAL COMO HERRAMIENTA

Antoni Bibiloni, Bartomeu Estrany, Ricardo Galli

Depart. Matemàtiques i Informàtica

Universitat de les Illes Balears

Ctra. de Valldemossa Km 7,5

E-07071 Palma (Baleares)

Tel: 971 173204

Fax: 971 173003

e-mail: dmiabc0@ps.uib.es

1. Introducción

El valor del media vídeo viene avalado desde el momento en que la información sobre aspectos del mundo real, sólo pueden ser presentada al usuario de una forma exitosa cuando ésta es presentada dinámicamente dependiente del tiempo. Luego como planteamiento general, pensamos que el vídeo no será una parte efectiva de los entornos multimedia o hypermedia hasta que no pueda ser tratado con la misma facilidad con la que nosotros utilizamos el texto a nivel de organización, recuperación y relaciones entre contenidos. La digitalización de diferentes medios audiovisuales ha posibilitando el acceso directo a la información y una riqueza de presentación de contenidos (información en general) muy superior a la información textual. Incluso el concepto de Hypertexto, como una forma de acceso interactivo a la información textual, queda obsoleto, apareciendo el concepto de Hypermedia, donde la información ya es de tipo multimedia (texto, images, gráficos, sonido y vídeo). En este artículo presentaremos el concepto de vídeo interactivo (objeto vídeo), permitiendo la interactividad y navegación dentro del propio medio y su integración dentro de entornos Multimedia.

Podemos definir el vídeo digital como un conjunto de imágenes y sonidos organizados a lo largo de un tiempo concreto, donde la coordenada tiempo es la base de su representación en momentos discretos. Ésta definición conlleva una serie de características propias, diferenciándolo radicalmente de la información estática ( texto, gráficos e imágenes). La correlación con el audio, su necesidad de sincronización, ser un media dependiente del tiempo, su componente espacial aplicable a nivel contenido de la imagen y su compleja semántica, son factores clave para determinar su estructura interna, su organización dentro de las bases de datos y su gestión específica de manejo dentro de los sistema multimedia interactivos.

A pesar de los grandes avances en tecnología digital, el uso del vídeo digital todavía está seriamente limitado por dos razones principales: 1) el gran tamaño de información digital que supone el almacenamiento de imagen en movimiento de alta calidad ( aunque recientemente esta limitación disminuye gracias a la aparición de nuevas técnicas y estandards de compresión/decompresión, como MPEG y H.261) y 2) la falta de sistemas viables para gestionar dicha información, ofreciendo una organización efectiva y una recuperación selectiva de la información. Donde a partir de los años 90, se han empezado a desarrollar tecnologías y sistemas muy innovadores, con grandes perspectivas de éxito y aceptación, que plantean de un modo realista la utilización del vídeo digital de una forma auténticamente interactiva dentro de nuevos entornos informáticos.

Grupos comerciales y de investigación han desarrollado sistemas de vídeo a la carta, conocidos como Video On Demand (VOD), permitiendo al usuario seleccionar y visualizar películas y vídeos en formato digital. Estos sistemas han sido diseñados para distribuir vídeos a un set-top device conectados a la televisión de casa o a un ordenador multimedia. Asi se han resuelto los problemas de comunicaciones y gestión de ficheros, ofreciendo servicio al mayor número posible de usuarios concurrentemente; [Keeton93], [Rangan92], [Tobagi93], en vez de orientar el problema a localizar un vídeo, una secuencia o un objeto dentro una gran colección de películas, debido a que las aplicaciones actuales sólo requieren el acceso a pocos títulos distintos y esencialmente su filosofía es alquiler de vídeos on line. Por ejemplo, el SGI/Time-Warner experiment in Orlando proporciona acceso a 250 películas. La idea de los sistemas VOD comerciales es totalmente opuesta a las librerías de vídeo, con cientos de horas digitalizadas a más de hyperlinks a otros materiales, donde el problema que se presenta es localizar un conjunto de datos, una secuencia deseada, o buscar información vídeo relacionada con un contenido concreto.

Este artículo expone la definicón y creación de librerias de vídeo digital ofreciendo el acceso y recuperación por contenido de su información almacenada. La siguiente sección expone las características y procesos necesarios para la implementación de un sistema de vídeo digital, asi como la problemática que conlleva la representación digital del contenido y la definición de herramientas y interfaces de usuario para su acceso y recuperación. La siguiente sección es una exposición del proyecto de Video Educativo, explicando el objetivo del mismo y su actual fase de implementación. Finalmente, el artículo concluye con el apartado de conclusiones obtenidas durante la fase de estudio e implementación del proyecto y el trabajo futuro a realizar en la linea de investigación de las bases de datos audio-visuales digitales ofreciendo acceso por contenido.

2. Descripción del Sistema

Ofrecer recuperación por contenido del media vídeo significa realizar búsquedas de campos específicos dentro un conjunto de datos, inicialmente no estructurados, donde, primeramente necesitamos modelar su contenido. Este proceso de modelación requiere "codificar", "identificar", "representar" y "clasificar" la información a partir del vídeo fuente, posiblemente en formato analógico. Como investigaciones relacionadas podemos citar, dentro del modelado de datos no estructurados [O'Docherty91], [MacNeil91], y [Swanberg92], y en modelaje concreto del vídeo [Davenport91], [Rowe92-94] y [Aguirre92].

2.1 Arquitectura

La arquitectura propuesta en la figura 1, está basada en la suposición de que la información ha de ser gestionada dentro de una base de datos. El SGBD, motor gestor del sistema, es el encargado de manejar las direcciones físicas de la información audio-vídeo digital, los atributos asignados a cada secuencia y las relaciones generadas entre las distintas secuencias. Estas entidades de información (objetos vídeo) generan un grafo de relaciones encargado de la representación del conocimiento adquirido y convertiendose en el corazón del servidor. Este grafo se define como la red semántica de la información almacenada.

Figura 1. Arquitectura del sistema

Si caracterizamos los procesos de la arquitectura anterior en temas específicos, podemos definirlos de la siguiente forma:

Digitalización, proceso dedicado a digitalizar las fuentes vídeo suministradas (formato analógico) y convertirlas en formato digital

Segmentación, proceso encargado de fragmentar una secuencia de fotogramas en varias sub-secuencias, donde cada una de ellas representará un sub-contenido del contenido de la secuencia. El procedimiento de segmentación implica la utilización de un amplio rango de técnicas pertenecientes al tratamiento de imagenes y visión por ordenador, debido a que dicho proceso es el encargado de detectar cambios de plano, efectos especiales de transición entre imágenes, y movimientos y efectos de cámara entre otros. Como salida de dicho proceso obtenemos una representación estructural del contenido, (figura 2), donde genéricamente los fragmentos obtenidos se conocen como clips.

Fig 2. Estructura del contenido

El proceso de segmentación conlleva la definición de una nueva estructura del vídeo indexado, creando nuevas entidades de indexación y organización. Siguiendo el trabajo realizado por Davenport en la modelación del vídeo, podemos expresar las siguientes entidades [Davenport91]:

Shot, entidad compuesta de uno o más fotogramas generados y grabados de una forma contigua, representado una acción continua en el tiempo y espacio. Es la unidad más pequeña de indexación.
Secuencia, conjunto de shots coherentes en contenido
Segmento, conjunto de secuencias dentro un contexto común
Vídeo, conjunto de segmentos, donde la entidad vídeo también puede ser gestionada como una unidad de indexación

Indexación, proceso dedicado a asignar atributos a los clips cuando estos son introducidos dentro de la base de datos. El etiquetaje incluye información proveniente de la propia imagen, del conjunto de imágenes (características espacio-temporales) y del modelo de conocimiento como guía del proceso, teniendo muy en cuenta el nivel estructural obtenido en el proceso anterior. El problema fundamental de la indexación por contenido es realizar el propio análisis del contenido, con el objetivo de identificar los apropiados términos de indexación.

El problema, actualmente pendiente de solución, es la detección automática del contenido sensorial representado en los clips a indexar. Investigaciones relacionadas apuntan hacia la conveniencia de basar los índices de los clips, sobre un modelo de conocimiento ayudando a la identificación del contexto además de ofrecer recuperación por contenido [Smoliar94-94a]. Otros investigadores apuntan a que los índices deben de estar basados en propiedades semánticas generando una organización donde explícitamente se representará una estructura temática del material fuente. Tal representación se realiza normalmente mediante una red semántica, aunque los índices texto pueden ir hacia una estructura de árbol, y los índices de contenido hacia una estructura de grafo. Para generar dicha estructura también deberíamos basarnos en el paradigma del hypertexto [Little93]. Como ejemplo de indexación, (figura 3), podemos observar una representación abstracta de la indexación por contenido de varios clips, donde un nodo-vídeo representa la unión de distintas secuencias formando una representación coherente. Luego, dependiendo de la consulta realizada por el usuario, el sistema de indexación, englobado dentro del SGBD, deberá de decidir que "nodo-video" o conjunto de "nodos-video" presentar al usuario.

Fig 3. Indexación del contenido

Compresión/Descompresión, como hemos mencionado en la introducción del artículo, el almacenamiento de la información audio-visual digital representa la utilización de Mbits e incluso Gbits de memoria secundaria, por ello será necesario aplicar algoritmos de compresión lo más óptimos posibles para reducir el tamaño y mantener a la vez unos mínimos de calidad de imagen. La compresión/descompresión de la información digital es una línea actual de investigación, obteniéndose resultados del orden de 1:20 a 1:100 en la compresión de imágenes.

Sistema Gestor de Base de Datos, la calidad de la base de datos vendrá dada por las facilidades de recuperación que sea capaz de ofrecer al sistema, estando estas herramientas integradas dentro de la interfase del usuario, con lo cual se genera una independencia funcional del sistema con la aplicación determinada del usuario final. Ello implica que un sistema correctamente definido e implementado será capaz de ofrecer servicio a distintas aplicaciones MM, incluidas las relacionadas con la educación, independientemente de la naturaleza de la información almacenada y de la interface de usuario seleccionada para el acceso al sistema.

A partir de la caracterización de las consultas deseadas se planteará la estructura interna de los índices dentro de la BD, o sea, el modelo de datos dedicado a representar los índices necesarios para responder a las consultas de los usuarios de la forma más rápida y fiable posible. Una vez definida la estructura interna del modelo ya sabemos en que unidades de información trabajar, pudiendo definir los patrones de segmentación, donde la salida del proceso de segmentación es la entrada al proceso de indexación, y la salida del proceso de indexación es la entrada al proceso de almacenamiento y actualización de la base de datos, definido por el SGBD.

Fig. 4. Entorno del SGBD

Herramientas de Recuperación, proceso destinado a ofrecer el acceso a la información digital vídeo a partir de la interface del usuario, permitiendo realizar consultas a nivel textual, gráfico o visual. La recuperación basada en el contenido requerirá el cálculo de las características visuales más el procesamiento de las propiedades semánticas. Dentro de la base de datos, cada clip debería estar representado por uno o más fotogramas, más un conjunto de atributos, relaciones y caracteríticas temporales/espaciales.

Visualización, es el proceso encargado de presentar al usuario la información solicitada, sin olvidar que dicha información es dinámicamente dependiente del tiempo lo cual conlleva serios problemas de transmisión y visualización en entornos distribuidos. Dentro de este proceso se incluye la problemática de la transmisión de información audio-visual, los entornos distribuidos, entornos multiplataforma y la utilización de nuevos entornos de comunicaciones como RDSI, Internet, etc; pero que no seran mencionados por quedar fuera del ámbito de este artículo.

2.2. Representación del contenido

Posiblemente, cientos de horas de vídeo analógico sean menos útiles que una hora, debido al acceso secuencial del medio; pero al ser digitalizado ofrece la posibilidad del acceso directo a tantas horas de vídeo como seamos capaces de almacenar, además de la posibilidad de definir enlaces a otros tipos de información MM. Para conseguir acceso directo por contenido será necesario encontrar la forma de representar su contenido en formato digital, de tal forma que dicha representación sea inteligible tanto por el sistema informático como por el usuario final. Como resultado de la representación se generará una estructura de datos rica en información ( inherente del vídeo) e indexada (pendiente del vídeo convencional).

El vídeo tiene radicalmente una estructura diferente a nivel sintáctico y semántico que el texto, donde la sintaxis es altamente determinativa de su semántica, sin olvidar que la principal característica del vídeo es ser un soporte temporal y espacial en contenido, por ello, cualquier lenguaje de anotaciones debería de representarlas, además de garantizar una percepción correcta del contenido conceptual de sus imágenes.

Actualmente no existen máquinas que sean capaces de mirar y entender por nosotros, por ello, el único método de representación del contenido es el procedimiento manual o asistido por ordenador. Este método ofrece una interface de "usuario gestor" para ir visualizando y realizando las anotaciones oportunas del contenido, como veremos en la implementación piloto dels sistema "Video educativo on line". Ésta solución todavía no soluciona todos los problemas de representación del contenido, debido a varias razones:

Representación subjetiva del contenido
Necesidad de un lenguaje universal
Gran complejidad de la estructura vídeo

Luego, se hace evidente la necesidad de definir un modelo de datos, entendiendo por modelo de datos los conjuntos de atributos y características a almacenar, además de las relaciones a mantener entre las distintas secuencias a almacenar. Aqui aparece un nuevo concepto, el "objeto vídeo", definido como un conjunto de imágenes y sonidos organizados a lo largo de un tiempo concreto, más un conjunto de atributos ligados al conjunto o imágenes discretas y más un conjunto pre-definido de posibles operaciones a realizar sobre dicho objeto. Luego, el conjunto de "objetos vídeo" se convierte en la representación del contenido, ofreciendo poder ser organizados e indexados gracias al SGBD. La finalidad de dicha representación es la de ofrecer al usuario nuevas posibilidades de acceso y innovadores conceptos de interactividad. A partir de los objetos vídeo se crea el concepto de "clase de objetos", pudiendo ser definida como un conjunto de objetos vídeo que comparten el mismo conjunto de atributos y el mismo conjunto de operaciones.

La tabla 1, proporciona un ejemplo, donde la clase profesor, podría contener los siguientes atributos, y a partir de ella definir dos clases asociadas una perteneciente a asignaturas y otra a las clases de dichas asignaturas.

CLASE PROFESOR

Nombre

Departamento

Categoría

Doc. asociados

......

CLASE OBJETO ASIGNATURA

Nombre

Descripción

Palabras CLAVE

Doc. asociados

......

CLASE INSTANCIACION LECCION

Indices por Contenido

Relaciones otros Doc.

Descrip

Tiempo inicio-fin

......

Tabla 1. Representación contenido

2.3. Interfaces de usuario

Una vez que tenemos la información almacenada e indexada, de la forma más convenientemente posible, queda pendiente desarrollar las técnicas de recuperación y las herramientas de visualización con el objetivo de ofrecer al usuario una interface fácil, amigable y con un amplio abanico de posibilidades. La interface debería de ofrecer: ejecutar uno o más vídeos seleccionados, incluir operadores relacionales (ex. seleccionar clips utilizando composición de condiciones), aplicar jerarquías temáticas ( restringuir la búsqueda de tópicos a sub-tópicos), realizar búsquedas por palabras clave (selección de vídeos utilizando palabras simples o compuestas), selección por contenido o acción ( seleccionar un clip dependiendo de una acción determinada), interactividad con los objetos ( seleccionar un objeto de la secuencia para obtener más información).

Técnicas de interacción

Las técnicas o herramientas de interacción con objetos vídeo las podemos clasificar en dos niveles. Un nivel de proposito general, donde intentamos dar el mayor entendimiento posible de los objetos dependientes directamente del tiempo, donde implícitamente la componente tiempo ha de ser representada perdiendo importancia los índices por contenido. Como técnicas de propósito general, presentaremos los iconos de vídeo interactivo, micons, y jerarquización de vídeo. Este nivel está dedicado principalmente a representar la estructura visual del vídeo. Un segundo nivel,donde las posibilidades de interacción dependerán de la aplicación en concreto y de los índices generados para tal fin, luego aparece la importancia de los índices por contenido para afrontar las consultas del usuario final. Este segundo nivel está reflejado en la presentación del proyecto Vídeo Educativo on Line.

Iconos de vídeo interactivo:

Una representación visual muy comunmente utilizada para secuencias de vídeo es el icono de vídeo, nombrado, micon [Smoliar94], (figuras 5 y 6). La figura 5 ilustra un entorno diseñado para la manipulación y examen de dichos iconos, donde cada clip tiene una etiqueta de texto y un fotograma representativo. Esta representación revela que un clip puede ser concebido como un volumen de pixels, donde distintas vistas pueden proporcionar una nueva información muy valiosa, como por ejemplo, trayectoria de objetos o cambios de plano. También es posible visualizarlo en tiempo real, la visualización empleando dicha representación se conoce por vídeo streamer [Smoliar94].

Fig 5,6. Icono vídeo 3D y submicon del icono

Jerarquización vídeo:

A veces es más importante poder realizar una rápida navegación dentro de una película entera que poder examinar los efectos especiales en detalle. La jerarquización proporciona de forma rápida un conjunto de snapshots , ofreciendo al usuario una orientación inicial de por donde puede empezar la búsqueda, siempre teniendo presente la posibilidad de bajar de nivel dentro de la estructura jerárquica, gracias a que no presenta límites de niveles, como puede observarse en la figura 7.

Figura 7. Estructura jerárquica / Figura 8. Entorno de manipulación

3. Aplicación: Vídeo Educativo on Line

El ámbito de este proyecto es la creación de una base de datos audio-visual, donde sus registros, nombrados "objetos vídeo", son indexados y organizados según su contenido, concretamente, la naturaleza de la información son: conferencias, seminarios y clases de enseñanza universitaria. El objetivo es el diseño e implementación de un sistema de educación a distancia sobre entornos distribuidos, siguiendo las directrices de la arquitectura presentada en la segunda sección del artículo

El SGBD, está siendo implementado sobre la base de datos relacional ORACLE, sobre la cual almacenamos y gestionamos los índices y el metadata relacionado con la información vídeo digitalizada, siendo la plataforma del servidor un Alpha DEC AXP 10620. Los índices contienen los atributos asignados a cada secuencia, además de apuntadores a la localización de los datos vídeo y audio comprimidos, actualmente en formato QuickTime de Apple Macintosh, debido a que la interface de usuario esta implementada sobre plataforma Macintosh, implementada en C++ y librerias de "Oracle for Macintosh", estando la implementación en un entorno distribuido y multiplataforma.

La implementación contiene aproximadamente una hora de vídeo digitalizado, segmentado en 30 clips. Actualmente el sistema sólo soporta consultas por palabras clave, ofrecidas por los índices de la base de datos, (figura 11), y la representación del contenido sigue un procedimiento asistido por ordenador, (figura 9), habiendo generado una interface "gestor-profesor" para la introducción de las anotaciones, también desarrollada sobre plataforma Macintosh. Luego el entorno de trabajo, tanto para el "usuario-gestor-profesor" como para el "usuario-cliente-alumno" es transparente al sistema de gestión de la base de datos. La captura, digitalización y almacenamiento de las clases ha seguido un proceso totalmente manual y externo a los dos entornos mencionados anteriormente, donde en un futuro también sería necesario definir su automatización.

La base de datos vídeo, presenta el problema del volumen de la información, una hora de vídeo, calidad VHS, comprimida consume 1 Gigabyte de almacenamiento. Luego, un archivo de clases y material relacionado puede requerir grandes capacidades de almacenamiento. Tomando como ejemplo, durante un curso de licenciatura, para almacenar cuatro asignaturas podríamos predecir:

3 horas/semana * 30 semanas/curso = 90 horas curso/asig -> 90 Gbytes

90 Gbytes* 4 asignaturas = 360 Gbytes

La librería requerirá terabytes de almacenamiento, las soluciones hardware a estas necesidades de almacenamiento son los Optical jukebox o los Tape jukebox., capaces de almacenar hasta 10 TB, pero en contra tienen un seek time muy elevado, entre 30sg y 1,5 minutos. En la actualidad estamos utilizando el HD del servidor, dejando pendiente la utilización de los soportes mencionados anteriormente, pero indistintamente del periférico utilizado o utilizados, nosotros hemos adoptado la solución de transmitir el fichero vídeo al cliente y la aplicación de interface usuario-alumno ejecutará la visualización del fichero cuando sea completamente transmitido al cliente, ofreciendo mayores posibilidades de interactividad y sin preocuparse, en principio, de la velocidad de transmisión.

El prototipo de la aplicación está desglosado en dos fases de implementación:.

entorno-gestor-profesor, donde a partir del vídeo digitalizado y almacenado podrá modelarlo generando un material audio-visual estructurado e interactivo, pudiendo definir:

segmentos, secuencias y shots

enlaces entre distintas secuencias

enlaces a otros documentos MM

comentarios añadidos

conjunto de palabras clave (figura 9)

conjunto de atributos semánticos (figura 10)

Este nuevo material editado por el profesor es almacenado dentro de la BD audio-visual generando una reestructuración automática de los índices internos y del metadata asociado.

Figura 9. Palabras clave asociadas / Figura 10. Atributos de la secuencia

entorno-usuario-alumno ofrece al usuario las siguientes posibilidades:

Búsquedas por contenido, unitarias o múltiples (Figura 11)

Navegación por contenido, (con cambios de nivel o constrastar distintas versiones)

Búsqueda de conferencias o congresos relacionados con el tema

Bibliografía utilizada por el profesor

Puntos calientes dentro de las secuencias vídeo, a nivel objeto. Pendiente de implementación.

Visualización de ejercicios propuestos

Figura 11. Vídeo-query

A partir de la interface de selección, el usuario va creando de forma amigable la consulta a realizar sobre la base de datos. Debido a que las palabras clave a utilizar vienen ofrecidas por la base de datos, es imposible crear consultas a la base de datos de respuesta vacía, gracias a que los valores disponibles para cada atributo están en función de los valores asignados a los atributos anteriores durante el proceso de actualización de la base de datos. Esta filosofía orienta al usuario a conocer que información existe dentro de la base de datos en el momento de acceder a ella. Cada vez que el usuario selecciona un atributo de la ventana "Video-query", aparece un menú pop-up con todas las palabras clave disponibles.

Índices

El contenido de la información está organizado en una estructura jerárquica de clases y sub-clases. La clase central de la base de datos es la clase CARRERA, teniendo una entrada para cada documento. A partir de esta clase se generan otros tipos de índices con la finalidad de aumentar las facilidades de las consultas, en la tabla 2 podemos observar los índices generales de la base de datos. En este contexto aparece el concepto de registro semántico asignado a cada clip almacenado en el servidor, por ejemplo, la clase TEMA. Por registro semántico entendemos el conjunto de atributos comunes asignados, encargados de definir el contenido de la secuencia, las relaciones existentes, clases o sub-clases y enlaces a otros objetos de información.

CARRERA
Codigo	N	4
Nombre	C	20
Descripción	C	Memo

PROFESOR
Codigo_Prof	N	4
Nombre	C	40
......

ASIGNATURA
Codigo_A	N	4
Codigo_C	N	4
Nombre	C	20
Curso	C	5
......

CLASE
Codigo_CL	N	4
Codigo_A	N	4
Codigo_Prof	N	4
Apunt_Vídeo	C	30
Fecha_grab	D	8
......

TEMA
Codigo_T	N	4
Codigo_CL	N	4
Inicio	SMPTE	11
Fin	SMPTE	11
Descripción	C	20
Dependencia	N	4
......

Tabla 2. Índices de la base de datos

Si un tema no depende de ninguno, el atributo dependencia estará vacío. Estos índices generan una estructura jerárquica del contenido. Como ejemplo, veamos la tabla 3

CODIGO	DESCRIPCION	DEPENDENCIA
0001	Tema 1	----
0002	Subtema 1.1	0001
0003	Subtema 1.2	0001
0004	Subtema 1.1.1	0002
0005	Subtema 1.1.2	0002
0006	Tema 2	----
0007	Tema 3	----
0008	Subtema 3.1	0007
0009	Subtema 3.2	0007
0010	Subtema 3.3	0007
0011	Subtema 3.1.1	0008
0012	Subtema 3.1.1.1	0011

Tabla 3. Estructura jerárquica del contenido

4. Conclusiones y trabajo futuro

Como observaciones puntuales adquiridas durante el proceso de implementación del prototipo, nos gustaría mencionar:

Es conveniente aproximar el problema de integración del media vídeo dentro entornos Hypermedia desde el punto de vista de definir una estructura de datos que sea adecuada para el media, y a la vez compatible con otros tipos de datos de estructuras muy distintas. El vídeo es una fuente de datos secuencialmente organizada en el tiempo, pero no organizada bajo ninguna información clave, común a todos los elementos, luego aparece la necesidad de encontrar atributos comunes a todos los elementos.

El proceso de segmentación es muy importante debido a que nos ofrece una primera aproximación de su contenido, proporcionando la estructura visual del vídeo. También es evidente la necesidad de ayuda adicional al proceso de detección, donde la aproximación por modelos de conocimiento parece la mejor forma de acotar el problema.

La utilización de base de datos relaciones para el almacenamiento y gestión de los índices vídeo es correcto, sin ser necesario definir nuevos entornos para el SGBD. El ejemplo de implementación sobre ORACLE, ofrece todas las operaciones del diseño funcional, donde también es posible definir campos tipo movie dentro la estructura de sus tablas. Otros factores importantes son la auto-gestión de la localización de los ficheros vídeo, su entorno multiusuario y distribuido.

Como líneas de trabajo futuras, nos gustaría anotar que el audio es una laguna practicamente no estudiada por nadie. Nuestra opinión, conjuntamente con otros investigadores es que podría ser de gran ayuda dentro los procesos de detección y recuperación del contenido. Es evidente que el audio proporciona una fuente muy rica de información y que puede ayudar a comprender la fuente vídeo.

Como amplicaciones futuras a la implementación expuesta, proponemos: a) aumentar los formatos de los ficheros vídeo con el proposito de soportar un amplio rango de configuraciones hardware (cliente), b) ampliar los sistemas de almacenamiento dentro el contexto de entorno distribuido, c) mejorar los procesos de recuperación y d) desarrollar una interface en entorno WWW.

Bibliografía

[Aguirre 92] Aguirre Smith T.G.A, Davenport G., "The Stratification System: A Design Environment for Random Access Video", Proc. 3nd International Workshop on Network and Operating System Support for Digital Audio and Video, La Jolla, CA, 1992.

[Davenport 91] Davenport, G., Smith, T.G.A., and Pincever, N., "Cinematic Primitives for Multimedia", IEEE Computer Graphics & Applications, July 1991, pp. 67-74.

[Keeton 93] Keeton, K. and Katz, R., "The Evaluation of Video Layout Strategies on a High-Bandwidth File Server", Fourth Int´l. Workshop on Operating Systems and Network Support for Digital Audio and Video, 1993.

[Little 93] Little, T.D.C, Ahanger, G., Folz, R.J., Gibbon, J.F. Reeve, F.W. Schelleng, D.H., and Venkatesh, D., " A Digital On-Demand Video Service Supporting Content-Based Queries", Proc. ACM Multimedia 93, Anaheim, CA, August, 1993.

[MacNeil 91] MacNeil R., "Generating Multimedia Presentations Automatically using TYRO", Proc IEEE Workshop on Visual Languages, Japan, 74-79, 1991.

[O´Docherty 91] O´Docherty M.H., Daskalakis C.N., "Multimedia Information Systems" - The Management and Semantic Retrieval of All Electric Data Types", The Computer Journal, Vol 34,3 225-238, 1991.

[Rangan 92] Rangan, P.V., Vin H.M., Ramanathan, S., "Designing an On-Demand Multimedia Service", IEEE Communications Magazine, Vol. 30 No. 7, July 1992, pp 56-64.

[Rowe 92] Rowe, L A, B C Smith, "A Continuos Media Player", Proc. 3nd International Workshop on Network and Operating System Support for Digital Audio and Video, La Jolla, CA, 1992.

[Rowe 94] Lawrence A. Rowe, John S. Boreczky, and Charles A. Eads, "Indexes for User Acces to Large Video Databases", Storage and Retrieval for Image and Video Database II, IS&T/SPIE, Symp. on Elec. Imaging Sci & TEch., San Jose, CA, February 1994.

[Smoliar 94] Stephen W. Smoliar, Hongjlang Zhang, Siew Lian Koh, and Guo Jun Lu, "Interacting with Digital Video", TENCON ´94- December 24, 1993. [Smoliar 94a] Stephen W. Smoliar, Hongjlang Zhang. " Content-Based Video Indexing and Retrieval", IEEE Multimedia pag 62-72. 1994

[Swanberg 93] Swanberg, D., Shu C.F., and Jain, R., "Knowledge Guided Parsing and Retrieval in Video Databases", Proc. Soc. Imaging Science and Technology IS&T/SPIE Symposium on Electronic Imaging: Science and Technology, San Jose, CA, February, 1993.

[Tobagi 93] Tobagi, F.A. and Pang,J., "StarWorks *TM - A video Applications Server", Proc. IEEE COMPCON ´93, San FRancisco, CA, February 1993

Edutec 95 - Materials
Edutec 95 - Home