BUSQUEDA:
DEL ARCHIVO A LA RED
José
Carlos González
Recuperación de Información Multilingüe
Director Gerente
DAEDALUS, S.A.
El propósito de la recuperación de información
(RI en adelante) es facilitar mecanismos para localizar información
en grandes colecciones de documentos en formato electrónico.
Los usuarios finales de estos sistemas formulan consultas (búsquedas)
que expresan qué contenidos desean localizar. Para ello es
preciso que un sistema de RI procese previamente la colección
de documentos a efectos de construir estructuras de acceso (índices)
que permitan un funcionamiento interactivo en el proceso de búsqueda.
Dependiendo de las características de la aplicación
(tamaño de las colecciones, distribución previsibles
de los accesos, red de acceso, restricciones hardware y software,
etc.), los sistemas de RI responden a diseños arquitectónicamente
diversos, que pueden involucrar niveles elevados de distribución
o paralelismo.
Los buscadores en Internet son, obviamente, los sistemas de RI más
populares.
Dentro de la RI, algunos ámbitos concitan actualmente el
interés de los investigadores:
· Recuperación semántica: utilización
de conceptos y no meras formas léxicas en los procesos de
indexación y búsqueda.
· Recuperación de audio o vídeo: localización
de archivos de audio o vídeo (música, fotografías,
etc.) a partir de información de la información documental
anexa.
· Sistemas de Autorrespuesta (o de respuesta a preguntas):
Tratan de localizar, no un documento, sino el párrafo concreto
que responde a una consulta realizada por un usuario.
· Recuperación de Información Multilingüe
(en adelante, RIM): Los usuarios pueden usar una lengua cualquiera
de un conjunto de ellas para expresar las consultas y desean recuperar
los documentos relevantes para su consulta con independencia del
lenguaje en que estén originalmente redactados y ordenados
de acuerdo con su relevancia.
Centrándonos en la RIM, estos sistemas presentan el reto
de añadir los problemas típicos de la traducción
automática a los habituales de la RI. Los investigadores
dividen sus soluciones al problema en tres enfoques:
· Traducción de la consulta a todas las lenguas disponibles,
realizando múltiples búsquedas monolingües sobre
cada una de las subcolecciones que agrupan a los documentos escritos
en un mismo idioma, y combinando los resultados a continuación.
· Traducción de cada documento a todos los idiomas
posibles, utilizando siempre la expresión original de la
consulta en la lengua escogida por el usuario. Con ello, el problema
se reduce al de la RI monolingüe.
· Traducción de la consulta a todas las lenguas involucradas,
encadenándolas para lanzar una única consulta (multilingüe)
sobre la totalidad de la colección (multilingüe)
El interés investigador e institucional en los sistemas para
RIM se revela especialmente en la organización de foros de
evaluación donde los investigadores ponen a prueba sus ideas
junto a los sistemas desarrollados por sus colegas en un entorno
internacional. Así han ido surgiendo iniciativas como TREC
(Text REtrieval Conference) en EE.UU., CLEF (Cross Language Evaluation
Forum) en Europa y NTCIR (NII-NACSIS Test Collection for IR Systems)
en Asia.
La charla mostrará los trabajos realizados por DAEDALUS en
colaboración con las Universidades Politécnica y Carlos
III de Madrid, tanto en el marco del proyecto Europeo Omnipaper
(Smart Access to European Newspapers), como en la campaña
CLEF 2003.
Información complementaria
Iniciativas de Evaluación:
· CLEF (Cross Language European Forum, http://www.clef.campaign.org)
· TREC (Text Retrieval Conference, http://research.nii.ac.jp/ntcir)
· NTCIR (NII-NACSIS Test Collection for IR Systems, http://research.nii.ac.jp/ntcir)
Proyectos:
· Omnipaper (http://www.omnipaper.org):
Acceso multilingüe y distribuido a servicios europeos de
noticias.
Portales:
· Searchtools.com (http://www.searchtools.com/):
Información sobre buscadores en general.
José Carlos González, José Luis Martínez
y Julio Villena
DAEDALUS, S.A. (http://www.daedalus.es)
|