BUSQUEDA:
DEL ARCHIVO A LA RED
Alejandro
Bia
XML y Búsquedas:
Búsquedas por estructuras marcadas en XML y otros métodos
complementarios
Subdirector de Investigación Informática
Biblioteca Virtual MIguel de Cervantes
Universidad de Alicante
INTRODUCCIÓN
La Biblioteca Virtual Miguel de Cervantes además de ofrecer un gran
número de obras en formato digital, potencia su utilización mediante
servicios tecnológicos que dotan de un valor añadido a estos contenidos.
Así, contamos con una amplia gama de buscadores diferentes que se
complementan entre sí, y también programas de concordancias y de
acceso a diccionarios, que se basan en una tecnología similar a
la de los buscadores.
Al buscador tradicional para información del catálogo se suman otros
como el buscador por número de referencia o localizador de la obra,
el buscador en contenidos de la obra, el buscador de páginas de
navegación de la biblioteca (busca en páginas web de portales y
secciones de nuestro sitio web), y el más reciente buscador avanzado
basado en el marcado XML.
El buscador avanzado en textos XML permite la búsqueda de palabras
dentro de las construcciones específicas de los textos: párrafos,
versos, citas, e incluso intervenciones de un determinado personaje
en piezas de teatro. Es posible delimitar fácilmente, por títulos
o por nombres de autores, el conjunto de obras en las que localizar
las palabras mediante la introducción de restricciones.
BÚSQUEDAS POR NÚMERO
DE REGISTRO
Este buscador, permite acceder directamente a la ficha de una obra
de la Biblioteca Virtual cuyo registro coincida con el número que
ha introducido. A pesar de ser el más simple de los buscadores,
provee un servicio útil al permitir localizar rápidamente una obra
por su número de registro o localizador. Esto es de gran utilidad
para los usuarios que leen o trabajan reiteradamente con la misma
obra, de la cual recuerdan su localizador numérico.
BÚSQUEDAS EN INFORMACIÓN DEL CATÁLOGO
La arquitectura de datos de nuestro sistema de catalogación se basa
en el formato MARC [1,2],
aunque para algunos proyectos especiales como el portal que hemos
diseñado para la Biblioteca de Palacio Real (Patrimonio Nacional)
hemos usado formatos derivados del esquema de marcado de textos
TEI [3]. Nos referimos al formato del
TEI-header (cabezal con metadatos de los documentos TEI), aunque
para manuscritos hemos usado una ampliación de este, llamada MASTER
[4]. El proyecto MASTER trata de la gestión
de metadatos para manuscritos antiguos y fue llevado a cabo por
un grupo de universidades europeas, entre las que se cuenta la Universidad
de Oxford.
La tendencia actual es abandonar el formato MARC en favor de otros
formatos más modernos y adecuados para obras exclusivamente digitales,
como es el caso de los formatos basados en la norma TEI o el Dublin
Core [5].
Desde el punto de vista informático, los datos se almacenan y gestionan
mediante un sistema de aplicación de bases de datos de construcción
propia que usa una base de datos relacional. Este sistema aporta
una interfaz que permite las operaciones tradicionales de alta,
baja y modificación de registros entre otras.
Este sistema se usa para la gestión interna de los datos de catalogación.
Para búsquedas y consultas externas a través de Internet, los datos
de esta base se exportan a otra base de datos orientada a objetos
(basada en el producto Object-Store), y las búsquedas se realizan
mediante otro programa, desarrollado por nuestra área de informática,
que construye una estructura TRIE en memoria del servidor, la cual
se destaca por su rapidez y eficiencia en las búsquedas [6].
Este programa esta realizado en Java, al igual que la mayoría de
nuestra programación de servidor. El buscador de información de
catálogo permite hallar un título aunque se busque incompleto: p.ej.
acepta "Quijote", "Don Quijote", "Ingenioso Hidalgo", es decir,
subconjuntos del nombre completo. También ignora palabras poco significativas
como artículos y preposiciones (Llamadas "stop-words" en la jerga
informática). Permite búsquedas por título, autor, materia y época.
BÚSQUEDA AVANZADA EN LOS SUMARIOS
DE LAS REVISTAS
La Biblioteca Virtual posee una hemeroteca cuyos fondos son prestigiosas
revistas científicas y culturales de diversas áreas temáticas. Para
centrar la búsqueda en los contenidos de estas revistas se ha construido
este buscador especial.
BÚSQUEDA EN CONTENIDO
USANDO TECNOLOGÍA TRADICIONAL
Este buscador, permite buscar palabras en el propio texto de cualquier
obra de nuestra biblioteca utilizando una tecnología tradicional
de buscador Web, basada en la construcción de índices de palabras
por medio de un programa rastreador de la Web o "araña" (spider)
cono se le suele llamar en la jerga informática.
Para este propósito, hemos usado un buscador gratuito y muy potente,
como es el "ht://Dig" (léase HT-Dig), que funciona en el entorno
Linux. Este programa no sólo muestra el contexto en el que aparece
la palabra sino que además remite, mediante un enlace al documento,
al lugar preciso de este donde aparece la palabra buscada.
También realiza una ordenación, según criterios de relevancia, de
las páginas encontradas: los resultados son mostrados ordenados
según un "ranking" que tiene en cuenta tanto la proximidad de las
palabras como la cantidad de veces que aparecen en la obra.
BÚSQUEDA EN PÁGINAS
DE NAVEGACIÓN DE LA BIBLIOTECA
Del mismo modo que a veces resulta interesante buscar palabras en
el contenido de una obra, otras veces nos interesa hacer búsquedas
en las páginas web de los portales y secciones de nuestra biblioteca,
es decir, en todas las páginas que no son obras ni fichas del catálogo:
las páginas que conforman la estructura navegable de nuestro sitio
Web.
Existe también un formulario de búsqueda
en contenidos y en páginas de navegación que permite hacer una
búsqueda combinada, según las dos últimas opciones.
BÚSQUEDA EN CONTENIDO BASADA EN EL MARCADO
XML
Los buscadores anteriores no permiten realizar búsquedas usando
el marcado estructural, como por ejemplo buscar la palabra "Sevilla"
sólo si aparece dentro del título de una obra de Tirso de Molina.
El nuevo buscador de contenidos, además de efectuar búsquedas en
el texto de las obras, permite buscar palabras utilizando condiciones
basadas en el marcado estructural XML-TEI [7].
Este buscador permite realizar búsquedas de texto muy potentes,
indicando dentro de qué partes estructurales debe encontrarse la
cadena buscada.
Está pensado para localizar palabras dentro de las obras marcadas
mediante las etiquetas TEI, que son las utilizadas en el etiquetado
de los documentos XML donde se realizará la búsqueda.
Con él podemos buscar libros donde un nombre, por ejemplo "Galdós",
aparezca como autor, o como parte del título, o como parte del cuerpo
de la obra, dando estas búsquedas resultados muy diferentes.
Por ejemplo, podremos buscar obras donde la palabra "Paloma" aparezca
exclusivamente como personaje de una obra de teatro, o en párrafos
de prosa, o en líneas de verso. Estas condiciones de búsqueda basadas
en el marcado estructural permiten hacer búsquedas muy precisas
y sofisticadas.
A este buscador se le han agregado, y se le están agregando, herramientas
lingüísticas que dan mayor potencia y versatilidad a las búsquedas.
Esto se ha realizado en el marco de un proyecto en cooperación con
la Residencia de Estudiantes.
Entre las cosas que permite hacer destacamos:
· Permite buscar una palabra o secuencia de palabras dentro de un
párrafo (etiqueta <p>), dentro de un verso (etiqueta <lg>)
o dentro de una cita (etiqueta <q>).
· Permite buscar todos los parlamentos (en obras de teatro) de un
personaje determinado (etiqueta <speaker> en XML-TEI).
· Permite buscar una palabra o secuencia de palabras en obras de
teatro dentro de los parlamentos de un personaje en particular.
· Permite buscar una palabra en un determinado idioma. En XML-TEI,
las palabras o frases que están en un idioma distinto al del texto
de la obra se marcan con la etiqueta , que significa foráneo
o extranjero.
· Permite buscar todas las palabras o frases que han sido marcadas
con la etiqueta <foreign> para un determinado idioma.
Por otro lado, el buscador XML permite acotar las obras en las que
se va a realizar la búsqueda. Dicha acotación a las obras se puede
realizar por autor, por título o incluso por el título de una sección
determinada. Si se rellena alguno de estos campos se buscará sólo
en aquellas obras que cumplan estas restricciones.
Por último, nos permite determinar el número de resultados a mostrar
por página de resultados. Por defecto muestra 10 resultados por
página.
En la presentación analizaremos y explicaremos cada uno de los campos
y las posibilidades que ofrece este tipo de búsqueda.
PROGRAMAS DE CONCORDANCIAS
Los programas de concordancias y de búsqueda en diccionarios, se
basan en una tecnología similar a la de los buscadores. Son en realidad
buscadores muy especializados.
Este servicio de concordancias de obras permite la búsqueda de concordancias
en una obra concreta. Va dirigido a estudiantes de literatura e
investigadores de letras y permite buscar las apariciones de palabras
en contexto, lo que resulta útil a la hora de analizar el uso que
un autor hace de ciertos términos dentro de una obra.
La búsqueda de concordancias, no analiza toda la obra, sino que
deja algunas secciones de la misma sin analizar. Estas secciones
son el título de la obra, el autor de la obra, las notas del editor
y las del corrector. El resto de la obra es analizada a la hora
de buscar concordancias de una palabra o expresión. Para ello, se
deben establecer los valores adecuados en los distintos campos del
formulario: búsqueda de texto, modo de la búsqueda, contexto de
la búsqueda, e interpretación de los resultados obtenidos.
En una primera instancia, hemos utilizado el programa TactWeb para
brindar este servicio de concordancias a los lectores de nuestra
biblioteca. TactWeb utiliza ficheros de concordancias de TACT (Text
Analysis Computing Tools) para presentarlos a través de la Web.
Si bien se trata de excelentes programas que marcaron hitos en la
aplicación de la informática en las humanidades, son programas que
se basan en tecnología que tiene más de una década, y presentan
fallos que no pueden ser reparados. Recientemente hemos construido
otro programa de funcionalidad equivalente, pero de respuesta mucho
más rápida. Además, los formatos de su salida son más modernos que
los de TactWeb.
Estos programas de concordancias buscan las concordancias en una
obra, pero no son capaces de buscar palabras en toda la biblioteca.
Se trata de buscadores muy especializados que se limitan al tratamiento
de obras individuales. En casos excepcionales, se han juntado varias
obras para su uso en conjunto a los efectos de las concordancias,
pero esto no es lo habitual.
DICCIONARIOS
Las búsquedas en diccionarios resultan ser una herramienta muy útil
para los lectores de textos digitales. Seleccionando una palabra
de una obra y mediante una combinación breve de teclas el lector
puede saltar directamente del texto a un diccionario de su elección
para ver la definición de la palabra. Estos diccionarios electrónicos
se basan también en la tecnología de buscadores, siendo simplemente,
al igual que las concordancias, aplicaciones especializadas de los
mismos.
CONCLUSIÓN
Es en los buscadores, concordancias y diccionarios electrónicos
donde se ponen de manifiesto las virtudes del texto en formato digital.
La amplia variedad de buscadores aquí presentados se complementan
perfectamente, brindando servicios muy variados en dominios diferentes.
REFERENCIAS
1. Estévez-Ballester, A.: Formato USMARC:
versión 1. Servicio Central de Bibliotecas de la Universidad de
Cádiz, Cádiz (1999)
2. Biblioteca Nacional de España: Formato
IBERMARC para registros bibliográficos. Biblioteca Nacional, Madrid
(1996)
3. Sperberg-McQueen, C.M., Burnard, L.,
eds.: Guidelines for Electronic Text Encoding and Interchange (Text
Encoding Initiative P3), Revised Reprint, Oxford, May 1999. TEI
P3 Text Encoding Initiative, Chicago - Oxford (1994)
4. Burnard, L., Robinson, P.: Vers un
standard européen de description des manuscrits: le project Master.
In André, J., Chabin, M.A., eds.: Les documents anciens. Volume
3 of Document numérique. Hermes Science Publications, Paris (1999)
151-169
5. Dublin core metadata initiative. http://purl.org/dc/index.htm
(Last visited: April 2000)
6. Bia, A., Nieto, A.: Information Retrieval
in Digital Libraries: e±cient catalog searches using tries. http://cervantesvirtual.com/research/articles/tries.pdf
(2000)
7. DeRose, S.: XML and the TEI. In Mylonas,
E., Renear, A., eds.: Text Encoding Initiative: Anniversary conference;
10th November 1997, Providence, RI. Volume 33(1) of Computers and
the Humanities 1999; /2., Norwell, MA, USA, and Dordrecht, The Netherlands,
Kluwer Academic Publishers Group (1999) 11-30
16. Bia, A., Muñoz, R.: Aplicación de Técnicas de Extracción de
Información a Bibliotecas Digitales (Applying Information Extraction
Techniques to DLs). In Ferro, M.V., ed.: Proceedings of the XVI
Conference of the SEPLN (Sociedad Española para el Procesamiento
del Lenguaje Natural). Volume 26., University of Vigo, Spain, SEPLN
(2000) 207-214 (published in: Procesamiento del Lenguaje Natural,
journal of the SEPLN).
|