BUSQUEDA:
DEL ARCHIVO A LA RED
Andrés Elhazaz
Buscador Panhispánico
1. DESCRIPCIÓN GENERAL DEL PROYECTO
1.1 OBJETIVO
El objetivo principal del proyecto denominado Buscador General Panhispánico
consiste en crear una gran BDD documental y una herramienta de
gestión y consulta de información que permita a los
usuarios acceder, mediante sistemas de catalogación, ordenación,
búsquedas a la información, presente en Internet,
relacionada con la lengua española y la cultura en español.
1.2 ALCANCE
A tal efecto, se pretende desarrollar una serie de herramientas
y aplicaciones con varios propósitos de carácter general:
· el acceso del gran público a una gran Base de Datos
Documental de información relacionada con la lengua española
y la cultura en español.
· facilitar, a través de herramientas especializadas,
que futuros colaboradores nutran de información el sistema,
siguiendo una estructura definida, que permite clasificar las diversas
direcciones (URLs) por categorías y colecciones, creándose,
de este modo, una colaboración vía Internet entre
distintas entidades culturales y científicas, previamente
autorizadas por el Centro Virtual Cervantes.
La información en general será accesible por el gran
público, permitiéndose la definición de una
serie de perfiles y roles para proteger información privada.
Para la consulta de esta información, se dispondrá
de varias posibilidades de búsqueda (búsqueda exacta,
búsqueda avanzada y expansión semántica basada
en redes semánticas).
La información catalogada procedente de Internet será
sometida a un proceso constante de actualización (mediante
robots o crawlers) y revisión para evitar la presentación
de contenidos caducados. Se dispondrá de un sistema de control
de versiones, que permitirá acceder a información
que fue publicada en la red y que a partir de un momento dado haya
dejado de estar disponible.
Los principales módulos a desarrollar son los siguientes:
· Un Metabuscador (o localizador de enlaces), que,
basado en los buscadores más potentes de la red, recopilará
información, presentándose ésta con una relevancia
de acierto en la búsqueda y con un sumario basado en la
consulta, que da idea del contenido de la página accedida,
para su incorporación en un contenedor de información
relacionado con el usuario y tema de la catalogación.
· Una Herramienta de Catalogación, mediante
la cual se rellena una ficha sobre la que posteriormente se puedan
realizar consultas, tanto de los campos catalogados como sobre
el cuerpo del documento del objeto/s asociado/s. Esta información
recopilada por los distintos colaboradores, estará agrupada
en colecciones y categorías y, según el rol del
usuario, podrá ser copiada, movida, eliminada o dada de
alta en el sistema, para quedar accesible al gran público
a través del módulo Buscador.
· Un Robot o Crawler, mediante el cual se produce
el acceso a Internet para descargar , validar y actualizar las
páginas de cada enlace.
· Un Buscador, encargado de dar respuesta a las
consultas de los usuarios del portal. Esta aplicación permitirá
al gran público recuperar información previamente
catalogada en el sistema.
Adicionalmente, y como valor añadido frente a otros buscadores
de la red, el proyecto incluye la utilización de una red
semántica en español permitirá expandir los
términos de búsqueda en los módulos Metabuscador
y Buscador.
Mediante la utilización de algoritmos de búsqueda
se podrán encontrar términos mal formados o fonéticamente
similares (sugerencias de búsqueda).
Asimismo, el sistema ofrecerá una herramienta adicional
a los catalogadores para validar la corrección morfológica
y gramatical de la información susceptible de ser catalogada.
|