Professional Documents
Culture Documents
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
B3G2T09 - DOCUMTICA.
1. INTRODUCCIN.............................................................................................................................................................. 2
7. BIBLIOGRAFA .............................................................................................................................................................. 17
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 1 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
1. INTRODUCCIN
En una organizacin, la informacin susceptible de almacenamiento crece a un ritmo exponencial. Dicho
crecimiento hace necesario solucionar el problema de su adecuada gestin, ya que a partir de un cierto volumen
se hace imprescindible un sistema organizativo que posibilite la localizacin de la informacin que se precise en
cualquier momento.
Informacin estructurada: se trata de informacin que se puede subdividir en campos. Nos estamos
refiriendo por ejemplo a los registros de las tablas de las bases de datos relacionales.
Informacin no estructurada: es informacin en la que no se puede encontrar una estructura interna.
Hablamos por ejemplo de fotos, archivos de texto, archivos de vdeo, pginas web, etc. Incluimos en este
apartado los documentos en cualquier tipo de formato.
El desarrollo de los sistemas automatizados de recuperacin de informacin se inici con el objetivo de facilitar el
manejo de la enorme cantidad de literatura cientfica surgida desde los aos 40; posteriormente esta disciplina se
extendi a otros mbitos fuera de los cientficos.
Otlet es considerado el precursor de la gestin de documentacin automtica (documtica) con su obra Trait de
Documentation, publicada en 1934, en la que expone los principios y relaciones de la Tecnologa documental.
Otlet identifica los componentes fundamentales del moderno concepto de Documentacin Automtica (o
Automatizada), distinguiendo estas tres premisas principales:
Establece una teora sobre la organizacin, las herramientas y los soportes tecnolgicos para sustentar
esta nueva disciplina
Aplicacin prctica del proceso documental: la Documentacin ocupa un lugar preponderante en la
organizacin
Objetivo: satisfacer las necesidades informativas del usuario
Posteriormente en los aos 50, los especialistas se centran en el problema de la bsqueda y recuperacin de
informacin, acundose el trmino Information Retrieval (recuperacin de informacin). La recuperacin de
informacin es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacin que son pertinentes para la resolucin del problema planteado. En un sistema documtico, el proceso
de recuperacin de la informacin sigue en general el esquema siguiente:
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 2 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Adicionalmente, ser necesario gestionar cierta informacin que permita localizar el documento cuando sea
necesario; as, los documentos han de ser sometidos a un proceso de indizacin.
2.1. INDIZACIN
Consiste en extraer los conceptos clave del texto de un documento. Su objetivo es definir el contenido de un
documento mediante un conjunto de conceptos que especifican el tema o temas de que trata.
El lenguaje documental es el que se usa para la interrogacin del SGD. En funcin del lenguaje documental que
utilice, podemos clasificar los SGD en dos grandes grupos:
Sistemas de lenguaje libre o free-text. Permiten hacer bsquedas en lenguaje natural. Un ejemplo es el
buscador de Internet Google.
Sistemas basados en lenguajes controlados. En este caso, los trminos que contiene un lenguaje
documental son de dos clases:
Trminos preferentes o descriptores (descriptors, key words): son aquellos que deben utilizarse en la
indizacin y en la recuperacin. Representan trminos precisos y unvocos.
Trminos no preferentes (no-descriptors): no pueden asignarse a los documentos en la indizacin, ni
realizar consultas utilizndolos.
En cuanto a la indizacin, hay que tener en cuenta que la cantidad de trminos que representen a un documento
no indica la calidad de la indizacin; no por muchos trminos es ms precisa: cuantos ms trminos representan
a un documento aumenta la exhaustividad (mayor probabilidad de que se seleccione ese documento) y
disminuye la precisin (conceptos que realmente identifican al documento).
Si se cae en excesiva exhaustividad o precisin, se pueden producir dos fallos a la hora de realizar una bsqueda
documental:
Ruido: documentos que el sistema ha seleccionado y que en realidad no responden a la pregunta. Esto
es consecuencia de indicar los documentos con ms trminos de los que se debiera
Silencio: documentos que al hacer la bsqueda no han sido seleccionados y sin embargo responden a la
pregunta formulada. Es consecuencia de la falta de precisin, es decir, no indizar los trminos correctos.
Hablamos de sistema indizador como el encargado de realizar el proceso de indizacin. Existen aplicaciones en
que este proceso es manual, realizado por un operador, pero en otras el operador es ayudado por un sistema
informtico, o ser un proceso totalmente automtico.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 3 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Las distintas fases de las que consta el proceso de indizacin son las siguientes:
1. Examen del documento. El examen ser ms o menos extenso segn el tipo de documento y su forma
fsica; en general, el sistema indizador tendr que asegurarse de leer toda la informacin y no olvidar
ninguna parte. En el caso de un documento de texto, stas son las partes del texto que habr de tener en
cuenta por orden de importancia:
ttulo
resumen
introduccin, captulos y conclusiones
ilustraciones y grficos
palabras subrayadas o impresas en otra tipografa
2. Identificacin del documento. El sistema indizador aplicar una serie de criterios para identificar los
conceptos esenciales para la descripcin del tema, eligiendo los ms acordes con las necesidades del
centro o servicio en que se est indizando.
Para la identificacin de los conceptos esenciales se pueden emplear los siguientes mtodos:
Sistema full-text: consiste en extraer todas las palabras clave, a excepcin de aquellas que se
encuentren en una lista de palabras vacas (aquellas que no aportan informacin, como los
determinantes, preposiciones, etc). Es el sistema que se utiliza habitualmente para los sistemas
documentales free-text
Indizacin mediante lenguajes controlados: el universo de las palabras a indizar est restringido,
utilizndose una lista de descriptores.
El mtodo estadstico: seleccionar los conceptos ms significativos mediante el anlisis de las
frecuencias de los trminos del documento.
El mtodo sintctico: utiliza tcnicas de anlisis morfolgico y semntico para captar la estructura del
texto. Utilizado sobre todo en la investigacin sobre el procesamiento de lenguaje natural.
3. Traduccin de los trminos. Consiste en la traduccin de los conceptos extrados del documento al
lenguaje documental utilizado, es decir, a trminos de indizacin:
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 4 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Los tesauros
Los tesauros que se acaban de citar son diccionarios que muestran la equivalencia entre los trminos o
expresiones del lenguaje natural y los trminos normalizados del lenguaje documental, as como las relaciones
semnticas que existen entre ellos.
Los tesauros en Espaa estn definidos en la norma UNE 50-106-90, la cual no es de obligado cumplimiento,
pero proporciona un marco para la comunicacin entre centros y para facilitar el trabajo en equipo.
Los tesauros se utilizan para eliminar ambigedades y facilitar la indizacin, pero tambin son utilizados en el
proceso de recuperacin de la informacin que se ver posteriormente.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 5 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Los ficheros de patrones de bits contienen hileras de dgitos binarios, patrones de bits que representan a
los documentos. Existen varias formas de construir estos patrones de bits. Un mtodo comn consiste en
la divisin de los documentos en bloques lgicos, e identificar los trminos de indizacin que contiene
cada bloque. Cada palabra es desglosada para traducirse en una hilera de bits (es decir, un patrn de bits
con algunos de los bits "puesto a 1"). Los patrones de bits de cada palabra en un bloque son agrupados
para crear un bloque de patrones. Los bloques de signaturas se concatenan posteriormente para producir
el patrn de bits del documento. La bsqueda se lleva a cabo por medio de la comparacin entre los
patrones de bits de las interrogaciones con los patrones de bits de los documentos de la base de datos
Los grafos (o "redes") son colecciones ordenadas de nodos conectados por arcos y se usan para
representar documentos de diversas formas y maneras. Un ejemplo es el grafo denominado red
semntica, que representa las relaciones semnticas que se establecen en el texto, relaciones que se
pierden a menudo en otros sistemas de indizacin. Aunque constituyen un campo interesante para el
estudio, resultan bastante difciles de llevar a la prctica y requieren excesivo esfuerzo manual para el
proceso de la representacin de las colecciones de documentos.
Uno de los problemas con los que se nos encontramos, al interrogar un SGD, es que el usuario concibe su
necesidad de conocimiento en lenguaje natural, el cual ha de ser traducido al lenguaje documental que entiende
el sistema. Por lo tanto, puede producirse una prdida de eficiencia en la traduccin. Por ello se dice que el tipo
de recuperacin que se puede producir en la interrogacin a un SGD es aproximada o probabilstica, es decir,
ante una misma necesidad de conocimiento se pueden obtener mltiples respuestas dependiendo de la habilidad
del usuario para traducirla al lenguaje documental que entiende el sistema. Hay que hacer notar que esto supone
otra diferencia relevante con los sistemas gestores de bases de datos tradicionales, en los que la informacin que
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 6 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
devuelve el sistema es determinista, ya que ante una misma necesidad de informacin siempre devolver el
mismo resultado.
Al igual que ocurra en el proceso de indizacin, a la hora de la recuperacin de la informacin no se puede ser
exhaustivo y preciso al mismo tiempo, ya que si uno de los parmetros aumenta el otro disminuye, como
podemos representar grficamente de la siguiente manera:
Por ello, para medir la eficiencia de un sistema de recuperacin de la informacin se establecen una serie de
parmetros, que enunciaremos a continuacin basndonos en la tabla siguiente:
Relevantes No Relevantes
Extrados A B
No extrados C D
Indice de pertinencia o precisin: mide cuantos documentos devueltos son los considerados relevantes
por el usuario: A / (A + B). Es en definitiva una medida de la calidad de la informacin obtenida.
Indice de exhaustividad o de respuesta: mide el porcentaje de documentos que han sido devueltos sobre
el total de la base documental: A / (A + C). Es una medida de la cantidad de la informacin obtenida.
Tasa de ruido: mide el porcentaje de documentos que carecen de inters y han sido devueltos por el
sistema: B / (A + B)
Un proceso de recuperacin, al que podramos considerar "genrico", seguira las siguientes fases:
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 7 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
3. Traslacin de las necesidades del usuario al lenguaje documental propio de la fuente a utilizar en cada caso.
Es posible, adems, encontrar fuentes en las que no se utilice ningn tipo de vocabulario controlado, en cuyo
caso resultar necesario afinar el trabajo terminolgico.
4. Traduccin de la expresin de lenguaje documental al lenguaje de interrogacin propio de cada sistema.
5. Ejecucin de las expresiones del lenguaje de interrogacin obtenidas.
6. Consulta de las respuestas obtenidas, para analizar su pertinencia o no a la cuestin planteada.
7. Replanteamiento, si procede, de las expresiones utilizadas, si los resultados obtenidos no son pertinentes.
8. Seleccin y obtencin de los documentos que respondan a las necesidades manifestadas por el usuario.
9. Transmisin del resultado, preparado adecuadamente, al usuario.
Sistemas de gestin de bases de datos documentales (SGBDD): son sistemas que incorporan todas
las caractersticas de los SGBD tradicionales, incluyendo la creacin y mantenimiento de bases de datos
documentales (adecuadas para informacin no estructurada), usuarios, controles de seguridad, e incluso
lenguajes propios de programacin. Estos sistemas estn basados en sistemas de archivo y ficheros
inversos, los cuales son una modalidad de organizacin de los datos especialmente apropiada para la
informacin documental. Los rasgos ms caractersticos de un SGBDD son:
capacidad para almacenar informacin textual de longitud grande y variable
capacidad para recuperar con rapidez registros que responden a un criterio de bsqueda
capacidad para realizar bsquedas multicriterio sobre ficheros inversos utilizando lgica booleana
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 8 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Sistemas de indizacin: anteriormente hemos visto el proceso de indizacin documental. Estos sistemas
por lo tanto son aquellos encargados de realizar dicho proceso.
Sistemas de exploracin o escneres: se trata de aplicaciones que son capaces de acceder a ficheros
con diferentes formatos y buscar dentro de los mismos las cadenas de caracteres que respondan a lo
expresado en la ecuacin de bsqueda. Pueden encontrarse aplicaciones que combinen la exploracin
con la indexacin, como dtSearch.
Sistemas de gestin bibliogrfica: sistema especializado para la gestin y mantenimiento de
bibliografas especializadas. Es una aplicacin especfica de los sistemas de gestin de bases
documentales que permite, no slo el almacenamiento y la recuperacin de referencias bibliogrficas,
sino tambin la exportacin de estas referencias en diferentes formatos de cita bibliogrfica a diferentes
procesadores de textos, sistemas de gestin de bases de datos, etc.
Sistemas de recuperacin de informacin (SRI): son aplicaciones que se encargan exclusivamente de
recuperar informacin de bases de datos documentales no modificables. Ponen a disposicin del usuario
potentes herramientas de bsqueda y de apoyo a la bsqueda, pero su funcionalidad queda reducida a la
consulta y exportacin de documentos.
Los SRI incorporan un gestor de interrogacin o motor de bsqueda, el cual realiza bsquedas dentro
de una base de datos de documentos. El motor de bsqueda recibe la interrogacin del usuario (query),
que consiste en una o varias palabras, realiza la bsqueda en la base de datos y extrae una lista
ordenada de documentos que cumplen entera o parcialmente con la interrogacin. El orden depende de
una puntuacin (score) que asocia el programa a cada documento cuando realiza la bsqueda y en cada
caso vara. Un criterio para puntuar los resultados que usualmente se aplica es que cuanto ms prximos
en el documento aparecen los trminos de bsqueda, mayor es la puntuacin del documento.
Un SRI debe permitir la recuperacin de la informacin contenida en los documentos de la base de datos
a la que accede, a travs de cualquier trmino existente en ella, mediante la formulacin de ecuaciones
de bsqueda que permitan combinar los trminos segn diferentes criterios. Existen sistemas que ofrecen
la posibilidad de ejecutar las consultas sobre una o varias bases de datos simultneamente. Los
documentos resultantes se agrupan en sets o conjuntos, susceptibles de combinacin posterior.
El SRI ha de poseer algn tipo de mecanismo para la salida de la informacin, generalmente mediante
edicin en pantalla, impresin y redireccin a ficheros de los documentos de inters para el usuario. Las
rdenes de salida de informacin deben ofrecer la posibilidad de enviar sta a diferentes destinos, as
como los formatos de presentacin de los datos a utilizar (tamao, campos...). Deben incluirse aqu las
capacidades para ordenar, segn diferentes criterios, los documentos resultantes. Otra funcin a
considerar es la posibilidad de crear nuevas bases de datos, tomando como base los documentos
recuperados en una bsqueda previa.
Es interesante que el SRI incluya tambin herramientas que permitan analizar y procesar la respuesta
obtenida, utilizando herramientas de anlisis de frecuencias de los trminos (es decir, cuntas veces
aparece el trmino buscado en los documentos recuperados) o de coocurrencias (frecuencia con la que
aparecen dos o ms trminos de bsqueda en los documentos recuperados).
Otro posible subsistema de un SRI es aquel que permita definir los perfiles de bsqueda de los usuarios,
as como realizar un seguimiento de las ecuaciones que ejecuten. Por ejemplo, la posibilidad de
almacenar las ecuaciones de bsqueda que usualmente ejecutan, de manera que puedan ejecutarse en
cualquier momento, se les llama normalmente "macros". Estas macros son ficheros susceptibles de
edicin y modificacin, lo que facilita la recuperacin de informacin con un mnimo esfuerzo de tiempo y
coste.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 9 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Un elemento fundamental de un SRI es que incluya algn mecanismo de control terminolgico, tanto para
la entrada de datos como para su recuperacin. Puede tratarse de un tesauro, de un glosario o de un
diccionario terminolgico.
Adems se puede incluir una ayuda al usuario en todo momento, a travs de mensajes y lneas de
estado, especialmente durante el proceso de interrogacin (interrogacin asistida). En sistemas de
recuperacin en lnea (teledocumentacin), el sistema informa al usuario del tiempo de conexin, tareas
ejecutadas, coste de la sesin, etc. Los mecanismos de ayuda al usuario, especialmente aquellos
referidos a la evaluacin y refinamiento de las bsquedas, son una de las principales reas de
investigacin.
Por ltimo, dependiendo de la configuracin del sistema, ste puede ofrecer opciones de acceso
multiusuario, niveles de seguridad, reorganizacin y recuperacin de ficheros, etc.
Sistemas hipertextuales: en su origen, los hipertextos e hipermedias eran una forma de organizar,
acceder y explorar documentos de diferentes tipos, que posteriormente se han popularizado como motor
y parte de tutoriales y presentaciones. Actualmente estos sistemas estn volviendo a ser considerados
como una forma vlida y muy avanzada de gestionar documentacin. Para que sea posible una
existencia real de los conceptos de hipertexto e hipermedia, deben utilizarse aplicaciones que sean
capaces de crear los vnculos y asociaciones entre los documentos. Las aplicaciones ofrecen unos
elementos particulares que facilitan la creacin y navegacin por las estructuras hipertextuales:
Un conjunto de ficheros que contienen los documentos relacionados.
Ventanas de presentacin de los documentos, las cuales son modificables en tamao y posicin.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 10 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Punteros o enlaces, que generalmente utilizan una representacin grfica distinta a la del resto del
material informativo, en forma de color, iconos, botones... As como dispositivos sealadores, que
facilitan la seleccin y el acceso a los documentos mostrados en las ventanas.
Herramientas de creacin de enlaces y anotacin de la navegacin, lo que da al usuario la posibilidad
de crear sus propias asociaciones y documentos.
Estas funcionalidades se integran en una herramienta que en el entorno hipertextual es conocida como
"browser", navegador o visualizador. El visualizador acta como una interfaz, que muestra al usuario el
contenido informativo de los documentos que selecciona, mediante la seleccin de enlaces. Suele
completarse con la posibilidad de ejecutar bsquedas en el texto completo que contienen los documentos
y/o bsquedas ms rgidas utilizando lenguajes clsicos de interrogacin. La interrogacin, sea de texto,
imgenes o sonidos, suele realizarse a travs de la ejecucin de patrones, que representan una
necesidad dada de informacin por parte del usuario. Adems, una completa aplicacin para este mbito
debera ser capaz de generar mapas grficos de la estructura hipertextual y utilizar estas
representaciones para acceder directamente a los documentos deseados.
La visin que obtiene el usuario mediante el visualizador es una visin transparente, integrada, en la que
no resulta complicado navegar de un documento a otro. Esta aparente facilidad no debe ocultar que los
documentos pueden encontrarse en diferentes ficheros informticos, e incluso en diferentes ordenadores,
formando lo que se llama repositorio de informacin, que ser tratado con ms detalle en el prximo
captulo, por su relacin con las bases de datos multimedia.
Los sistemas y estructuras de hipermedia pueden adems incorporar inteligencia embebida, es decir, ser
capaces de ejecutar otras aplicaciones o de tomar decisiones acordes con la actividad desarrollada por el
usuario, tanto en la utilizacin de los enlaces como en el acceso a los contenedores.
Un lenguaje de interrogacin puede definirse como un conjunto de rdenes, operadores y estructuras que,
organizados conforme a unas normas lgicas, permiten la consulta de fuentes y recursos de informacin
electrnica.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 11 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
El resultado de la combinacin de estos elementos, siguiendo las normas establecidas, es una expresin a la que
se conoce con el nombre "ecuacin", capaz de interrogar el contenido de la fuente de informacin. La definicin
mnima de un lenguaje de interrogacin y de sus componentes puede encontrarse en el borrador de norma ISO
8777-1988.
Las normas lgicas que rigen un lenguaje de interrogacin responden a cuestiones relacionadas con la
coordinacin de los elementos, es decir, con la formulacin de ecuaciones. Estas normas funcionan como la
sintaxis del lenguaje, es decir, especificarn el orden de los elementos, la disposicin de las estructuras, sus
posibilidades combinatorias, las prioridades en la ejecucin y todo tipo de posibles funciones. Las rdenes sern
aquellas palabras o abreviaturas que le indicarn al sistema las acciones a ejecutar (buscar la expresin, mostrar
los documentos o registros resultantes, consultar el tesauro o los ficheros inversos, ejecutar un perfil de
usuario...). Sin embargo, no todos los lenguajes de interrogacin utilizan las mismas palabras como rdenes,
aunque las rdenes ejecuten las mismas funciones. Existen intentos para homogeneizar la interrogacin de las
bases de datos, como el lenguaje CCL (Common Command Language) promovido por la Unin Europea, que an
no han alcanzado el objetivo para el que fueron desarrollados. A este panorama se une la proliferacin de
interfaces grficos de usuario, que sustituyen a las rdenes y la sintaxis tradicional, dejando al usuario (si ste lo
desea) slo la labor de introducir los trminos y los operadores que expresan las relaciones existentes entre ellos.
En un lenguaje de interrogacin, los operadores son los encargados de expresar las relaciones que mantienen
entre s los trminos que definen (ms adecuado sera decir que pueden definir) las necesidades informativas del
usuario.
Los operadores lgicos, tambin llamados booleanos en honor a George Boole, precursor de la lgica simblica y
del lgebra de conjuntos, son los ms utilizados en numerosos sistemas. El principio que rige la utilizacin de este
tipo de operadores es que las relaciones entre conceptos pueden expresarse como relaciones entre conjuntos.
Las ecuaciones de bsqueda pueden transformarse en ecuaciones matemticas, que ejecutan operaciones sobre
los conjuntos, lo que da como resultado otro conjunto. Los tres operadores bsicos son el operador suma/unin
(generalmente identificado como O/OR), el operador producto/interseccin (identificado como Y/AND) y el
operador resta/negacin (identificado como NO/NOT). A su vez, estos operadores pueden combinarse entre si
generando operaciones ms complejas, como el O exclusivo (elimina la interseccin), etc.
No deben obviarse los problemas que plantean los operadores booleanos, independientemente de su potencia.
En primer lugar, siempre se plantean en trminos absolutos (es decir, selecciona el documento en funcin de si
las palabras de bsqueda estn o no est presenten, sin considerar el peso especfico de cada trmino en el
contexto). Por esa misma razn, es necesario un alto valor de precisin en los trminos de bsqueda utilizados.
En segundo lugar, requieren claridad en la composicin de las expresiones a buscar.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 12 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
La utilizacin de operadores posicionales pretende superar algunas de las limitaciones anteriormente citadas que
ofrecen los operadores booleanos. Toman como punto de partida la consideracin del valor de cada trmino
dentro del contexto, es decir, de su relacin con el resto. En definitiva lo que quiere decir es que la posicin de los
trminos de bsqueda dentro del documento es significativa para valorar su utilidad. Los operadores posicionales
pueden dividirse en dos tipos:
Posicionales absolutos: Son aquellos que permiten buscar un trmino en un lugar dado del documento
o registro. Por regla general, son operadores de campo, es decir, permiten al usuario fijar en que campo o
campos presentes en la estructura de base de datos debe aparecer el trmino buscado. La presencia del
trmino en un campo dado (por ejemplo, en el campo ttulo) puede ser una garanta de la adecuacin del
documento a los objetivos, en la mayor parte de las situaciones.
Posicionales relativos. Tambin llamados de proximidad, se trata de operadores que permiten
establecer la posicin de un trmino respecto a otro dado. Se considera que la cercana entre los dos
trminos puede reflejar una ntima relacin entre los conceptos reflejados por los mismos. Estos
operadores permiten definir el nivel de proximidad entre los trminos (mismo campo, lnea, frase, nmero
de trminos significativos que los separa...).
Especifican el rango de bsqueda, fijando unos lmites para la misma. Estos lmites pueden ser tanto numricos
como alfabticos, correspondiendo los operadores a formas del tipo "mayor que", "menor o igual que". Se utilizan
principalmente en documentos que pueden contener datos numricos.
Pueden darse situaciones en las cuales sea necesario utilizar no un trmino simple, sino tambin sus derivados,
determinados por prefijacin o sufijacin, mnimas variantes lxicas, etc. Para facilitar este tipo de bsqueda se
han introducido operadores de truncamiento, a los que tambin se llama mscaras. Se trata de operadores
(normalmente se emplean smbolos como *, $) cuya presencia puede sustituir a un carcter o a un conjunto de
caracteres, situados a la izquierda, dentro o a la derecha del trmino en cuestin.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 13 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
En los actuales sistemas de recuperacin de informacin es posible encontrar todos estos tipos de operadores,
que pueden combinarse entre s, permitiendo crear ecuaciones complejas que reflejan con bastante precisin los
conceptos y sus relaciones. La combinacin de los operadores debe respetar un conjunto de reglas bsicas en
todos los sistemas, que establecen las prioridades y formas de ejecucin de ecuaciones complejas, cuando stas
combinan ms de dos conceptos. En primer lugar, los sistemas tienden a resolver, o ejecutar en primer lugar,
aquellas expresiones que se relacionan utilizando el operador ms restrictivo o prioritario. Por ejemplo, un
operador posicional absoluto posee un nivel de restriccin (una prioridad) mayor que un operador booleano, lo
que significa que el sistema ejecutar antes la expresin cuyo operador es el posicional absoluto, combinando
posteriormente el resultado con el operador booleano y su trmino relacionado.
Sin embargo, pueden darse expresiones en las cuales sea necesario variar estas prioridades y ordenar al sistema
que ejecute en primer lugar expresiones con operadores de menor nivel de restriccin, relacionando luego su
resultado con trminos a travs de operadores ms restrictivos. Para estas situaciones, se utilizan parntesis, los
cuales engloban a las expresiones que deben ejecutarse en primer lugar, independientemente de las prioridades
fijadas por el sistema. La utilizacin de expresiones entre parntesis hace posible, por ejemplo, que el resultado
de una expresin con un operador booleano pueda ser combinada con un operador posicional absoluto. Adems,
los parntesis pueden anidarse, resolvindose las ecuaciones planteadas desde dentro hacia fuera, de la misma
forma que las igualdades y polinomios matemticos.
Los lenguajes, sus rdenes y operadores son utilizados dentro del proceso de recuperacin de informacin, la
cual se encuentra almacenada en un repositorio, que suele ofrecer la forma de base de datos. La base de datos
es consultada mediante la ejecucin de bsquedas, expresiones que renen los elementos citados con
anterioridad, y cuya resolucin da como resultado aquellos elementos que responden a la lgica expresada en la
bsqueda.
Con el concepto "estrategia de la interrogacin" nos referimos a los posibles enfoques que se le puede dar a la
planificacin del proceso de recuperacin de la informacin, tanto de la visin general de cmo se va a afrontar la
bsqueda hasta la formulacin de la ecuacin concreta.
La estrategia debe ser un plan ideal de interrogacin de la base de datos que incluya el objetivo de la bsqueda,
el plan general y el plan especfico de operacin. El objetivo de la bsqueda se obtiene identificando qu tipo de
informacin se necesita y sus caractersticas. Una vez definido el objetivo, debe establecerse un plan general de
operacin, que incluya una seleccin de la base o bases de datos a consultar, las primeras aproximaciones a los
trminos a utilizar en las ecuaciones, as como las posibles relaciones lgicas. El plan especfico de operacin se
pone en marcha una vez obtenidos los resultados del anterior y debe formular ecuaciones y utilizar trminos con
el mayor grado de precisin, establecer una secuencia lgica con todo ello y redefinirlo si es preciso.
Independientemente de ambos planes, resulta necesario conocer con anterioridad la respuesta a varias
cuestiones que afectan a la interrogacin de la base de datos, tales como el contenido y alcance de la base de
datos, coste de consulta, lenguaje y operadores a utilizar durante las consultas, lmites preestablecidos (por el
usuario o el sistema)... Todas ellas afectan y modifican el enfoque del interrogador.
En el momento actual, parece ms adecuado utilizar el trmino para identificar el plan general de bsqueda. No
existe una nica ni perfecta aproximacin a las estrategias de interrogacin de bases de datos. En la mayor parte
de las ocasiones depende de la experiencia del usuario y de la calidad del contenido de los registros existentes
en la base de datos, especialmente en lo que corresponde a su control terminolgico. La estrategia depende, en
gran manera, de la formacin, intuicin y experiencia del usuario. Tomando en consideracin la intencin del
interrogador, la bibliografa seala que pueden existir varios tipos principales de bsqueda, que pueden
clasificarse en dos grandes grupos, sin perjuicio de que puedan darse situaciones en las que se combinen:
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 14 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Bsqueda de elemento conocido: se trata de bsquedas en las cuales el interrogador sabe cul ser
la respuesta. Por ejemplo, en una biblioteca en la que estamos buscando un libro concreto
(documento respuesta conocido) y realizamos la bsqueda por su ISBN.
Bsqueda de informacin especfica: el interrogador busca una informacin especfica dada,
generalmente sobre un tema concreto y limitado, como trabajos publicados en un ao o por un autor.
Bsqueda de informacin general: intenta buscar la informacin sobre una materia o asunto, de
forma general, que obtenga una visin global del estado de la misma.
Exploracin de la base de datos: se trata de conocer qu tipos de informacin y/o documentos se
encuentran almacenados en la base de datos, a qu pueden responder y cmo pueden utilizarse.
Categorizacin por plan de operacin:
Bsqueda directa: se trata de una aproximacin expeditiva, en la que se intenta resolver el problema
con la formulacin de una nica consulta. Como puede deducirse, resulta difcil obtener buenos
resultados con la misma.
Bsqueda "breve": es una evolucin de la anterior, en la que se trata de recuperar unos tems
significativos entre un gran nmero obtenido tras una sola ecuacin.
Ampliacin: comienza con ecuaciones muy restrictivas, que ofrezcan documentos pertinentes. Tras
analizar la respuesta, el usuario puede ampliar o expandir las ecuaciones de bsqueda hasta
recuperar toda la informacin existente. Puede ofrecer problemas si la ecuacin inicial no es
adecuada.
Restriccin: opuesta a la anterior, formula ecuaciones que ofrecen resultados muy amplios, para
posteriormente utilizar ecuaciones ms restrictivas, hasta delimitar los documentos pertinentes.
Construccin de bloques: intenta establecer bloques de informacin que se correspondan con el
objetivo de la bsqueda, para combinarlos entre s de manera que se responda a la necesidad
planteada de manera ptima.
Las limitaciones inherentes al proceso de recuperacin mediante ecuaciones han conducido a experimentar otras
aproximaciones. Una de las ms utilizadas es aquella que emplea la exploracin, es decir, el acceso a los
documentos mediante tcnicas de visualizacin de parte de su contenido que puede ser relevante, y la posterior
asociacin con otros documentos de perfil similar. El usuario accede a un listado o enumeracin de elementos
descriptivos y, mediante un proceso de seleccin de elementos, va centrando el objetivo de su bsqueda. Los
criterios utilizados por el usuario se basan en la deduccin y la asociacin de conceptos (aproximacin sta
similar a la que utiliza un sistema hipertextual -ver infra el captulo pertinente-) frente a la lgica de conjuntos que
se plantea en un sistema de ecuaciones. Este tipo de representacin es ms adecuada para reflejar la
polirepresentacin que un concepto puede tener para un usuario individual. En cambio, la utilizacin de la
exploracin suele realizarse en entornos en los cuales el usuario no posee una idea clara de cul debera ser la
mejor tctica para aproximarse a la informacin que precisa. Por lo tanto, la cuestin clave a considerar en un
sistema de exploracin es combinar las ideas y esquemas del usuario con el esquema de organizacin de la
informacin que ofrece el sistema. sta es la aproximacin que pretenden desarrollar los enfoques cognitivos,
poniendo su nfasis en el intermediario que debe existir entre el modelo del usuario y el modelo del sistema.
El resultado de la ejecucin de una ecuacin de bsqueda es un conjunto de documentos que cumplen las
condiciones expresadas en la ecuacin. Se trata, a su vez, de un subconjunto del conjunto total de documentos
existentes en el recurso o fuente de informacin consultado. Sin embargo, puede darse el caso de que la
respuesta sea un nmero excesivamente elevado de documentos, o un nmero mnimo. Por otra parte, los
documentos resultantes responden a la lgica y a las condiciones expresadas en la ecuacin de bsqueda, lo
cual no supone, como ya se ha sealado, que sean pertinentes a las necesidades del usuario. En realidad, es
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 15 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
posible ejecutar ecuaciones perfectas, desde un punto de vista funcional (operadores, trminos...), sin que los
documentos resultantes renan las caractersticas que los haran deseables para el usuario.
Para superar esta posible distorsin en los resultados es necesario valorar y evaluar la respuesta a las
ecuaciones planteadas. La primera modificacin a realizar en la formulacin de las ecuaciones afecta al nmero
de respuestas obtenidas. En el caso de un excesivo nmero, se utilizan tcnicas de restriccin mediante la
introduccin de trminos ms especficos, se desechan trminos generalistas o se limitan los truncamientos. En el
caso de un nmero muy reducido, las acciones a tomar son las contrarias, es decir, utilizacin de trminos ms
generales, incluyendo derivados y relacionados, limitacin de los operadores ms restrictivos, introduccin de
truncamientos, etc. Si se da la situacin de ecuaciones correctas funcionalmente, pero sin respuesta adecuada,
sera necesario replantear el proceso de recuperacin, especialmente en la utilizacin de los lenguajes
documentales y en la seleccin de fuentes.
5.1. ROBOTS
Un robot, tambin conocido como spider o wanderer, es capaz de navegar a travs de documentos web
relacionados por enlaces. El funcionamiento de un robot a grandes rasgos es el siguiente. Parte de una lista de
servidores inicial a partir de la cual va visitando los enlaces correspondientes, siguiendo un determinado criterio
propio del robot. Cuando el robot llega a un servidor que no estaba en la lista inicial, busca un fichero llamado
robots.txt en el que se indican los directorios permitidos para ser explorados y los que no. En caso de que el
fichero no exista, se consideran todos permitidos. A continuacin, el robot indexa las pginas que han de ser
incorporadas a la base de datos. Dicho proceso se puede llevar a cabo de varias maneras. Una de las ms
habituales es indexar el contenido de las etiquetas <META>, el cual est oculto para el usuario y permite
introducir palabras clave para los robots de bsqueda. Tambin hay robots que indexan los ttulos de las pginas
HTML, o incluso el contenido entero del documento.
Los motores de bsqueda realizan bsquedas dentro de una base de datos de documentos, que puede haber
sido recopilada por un robot como acabamos de ver, o bien manualmente.
Existen dos grandes tipos de motores de bsqueda. Unos de ellos disponen la informacin en forma de
directorios organizados temticamente que ayuden a los usuarios a visualizar los recursos clasificados por
categoras. Un ejemplo de este tipo de buscadores es Yahoo! Son muy prcticos cuando se quiere buscar
informacin de un tema en concreto. Uno de los principales inconvenientes que tienen es que estos catlogos se
suelen compilar y organizar de forma casi manual, por lo que a menudo estn desactualizados.
Otro enfoque distinto son los que utilizan palabras clave para recuperar informacin. Son muy tiles, aunque
tienden a recuperar grandes cantidades de informacin irrelevante, por lo que el usuario no debe limitarse
pasivamente a recibir una respuesta a su requerimiento, sino que debe trabajar activamente con esa respuesta,
separar lo pertinente del ruido y utilizar la respuesta como un punto de partida. Entre este tipo de buscadores
podramos citar a Google, uno de los ms famosos.
En cualquiera de los dos casos, la respuesta del motor consistir en una pgina web que incorpora una breve
descripcin de las pginas que ms se ajustan a la expresin de bsqueda y, lo que es ms importante, un
enlace directo a las mismas, mediante el cual el usuario puede acceder al documento original en ese mismo
instante.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 16 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Como hemos visto, el proceso de bsqueda y recuperacin de la informacin en Internet se asemeja mucho al de
los sistemas documentales vistos anteriormente. Adems, los primeros motores de bsqueda en Internet se
basaban en los que se utilizaban en los SRI (apartado 3 de este tema). Esto origin que surgieran problemas que
no se planteaban en el mundo de los SRI debido a que el entorno de trabajo y las caractersticas de la
informacin almacenaba eran considerablemente distintos. Alguno de ellos es por ejemplo el "spamming", que
consiste en la introduccin en la descripcin de pginas web de trminos que no tienen nada que ver con su
contenido, de manera que el usuario recupere esas pginas cuando en realidad pretenden realizar otra bsqueda.
Por un lado, el algoritmo tiene en consideracin el nmero de enlaces que una pgina proporciona como
una medida de calidad de la misma.
De igual manera pasa con el nmero de pginas que apuntan a ella: es una medida de su calidad;
cuantas ms referencias a esta pgina haya en otras webs, se considera que mayor es su calidad.
En resumen, se basa en que aquellas pginas muy citadas son pginas que vale la pena consultar. Como
inconveniente a este mtodo, podemos citar que las novedades no aparecen en los resultados, ya que para ser
consideradas releventes han de ser citadas en otras webs.
6. CONCLUSIN
El archivo electrnico de documentos, que naci con la finalidad de almacenar la literatura cientfica, ha sido
ampliamente adoptado en el mbito de las organizaciones bajo diversas formas de acuerdo con la funcionalidad
requerida: desde sistemas de gestin de bases de datos documentales hasta sistemas compuestos. A grandes
rasgos, cualquier sistema de archivo electrnico de documentos ha de contemplar dos grandes procesos, la
manipulacin de los documentos (introduccin de nuevos documentos, eliminacin de los existentes) y la
recuperacin de los mismos para su presentacin al usuario.
7. BIBLIOGRAFA
FRAKES, W.B. Introduction to Information Storage and Retrieval Systems. Ed. Prentice Hall
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 17 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
8. ESQUEMA RESUMEN
INTRODUCCIN
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 18 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Etapas de la indizacin
Examen del documento
Identificacin del documento
Traduccin de los trminos
LOS TESAUROS
Diccionarios que muestran la equivalencia entre los trminos o expresiones del lenguaje natural y los
trminos normalizados del lenguaje documental, as como las relaciones semnticas que existen entre
ellas.
Norma UNE 50-106-90
Los elementos principales de un tesauro:
Unidades lexicales. A su vez de subdividen en varios tipos:
descriptores
trminos equivalentes o sinnimos:
- sinnimos lingsticos
- sinnimos documentales o cuasi-sinnimos: infraconceptos y palabras herramienta o
instrumento
Relaciones entre unidades lexicales. Existen las siguientes clases de relaciones:
Relaciones de equivalencia o sustitucin.
relaciones de jerarqua:
- relaciones genricas
- relaciones partitivas o relaciones todo-parte.
relaciones asociativas o de vecindad
relaciones de definicin
Sistemas de indizacin
Ficheros planos
Ficheros inversos
Ficheros de patrones de bits
Grafos
MTRICAS DE EFICIENCIA
Relevantes No Relevantes
Extrados A B
No extrados C D
Indice de pertinencia o precisin: mide cuantos documentos devueltos son los considerados relevantes
por el usuario: A / (A + B). Calidad
Indice de exhaustividad o de respuesta: mide el porcentaje de documentos que han sido devueltos sobre
el total de la base documental: A / (A + C). Cantidad
Tasa de ruido: mide el porcentaje de documentos que carecen de inters y han sido devueltos por el
sistema: B / (A + B)
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 19 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Sistemas de exploracin o escneres aplicaciones capaces de ejecutar ecuaciones de bsqueda sobre ficheros
con diferentes formatos
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 20 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Sistemas hipertextuales
Sistemas compuestos: dan soporte a todas las tareas que se realizan en una unidad informativa.
Lenguaje de interrogacin: conjunto de rdenes, operadores y estructuras que, organizados segn unas
normas lgicas, permiten la consulta de fuentes y recursos de informacin electrnica.
Ecuacin: combinacin de estos elementos.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 21 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
Los operadores se pueden combinar entre s para crear las ecuaciones, respetando una serie de reglas
basadas en las prioridades entre operadores. Uso de parntesis.
Estrategia de la interrogacin
Exploracin: visualizacin de parte del contenido relevante de los documentos, para categorizarlos segn
perfiles
Se usa en entornos en los que el usuario no tiene una idea clara de la mejor tctica de bsqueda para su
problema.
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 22 de 23
www.haztefuncionario.com Material registrado. Prohibida su reproduccin.
Copia exclusiva de Jos Ignacio Mndez Yanes. Av de los Poblados 133, 7 - 3 - 28025 - Madrid - Tel. 917464968
TEMARIO-TICB-feb04 B3G2T09
Actualizado en febrero de 2004 Pgina 23 de 23