Trabajo realizado para el proyecto: Evaluacin de fuentes de informacin en relacin
con la bsqueda de informacin y la intervencin del referencista, en el rea de tecno- loga industrial (en ejecucin en CIME-CID). Universidad de Buenos Aires, Facultad de Filosofa y Letras, Instituto de Investigacio- nes Bibliotecolgicas. Departamento de Bibliotecologa y Ciencia de la Informacin. Instituto Nacional de Tecnologa Industrial, CIME-CID. Correo electrnico: pfalcato@abaconet.com.ar Artculo recibido: 04-10-99. Aceptado: 10-05-00. INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) p. 33-46 Universidad de Buenos Aires. Facultad de Filosofa y Letras. Instituto de Investigaciones Bibliotecolgicas (INIBI), ISSN: 1514-8327. GUAS PARA LA SELECCIN Y UTILIZACIN DE TRMINOS DE BSQUEDA EN BASES DE DATOS CON CAMPOS DE LENGUA NATURAL PEDRO FALCATO Resumen: Los campos que contienen lengua natural son de gran valor como puntos de acceso a los contenidos de las bases de datos. Sin embargo, los usua- rios de los servicios de informacin se encuentran con diversos problemas cuando intentan utilizarlos. Se elabor un esquema descriptivo de las acciones que pue- den realizarse durante un proceso de bsqueda de este tipo; se registraron tam- bin dificultades, desviaciones y carencias del proceso de seleccin y combina- cin de trminos tal como lo efectan los usuarios finales. Finalmente se formu- laron recomendaciones para la elaboracin de guas de ayuda. Palabras clave: Lengua natural; Seleccin de trminos de bsqueda; Combi- nacin de trminos de bsqueda; Ayudas; Usuarios. Abstract: Fields containing natural language terms are valuable as access points to databases contents. However, information services users have varied problems when trying to make use of them. A description scheme was developed considering the possible actions during a search process of this kind. Difficulties, deviations and faults of the terms selection and combination processes were recorded. Finally, recommendations were carried out in order to produce search aids. Keywords: Natural language; Search terms selection; Search terms combination; Helps; Users. Falcato / Guas para la seleccin y utilizacin de trminos ... INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 34 Introduccin La difusin del acceso a bases de datos por parte de los usuarios finales, tanto de manera local como remota, ha generado importantes novedades en los modos de acceso a la informacin. Desarrollar teoras y tcnicas que permitan gestionar informacin y co- nocimiento en ambientes saturados de informacin es, indudablemente, un de- safo caracterstico de nuestra poca. En este contexto, los campos que contienen lengua natural son de gran valor como puntos de acceso a los contenidos de las bases de datos. No es novedoso que la bsqueda en ttulos, resmenes, etc. es conveniente en muchos casos ya que, por ejemplo, posibilita ampliar la recuperacin cuando se desco- nocen las caractersticas del vocabulario controlado, un aspecto temtico no est representado por ste de una manera adecuada a las necesidades del caso, etc. A las bases bibliogrficas se han agregado las de texto completo y, en los ltimos tiempos, una gran variedad de recursos en Internet, detectables median- te motores de bsqueda que trabajan, fundamentalmente, operando sobre la len- gua natural presente en las pginas. Otro punto importante es que la mayora de las tcticas adaptadas a estas condiciones puede emplearse de modo iterativo dentro de una estrategia que abarque diversas bases o documentos. Para lograr una recuperacin satisfactoria en estas condiciones, la selec- cin y combinacin de trminos de bsqueda son etapas de fundamental impor- tancia. Sin embargo, muchos usuarios desconocen cmo aprovechar las posibi- lidades que se les presentan. Ciertas tcnicas que lo permiten pueden resultar dificultosas para ellos. En cambio otras estn al alcance ms o menos inmediato del pblico en general. En todo caso, el diseo de las ayudas juega un importan- te papel. Estas pueden estar presentes como una opcin de la interfaz, o tambin como archivos que contienen listas de consejos (search tips) o de dudas fre- cuentes (frequently asked questions o FAQs), etc. Por otro lado, desde el punto de vista de los pases que tienen su infraes- tructura de informacin en un nivel de desarrollo intermedio o bajo, es comn tener que enfrentarse con un reto muy distinto: la gestin en un ambiente informativamente pobre. No se dispone de todas las herramientas bibliogrfi- cas necesarias o es costoso acceder a ellas, etc. Y cuando se accede, con fre- cuencia los resultados se refieren a documentos que estn fuera del alcance inmediato. Tambin quedan excluidas publicaciones locales sin difusin inter- nacional. Se hace necesario entonces aprovechar al mximo los recursos dispo- nibles a nivel local, para lo cual conviene desarrollar la catalogacin analtica. En ella la indizacin basada en la lengua natural presente en ttulos, resmenes o notas de contenido, es muy til para la recuperacin y resulta complementaria de la que se realiza con vocabulario controlado. 35 Inclusive, en no pocas circunstancias, la escasez de personal y de recur- sos econmicos impiden realizar un anlisis temtico profundo de los docu- mentos. Esto es particularmente cierto cuando la complejidad y caractersticas multidisciplinarias del rea cubierta se asocian con la imposibilidad de contar con un equipo de indizadores especializados en cada uno de los temas. En estos casos, el empleo de la lengua natural permite generar herramientas tiles aun cuando no se puede ofrecer un servicio completo que incluya la utilizacin de un vocabulario controlado. Esta opcin, si bien ms limitada, es aplicable en tales situaciones porque no deben afrontarse los gastos relacionados con la asig- nacin de trminos, construccin de tesauros, etc. (Oard, 1997) En el Centro de Investigacin y Desarrollo de Mtodos y Tcnicas para Empresas Industriales, Divisin CIME Informacin y Documentacin (CIME- CID) se compila la base TEC, que contiene registros correspondientes a artcu- los seleccionados en publicaciones peridicas existentes en la Biblioteca. La indizacin de la misma se basa en los ttulos de dichos documentos, traducidos al espaol si estn redactados en otras lenguas y enriquecidos con expresiones aclaratorias cuando no representan adecuadamente el contenido. Se agregan en otro campo categoras temticas generales, para contextualizar los trminos. La cobertura es multidisciplinaria y no se dispone de un equipo de clasificadores especializados por reas. Tanto por medio de observaciones espontneas como de consultas, men- sajes y comentarios recibidos, se fueron detectando algunos problemas caracte- rsticos que deben enfrentar quienes realizan bsquedas en TEC. Casos anlo- gos se encontraron al orientar a usuarios de otras bases de datos con campos en lengua natural y de motores en Internet. A partir de lo antedicho se decidi desarrollar el presente trabajo, que tiene por objeto proponer orientaciones destinadas a quienes redactan guas para la seleccin y utilizacin de trminos de bsqueda. Estas, adems de inte- grarse a las interfaces, podran utilizarse como herramientas en cursos que se dictan a estudiantes de bibliotecologa o en el entrenamiento de usuarios. Metodologa Para hallar soluciones referidas a esta problemtica, se reunieron ele- mentos para conformar un modelo descriptivo de las acciones que pueden rea- lizarse durante un proceso de bsqueda en lengua natural. Se consider adecua- do adoptar una aproximacin cualitativa; se reuni y categoriz informacin sobre tipos y posibles causas de las dificultades para obtener una recuperacin adecuada. No se opt por el anlisis cuantitativo de estos datos, considerando que la oferta de elementos de ayuda se regira por la existencia y la naturaleza de las operaciones y problemas ms que por su nmero. Falcato / Guas para la seleccin y utilizacin de trminos ... INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 36 En primera instancia se revisaron antecedentes que corresponden a ayu- das ya implementadas (AltaVista, 1999; Carnegie Mellon University. Lycos, 1999; Northern Light Technology, 1999; Telecom Soluciones, 1999; Wired Digital, 1999; Yahoo, 1999). Fueron hechas adems 20 entrevistas semiestructuradas, tanto a usuarios finales como a bibliotecarios y otros profesionales dedicados a la realizacin de bsquedas. El material reunido en las entrevistas a las dos ltimas categoras, por su mayor claridad conceptual, se utiliz junto con los antecedentes biblio- grficos para generar un primer esquema de operaciones usuales. Este fue enri- quecido y afinado considerando los datos correspondientes a usuarios finales y las observaciones que se mencionan ms adelante. Se plantearon potenciales necesidades de informacin para que los en- trevistados esbozaran estrategias de bsqueda, explicando por qu tomaban las decisiones expresadas. Tambin se indag acerca del conocimiento general que cada uno tena acerca de los operadores usuales que pueden emplearse para las bsquedas en campos de lengua natural, as como de las formas de sintaxis ms frecuentes. En el caso de los usuarios finales no se plantearon los temas utilizando un vocabulario tcnico, sino que se presentaron de manera sencilla las consig- nas, y se utilizaron ejemplos y analogas apropiadas para aclarar sus alcances. Los problemas que se propusieron se seleccionaron para posibilitar la deteccin de elementos claves, tales como la utilizacin iterativa de tcticas y el refinamiento de bsquedas a partir del examen de resultados parciales, la supre- sin de palabras poco significativas (dentro de un determinado contexto) al redactar las expresiones de bsqueda, la tendencia a utilizar un vocabulario rico o limitado, el manejo de relaciones gnero-especie, etc. Asimismo se analizaron 50 observaciones de situaciones de bsqueda en CIME-CID, estudiando los objetivos registrados en los formularios de con- sulta que se emplean en el servicio de Referencia, las acciones llevadas a cabo, los comentarios expresados por los bibliotecarios o por los usuarios, las carac- tersticas de las fuentes de informacin utilizadas y finalmente los resultados. Resultados El esquema obtenido se expone a continuacin. Es necesario tener en cuenta que no todas las acciones enunciadas pueden llevarse a cabo en cual- quier sistema, ya que cada uno ofrece distintas posibilidades. Operadores usuales Se revis documentacin correspondiente a diversos sistemas. (AltaVista, 1999; Carnegie Mellon University. Lycos, 1999; Deharbe, 1999; Dialog 37 Interseccin de conjuntos de trminos Suma de conjuntos de trminos Diferencia de conjuntos de trminos Proximidad de trminos Frase exacta Parntesis Inclusin - exclusin Comodn Truncamiento Selecciona documentos que contienen ambos trmi- nos que se encuentran a los lados del operador . Selecciona documentos que contienen al menos uno de los trminos que se encuentran a los lados del operador. Excluye los documentos que contienen el trmino que se encuentra a continuacin del operador. Selecciona documentos donde los trminos que se encuentran a ambos lados del operador se encuen- tran cercanos uno del otro (adyacentes, con hasta un determinado nmero de palabras en el medio, etc.) Selecciona documentos en los que est presente la expresin compuesta, en el orden indicado. Indica niveles de precedencia en las operaciones. Indica que el trmino que sigue al operador debe estar presente (+) en los documentos seleccionados, o ausente (-) en los mismos. Se intercala en un trmino de bsqueda para indi- car que en esa posicin puede haber cualquier ca- rcter (o cadena de caracteres, segn el caso) Se ubica a continuacin de un fragmento de una palabra, para indicar que se buscan documentos que contengan trminos que comiencen con la raz ex- puesta, sin importar cual sea la terminacin. and & * or | + not and not ! ^ near ~ adj $ . (f) (g) [con ligeras variantes en su modo de accin]
( ) + - ? * % [con lige- ras variantes en su modo de accin] ? * $ Accin general Ejemplos de smbologa utilizada Operador Ejemplos de smbolos utilizados para representar operadores Falcato / Guas para la seleccin y utilizacin de trminos ... Corporation, 1998; Martnez et. al., 1999; Northern Light Technology, 1999; Telecom Soluciones, 1999; Wired Digital, 1999; Yahoo, 1999). Los operadores de inclusin pueden usarse para producir un efecto se- mejante a la interseccin de conjuntos. Los de exclusin, a la diferencia de conjuntos. Es posible lograr resultados bastante parecidos con los operadores de proximidad, por un lado, y las frases exactas por otro; ambos ubican los trmi- nos aislados en un contexto y pueden verse como formas ms exigentes de la interseccin de conjuntos, ya que se requiere que las palabras no slo estn presentes sino adems en determinada posicin relativa. INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 38 Los comodines y el truncamiento sustituyen la enumeracin de trminos emparentados ortogrficamente. En algunos sistemas se admite la presentacin de consultas redactadas como preguntas en lengua natural. Sin embargo, por el momento los resultados no siempre son satisfactorios. Acciones usuales Bsquedas de algunos documentos o fragmentos acerca de un tema (no exhaus- tivas) Seleccionar alguna palabra importante que represente, aunque sea de manera parcial, el tema; en lo posible debe ser poco frecuente fuera de ese contexto. Si el sistema lo admite, puede intentarse: Ingresar varias palabras sin indicar operadores especficos. Utilizar preguntas en lengua natural. Realimentacin de la bsqueda (si no se hall algn registro, documento o frag- mento que corresponda a lo esperado): Intentar con otra palabra (sinnimo, o trmino de significado ms gene- ral o ms especfico, segn las necesidades) Revisar los resultados para detectar nuevas pistas, trminos a emplear, etc. Revisar la ortografa de las palabras empleadas. Si luego de varios ensayos no se encuentra informacin, intentar con algunas de las acciones empleadas para bsquedas exhaustivas. Bsquedas temticas que intentan ser exhaustivas Determinar expresiones que describan el tema. Analizar las palabras presentes y sus relaciones de proximidad mutuas. Buscar sinnimos o cuasi-sinnimos (recordando incluir las variantes ortogrficas), as como trminos relacionados (aunque no se utilicen para nominar al tema en s; por ejemplo, pueden elegirse nombres que corres- pondan a aspectos ms especficos del mismo o asuntos muy frecuen- temente relacionados). Repetir los dos primeros pasos. Seleccionar un conjunto mnimo de trminos que representen todas las variantes consideradas. No es necesario incluir todas las palabras que conforman cada enunciacin: se prefieren aqullas que puedan estar menos representadas en registros que correspondan a temas diferentes, o sea menos ambiguas. 39 Descartar las palabras que aportan poco sentido en el contexto (por ejem- plo, la palabra Instituto en una base de datos sobre Institutos). Seleccionar races que representan varios trminos. Descartar (si se estima que disminuirn demasiado la precisin) las races que pueden referir a expresiones no relacionadas con el tema. Si es necesario, se las reemplaza por una enumeracin de trminos completos. Descartar races demasiado breves, ya que pueden provocar demoras y otros inconvenientes como la inclusin de trminos no deseados. Conectar las palabras que adquieren un sentido particular estando cerca de otras, por medio de operadores de proximidad o bien integrarlas en una frase. Efectuar una suma de conjuntos con cada grupo de sinnimos, cuasi- sinnimos o trminos relacionados, conformando clases. Asociar las diversas clases que deben estar presentes mediante intersec- cin de conjuntos, para restringir el resultado. Si hay relaciones de precedencia, utilizar los parntesis que correspondan. Si es posible, reducir la longitud de las expresiones usando parntesis, mediante la propiedad distributiva de los operadores. Si es necesario, restringir el resultado mediante resta de conjuntos; esta opcin debe evitarse cuanto sea posible, ya que puede llevar a la prdida de informacin relevante (quiz los trminos restados aparezcan en con- textos que no justifican excluir los registros que los contienen; por ejem- plo enumeraciones cualesquiera, comparaciones o incluso frases donde se aclara que los conceptos representados por ellos estn fuera del enfo- que del documento). Si se desea restringir mediante interseccin de conjuntos, pero no hay certeza de que los trminos que conforman esa clase estn siempre pre- sentes cuando se trata el tema, es conveniente no hacerlo salvo que el resultado sea demasiado extenso. En general es preferible revisar algu- nos registros ms y no perder informacin relevante. Realimentacin de la bsqueda: Estudiar si hay palabras que produjeron problemas (demasiado genera- les, demasiado especficas, polismicas, etc.) Si hay frases, revisar el espaciado, la puntuacin, etc. Revisar la ortografa Revisar los resultados para detectar nuevas pistas, trminos a emplear, etc. Si hay exceso de recuperacin : Estudiar si es factible reemplazar trminos de alcance general por otros ms especficos, o bien suprimirlos. Falcato / Guas para la seleccin y utilizacin de trminos ... INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 40 Estudiar si se puede acotar el resultado agregando relaciones de proxi- midad u otras restricciones. Si hay escasa recuperacin: Agregar sinnimos, trminos ms especficos o relacionados. Suprimir restricciones (operadores de proximidad, intersecciones o di- ferencias de conjuntos) Buscar palabras que representen temas ms generales. Bsquedas de documentos o fragmentos especficos, de los cuales se conoce parte del texto Emplear una expresin que figure en el texto. Puede ser una sola palabra poco frecuente, sobre todo si la base de datos es pequea; tambin una expresin compuesta mediante la interseccin de conjuntos, operadores de proximidad o una frase exacta. Discusin El paradigma bibliogrfico se basa en la certeza y el orden. Los proble- mas de los usuarios, en cambio, se caracterizan por la incertidumbre y la confu- sin (Kuhlthau, 1991). El autor de un texto expresa sus ideas mediante palabras que, volcadas a una base de datos o a un documento electrnico, pueden ser empleadas para la recuperacin. Esa expresin tiene caractersticas muy varia- das en cuanto a su estilo, vocabulario, e incluso a nivel ortogrfico (Brooks, 1998). El usuario, por su parte, formula una expresin de consulta con trminos que el sistema intenta aparear con los del texto. Sin embargo, de hecho, la rela- cin es simtrica slo en la superficie. La experiencia del usuario es fenomenolgicamente distinta ya que, salvo que est buscando un tem previa- mente identificado, intenta describir algo que no conoce; describe una grieta en su conocimiento y slo puede adivinar cmo debera ser el relleno de esa grieta. O bien apunta a un rea ms amplia que su tema de inters especfico, para intentar seleccionar luego lo que le parezca relevante dentro del conjunto obte- nido (Bates, 1996). Para ello puede decidirse por una estrategia heurstica, alta- mente interactiva, efectuando diversos intentos y revisando los resultados par- ciales (Marchionini, 1989), que pueden ser muy extensos. La lectura de hojeo, fundamental en una estrategia de estas caractersticas, minimiza la carga cognitiva, trasladndola al sistema perceptual. Esta caracterstica es atrayente para muchas personas porque los seres humanos normalmente buscan el cami- no de menor carga cognitiva (Yuan, 1997). Por su parte, los bibliotecarios que se dedican a la bsqueda de informacin con frecuencia deben tender a lograr una recuperacin exhaustiva; 41 con esto pueden ofrecerle al usuario un conjunto completo de tems para que seleccione los que desee y adems tenga un panorama de todo lo que est disponible. Los expertos utilizan de manera complementaria la lengua natural y los vocabularios controlados, procurando alcanzar un nivel ptimo de recupera- cin. Muchos usuarios finales, por su parte, ni conocen las caractersticas de estas herramientas ni estn predispuestos a estudiarlas. En tales situaciones las posibilidades que presentan los textos redactados en lengua natural pueden ser convenientes (Oard, 1997), ya que la variedad del lxico permite recuperar in- formacin con estrategias de bsqueda muy simples. Por otro lado, resulta evidente que es casi imposible obtener de esta manera una proporcin elevada de los tems potencialmente tiles, mientras no se desarrollen medios ms poderosos. En efecto, los usuarios suelen encontrar- se con dificultades cuando intentan formular expresiones de bsqueda comple- tas (Marchionini, 1989). Pero muchas veces slo necesitan conseguir unos po- cos documentos o fragmentos sobre un tema y se detienen en cuanto los encuen- tran. Esto quizs se relacione con los resultados de estudios como el realizado recientemente en la National Library of Medicine (Estados Unidos) para eva- luar el impacto de MEDLINE, que indican escasa realimentacin durante el desarrollo de las bsquedas para reajustar las estrategias (National Library of Medicine, 1997). La an escasa normalizacin de las interfaces y de los lenguajes de bs- queda produce tambin gran confusin entre los usuarios finales. Es muy co- mn observarlos intentando utilizar en un sistema estrategias o tcticas adapta- das a las caractersticas de otro. Las tcnicas ms empleadas por los usuarios son sencillas. Hay pocas personas que restringen adecuadamente empleando la interseccin de conjun- tos. Son todava menos las que emplean sinnimos y trminos relacionados que, reunidos, permitiran representar los conceptos de manera ms apropiada e incrementar la recuperacin (Sewell y Teitelbaum, 1986; Yuan, 1997). Segn Iivonen y Sonnenwald (1998), se ha utilizado generalmente para la eleccin de trminos de bsqueda un modelo de analoga con la traduccin, el cual no incentiva la bsqueda de nuevas palabras, sino el reemplazo de un vocablo por otro. Proponen uno que consideran mejor adaptado al comporta- miento de los especialistas en bsquedas: la reunin de expresiones diversas mediante la navegacin a travs de distintos discursos, entre ellos los conteni- dos de documentos, las prcticas de indizacin, las solicitudes de bsquedas de los clientes, los contenidos y estructuras de las bases de datos y las experiencias obtenidas en bsquedas previas. Como sea, en muchos casos es decisiva, ade- ms de la adecuacin temtica, la variedad de los trminos que se emplean. Hay que considerar tambin las variantes morfolgicas, por ejemplo: singulares, plu- rales, masculinos y femeninos (Bates, 1996). Falcato / Guas para la seleccin y utilizacin de trminos ... INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 42 Otra concepcin que puede resultar problemtica es la que establece una analoga entre la interaccin con un sistema automtico, por un lado, y una con- versacin por el otro. Esta apela al modelo mental que las personas tienen acer- ca del dilogo entre seres humanos, en el cual no es necesario enumerar todos los trminos relacionados con un determinado asunto, las diferencias morfolgicas y sintcticas se dan por sobreentendidas, etc. Los participantes de la conversacin, sin embargo, entienden de qu se est hablando. Los sistemas de computacin, en cambio, suelen manejarse con reglas mucho menos flexibles (Bates, 1996). En las estrategias planteadas por los usuarios finales, las operaciones de truncamiento son ms infrecuentes que las booleanas, y ms an las orientadas a la proximidad de trminos. Por otro lado, es comn que se utilicen frases (sin aadir operadores de ningn tipo) en sustitucin de palabras integradas en ecuaciones de bsqueda, aunque se trate de sistemas que no estn preparados para aceptarlas. Esto refle- ja un modelo mental muy pobremente definido acerca de las caractersticas de los sistemas que se emplean (Marchionini, 1989); tambin indica una preferen- cia por generar nombres para identificar textos combinando varias palabras en una expresin, as como por manifestar necesidades poniendo ms nfasis en el planteo de conceptos que en la riqueza del vocabulario; los trminos de bsque- da aislados se consideran representaciones poco confiables de esos conceptos (Collantes, 1995). Con respecto a las variantes morfolgicas, ortogrficas, etc., los usuarios tienden a suponer que la forma de una palabra que ellos introducen coincidir exactamente con las ocurrencias en la base de datos (National Library of Medicine, 1997) Las tcnicas sencillas empleadas por la mayora de los usuarios se vuel- ven inapropiadas cuando se trabaja con bases de datos de gran magnitud, hoy cada vez ms frecuentes. Los enormes conjuntos de resultados que pueden obtenerse mediante estrategias muy simples en un motor de bsqueda en Internet sirven como ejemplo (Zorn et.al., 1996). Ms an, muchas veces los trminos seleccionados aparecen en contextos totalmente diferentes al esperado. De lo expuesto hasta aqu se desprende la conveniencia de que algunas reglas provenientes del metaconocimiento de los especialistas en bsquedas (Connell, 1995) sean incorporadas a una lista de consejos u otra forma de ayuda accesible desde la interfaz. La mayor parte de los usuarios finales de los sistemas de informacin tiende a aprender slo lo necesario para efectuar bsquedas simples de manera razonablemente rpida. Supone que continuar instruyndose y desarrollando sus habilidades es innecesariamente trabajoso. Por otro lado, la gran cantidad de variantes en las reglas de sintaxis, modos de operacin, smbolos utilizados, etc., as como la elevada frecuencia de los cambios y actualizaciones, producen confusin y fortalecen la percepcin general de que no conviene emplear dema- siado tiempo en profundizar acerca de los mismos. 43 Con algunas pautas generales sobre el manejo del sistema, los usuarios pueden realizar bsquedas con cierto nivel de satisfaccin desde el comienzo. De hecho, algunas posibilidades de los sistemas slo en raras ocasiones son aprovechadas, salvo por los expertos. Una manera de difundir su existencia para, que se las utilice cuando sea necesario, es presentar los componentes b- sicos del sistema en un planteo inicial e introducir el resto posteriormente, cuando los usuarios ya pudieron trabajar con bsquedas reales (Yuan, 1997). Tomando como ejemplo los motores de bsqueda en Internet, stos en general dividen sus ayudas en una seccin para principiantes y otra para exper- tos. Es comn que cada una de esas secciones tenga relacin con una interfaz distinta. La primera presenta menos variedad de posibilidades en lo que con- cierne a comandos y operadores, siendo su uso relativamente sencillo; suele haber otra con caractersticas ms complejas. Sin embargo no siempre la interfaz avanzada es considerada preferible; de hecho, la documentacin de AltaVista recomienda no utilizarla salvo en casos especiales, que no identifica (AltaVista, 1999). Si el sistema permite ingresar consultas en forma de frases o preguntas en lengua natural, o bien introducir una serie de palabras sin especificar co- nexiones entre ellas, las secciones de ayuda bsica comienzan por plantear estas posibilidades como la primera opcin. La presentacin del resto de la ayuda en algunos casos se basa en una breve presentacin de los operadores y sus carac- tersticas. Al comienzo (o en los primeros niveles de acceso de las ayudas hipertextuales) se sita la explicacin de los temas ms importantes y generales, en especial los operadores bsicos. Otro enfoque se basa en la oferta de listas de consejos, que intentan responder a dudas y dificultades usuales sobre la sin- taxis de las expresiones de bsqueda y la seleccin de trminos. Hay diversas variantes (FAQs, search tips, etc.). Las listas de problemas usuales o FAQs son convenientes porque los usuarios, en su mayora, no estn interesados en las generalidades y aspectos tericos de los lenguajes de recuperacin, sino en ob- tener mejores resultados en casos concretos. Es prctico que pueda accederse a los tems de estas listas desde una tabla de contenido de modo hipertextual, y que tambin puedan ser ledos secuencialmente. En general, se debe avanzar hacia el diseo de interfaces que reduzcan la necesidad de confiar en la memo- ria y permitan aprender nuevos comandos y posibilidades a medida que se los necesite (Yuan, 1997). Las alternativas expuestas no son mutuamente excluyentes. El ofrecimiento de acceso a explicaciones que pueden servir como gua, sin embargo, no es una solucin para todos los casos; muchas personas casi no leen las ayudas, ni siquiera las ms simples y breves, sino que prueban los siste- mas introduciendo trminos y expresiones directamente, sin detenerse en anali- zar si existe una manera de obtener mejores resultados. Por eso en los sistemas estudiados es una prctica comn poner algn ejemplo breve y representativo Falcato / Guas para la seleccin y utilizacin de trminos ... INFORMACIN, CULTURA Y SOCIEDAD. No. 3 (2000) 44 en la interfaz, muy prximo al lugar donde deben escribirse los trminos de bsqueda. Si el sistema contiene poca informacin, no ser necesario presentar demasiadas tcnicas para la restriccin de resultados, ya que difcilmente sern empleadas. En bases de datos grandes, en cambio, hay que prever la posibilidad de tener que restringir grandes conjuntos. Habr que poner nfasis en las tcnicas que permiten afinar bsquedas a partir de los resultados previos. Con el fin de aumentar la recuperacin, adems de aconsejar que se empleen trminos alternativos, puede ser til ofrecer un diccionario de los que estn contenidos en el texto, o bien un tesauro, ya que an cuando no se utilicen los descriptores en la bsqueda, las palabras que los integran o aparecen en las relaciones pueden ser de mucha ayuda, sobre todo para usuarios avanzados. La presentacin de tesauros presenta el riesgo de incentivar el uso de expresiones compuestas en sistemas que no lo permiten. La posibilidad de ajustar la estrategia planteada basndose en los resul- tados parciales es tambin de crucial importancia. Como ya se ha expuesto, las bsquedas temticas avanzan desde una situacin de ignorancia hacia una de mayor conocimiento; la mayor parte de los elementos que permiten ese progre- so provienen del anlisis de los resultados parciales y de las modificaciones que se introducen en consecuencia. Esta actividad puede ser favorecida por la posi- bilidad de trabajar con conjuntos formados previamente para restringirlos, am- pliarlos o modificarlos de cualquier manera. Sostener la continuidad de este proceso exploratorio es una condicin para que muchas bsquedas puedan lle- gar a buen trmino (Kuhlthau, 1991). Conclusin La indizacin basada en la lengua natural ofrece mltiples posibilidades de recuperacin tanto a especialistas como a usuarios finales. Debido a sus ca- ractersticas puede ser empleada por estos ltimos en mltiples circunstancias, en especial cuando no se pretende efectuar bsquedas temticas exhaustivas, an cuando no tengan un entrenamiento especfico. Sin embargo, su aprovecha- miento presenta algunas dificultades. Quienes disean interfaces deben asumir la tarea de preparar ayudas que aporten de manera gil soluciones a los principales problemas que encuentran los usuarios, resistiendo la tendencia de estructurarlas con el objetivo de respon- der nicamente a planteos propios de especialistas en bsquedas. En efecto, son escasas las personas dispuestas a profundizar en los detalles de un lenguaje de recuperacin. Para atender a las necesidades de todos conviene poner ejemplos de uso de la interfaz en un lugar de fcil acceso, as como ofrecer una introduc- cin a las principales caractersticas del sistema, considerando en especial los 45 operadores bsicos. Para los usuarios que desean perfeccionar sus habilidades o deben solucionar problemas concretos, sern tiles las guas basadas en ac- ciones usuales y la documentacin sobre caractersticas avanzadas de la interfaz. Bibliografa AltaVista. 1999. AltaVista help <http://www.altavista.com/av/content/help.htm> [Consulta 29 setiembre 1999]. Bates, Marcia J. 1996. Human, database, and domain factors in content indexing and access to digital libraries and the Internet. <http://edfu.lis.uiuc.edu/ allerton/96/s1/bates.html> [Consulta: 15 setiembre 1999] En Allerton Institute (38 th : 1996: Allerton) <http://edfu.lis.uiuc.edu/allerton/96/> [Con- sulta: 15 setiembre 1999]. Brooks, Terrence A. 1998. Orthography as a fundamental impediment to online information retrieval. En Journal of the American Society for Information Science. Vol.49, no. 8, 731741. Carnegie Mellon University. Lycos. 1999. Lycos help. <http://www.lycos.com/help/> [Consulta 29 setiembre 1999]. Collantes, Lourdes Y. 1995. Degree of agreement in naming objects and concepts for information retrieval. En Journal of the American Society for Information Science. Vol. 46, no. 2, 116-132. Connell, Tschera Harkness. 1995. Subject searching in online catalogs: metaknowledge used by experienced searchers. En Journal of the American Society for Information Science. Vol. 46, no. 7, 506-518. Deharbe, Hiplito. 1999. Estrategias de bsqueda por texto secuencial (texto libre). En Comisin Nacional de Energa Atmica. Centro de Informacin CAC. Manual para instructores de Winisis. Buenos Aires: CNEA. p. 146-155. Dialog Corporation. 1998. Search basics using DialogWeb. Mountain View: Dialog Corporation. Pag. var. Iivonen, Mirja y Diane H. Sonnenwald. 1998. From translation to navigation of different discourses: a model of search serm selection during the pre-online stage of the search process. En Journal of the American Society for Information Science. Vol.49, no. 4, 312326. Kuhlthau, Carol C. 1991. Inside the search process: information seeking from the users perspective. En Journal of the American Society for Information Science. Vol.42, no. 5, 361-371. Falcato / Guas para la seleccin y utilizacin de trminos ...