Professional Documents
Culture Documents
Tra
Traba
bajo
jo re
reci
cibi
bido
do el
el 15
15
de
de noviembre
noviembre
de
de 2001
2001
k
k
Tra
Traba
bajo
jo
acep
acepta
tado
do el
el 17
17
de
enero
de
de enero de 2002
2002
RESUMEN
Los autores ofrecen un panorama de las orientaciones actuales en la investigacin para tratar el contenido informativo documental, labor analtica muy
afectada por el impacto de las nuevas tecnologas. En consecuencia, el mtodo expositivo adoptado busca abordar cuatro campos de investigacin analtica: a) la evolucin y las ms recientes vas investigadoras en los tres grandes
modelos de anlisis documental de contenido, con especial atencin tanto a
la representacin probabilstica y vectorial en el modelo estadstico, como a la
inteligencia artificial y las redes neuronales en el cognitivo; b) la representacin de la informacin a travs de las transformaciones experimentadas por
los tesauros, hasta derivar en los mapas conceptuales; c) las alteraciones impuestas por la Sociedad de la Informacin a la organizacin del conocimiento
y, que por ende se proyectan en los lenguajes de clasificacin, en plena evolucin, y d) el anlisis de las imgenes, en auge en la Era de la Informacin,
como un nuevo discurso textual que exige un anlisis diferente.
Pa la bras Cla ve: An li sis D o cu men tal, R e cu pe ra cin de Informacin, Or ga ni za cin del
Co no ci mien to, Lin gs ti ca D o cu men tal, Len gua jes de Clasificacin.
ABSTRACT
The authors offer a view of the current orientations in the investigation dealing
with documental informative content, an analytic work greatly influenced by
the impact of new technologies. Consequently, the expositive method adopted
tries to approach four fields of analytic investigation: a) The evolution and the
INTRODUCCIN
esde que las computadoras se aplicaron a la gestin y tratamiento de la informacin se observ que se abran numerosas alternativas para la construccin y manejo de las herramientas tcnicas que sirven para ordenar, clasificar y representar la informacin. Precisamente las investigaciones computacionales impulsaron
desde los aos setenta la bsqueda de modelos formales, y como consecuencia la
aparicin de unos modelos tericos que han buscado convertirse en paradigmas de
los sistemas de recuperacin de informacin automticos. Los modelos conjuntan,
pues, teora y prctica y pueden enfocarse desde una perspectiva mltiple,1 cuyos
principios y tendencias vamos a revisar aqu.
MODELOS LINGSTICOS
En el contexto de la comunicacin humana, los discursos en los que emitimos los
mensajes presentan la estructura propia del lenguaje natural en el que se realizan. Por
ello el objetivo de los modelos lingsticos consiste en eliminar la ambigedad de las
palabras filtrndolas a travs de un procesamiento a distintos niveles para tratar de
comprender el significado de los documentos. Esos niveles son el morfolgico-lxico; el sintctico; el semntico, y el pragmtico. Estos modelos han tenido un largo desarrollo y han generado corrientes tericas y aplicativas de conocida aceptacin:
v Lingstica o Ciencia del texto: Propuesta por Van Dijk, considera que los textos
presentan un triple nivel estructural: microestructura, macroestructura, y superestructura. Operativamente, el texto es sustituido por los enunciados de las
macroproposiciones que expresan su macroestructura global y las macroestructuras parciales. Sirve para reconocer (comprender), analizar (identificar las
1
Los modelos proporcionan mecanismos de recuperacin, pero atienden tambin a la forma en que la
informacin debe formularse para que se adapte a los mecanismos de bsqueda, as , K. Sparck Jones.- Some thoughts on classification for retrieval, en Journal of Documentation, 1970, 26: 89-101. D.
Ellis.- A behavioral model for Information Retrieval system design, en Journal of Information Science,
1989, 15: 237-247. , P. Ingwersen. - Information Retrieval Interaction. London: Taylor Graham: 1992.
3
4
5
6
T. A. van Dijk.- La ciencia del texto. Un enfoque interdisciplinario. Barcelona: Paids, 1983. Sus teoras se
describen relacionadas con el anlisis de contenido documental en Jos A. Moreiro Gonzlez. Aplicacin de las Ciencias del texto al resumen documental. Madrid: Universidad Carlos III de Madrid - Boletn Oficial del Estado, 1993.
T. A. van Dijk.-Texto y Contexto. (Semntica y pragmtica del discurso). Madrid: Ctedra, 1982.
D. Rumelhart. - Schemata: the building blocks of cognition, en R. Spiro(ed).- Theoretical issues in reading comprehension: perspectives from cognitive psychology, linguistics, artificial intelligence and education. Hillsdale: Erlbaum, 1985: 75-92. M. Minsky. - A framework for representing knowledge, en P. Winston (ed).- The
psychology of computer vision. New York: McGraw-Hill, 1975: 217-228.
A. L. Brown.- Metacognitive development and reading, en R. Spiro (ed).- Theoretical issues in reading
comprehension: perspectives from cognitive psychology, linguistics, artificial intelligence and education. Hillsdale:
Erlbaum, 1985: 455-474.
C.J. Fillmore.- Em favor do caso, en , L.P. Lobato (ed.).- A semntica da Lingstica Moderna: o lxico. Ro
de Janeiro: Livraria Alves, ...: 277-365. Buscando la produccin de analizadores automticos lo utiliza A. Garsa Gutirrez.- Procedimientos de Anlisis Documental Automtico. Estudio de caso. Sevilla. Junta de Andaluca, Consejera de Cultura, 1996.
Se puede consultar una lista de palabras vacas para el idioma ingls y apreciar la categora gramatical que suelen tener en Frakes, W., Prieto-Daz, R, y Fox, C.- DARE: Domain Analysis and Reuse
Environment, en Annals of Software Engineering, 1998, 5: 125-141.
Frakes, W y Baeza-Yates, R.- Information Retrieval: Data structures and algorithms. Upper Saddle River:
Prentice-Hall: 1992. Existen diferentes algoritmos de stemming dependiendo del modo en el que
trate los afijos. Los algoritmos de eliminacin de afijos extraen los sufijos y prefijos de trminos
conservando slo la raz. Los stemmers utilizan la frecuencia de secuencias de letras en el cuerpo de
un texto. Por ejemplo, el mtodo n-grams une trminos basndose en el nmero de n-grams (grupos de letras) que comparten dichos trminos.
MODELOS ESTADSTICOS
La representacin probabilstica
Dado que la mayora de los sistemas de recuperacin de informacin trabajan
con lenguaje natural, producen cierta imprecisin a la hora de acertar con aquellos
documentos que son relevantes para una peticin concreta. Para evitarlo Robertson
y Sparck Jones se convencieron en 1976 de que era necesario establecer un orden
decreciente de importancia en los documentos recuperados tras efectuarse esa demanda, e iniciarse as los mtodos de representacin probabilstica.10
Su formulacin parte de la idea bsica de calcular la distribucin y el peso de los
trminos que intervienen en una consulta documental. Cuando un usuario plantea
una demanda pretende obtener el conjunto de documentos de respuesta ideal, aquel
formado exclusivamente por los documentos que son relevantes a su peticin. De
tal modo que el proceso de recuperacin se centra en especificar las propiedades que
debe satisfacer ese conjunto de respuesta ideal, por lo que hay que tantearlas. Este es
el objeto de un primer acercamiento efectuado por va probabilstica. El usuario valorara entonces cules de los documentos de la primera seleccin son relevantes y
cules no tienen inters para l. La informacin es pasada al sistema, que en repeticiones sucesivas del proceso refina la bsqueda y se aproxima al conjunto ideal. Se
intenta estimar si hecha una consulta q y habiendo un documento candidato d, existe
la probabilidad de que el usuario juzgue que el documento d es relevante.
Estas son las tcnicas probabilsticas ms frecuentes que se aplican a la extraccin
de trminos en la indizacin automtica, as como a la organizacin y asociacin
9
No vamos a profundizar ahora en este aspecto, ya que sera un tema de desarrollo monogrfico. Ya
que tendramos que partir de otra introduccin terica.
10 S. E. Robertson y K. Sparck Jones.- Relevance Weighting of Search Terms, en Journal of the American Society for Information Science, 1976, 27, 3.
forma recursiva para comprobar si x se puede clasificar por alguna subcategora de si.
Si c no tiene subcategoras o si d(x, p i, c) no tiene un nico mnimo entones
el procedimiento de clasificacin se detiene porque no es posible realizar
una clasificacin ms fina con los prototipos dados.
Los sistemas expertos
Los sistemas expertos resuelven problemas utilizando una representacin simblica del conocimiento humano. Esta representacin ha de ser explcita, y generar
una capacidad de razonamiento independiente de la aplicacin especfica. Los sistemas basados en conocimiento utilizan sistemas expertos para resolver problemas.
Basan su rendimiento en la cantidad y calidad del conocimiento de un dominio especfico. Se les exige adems poder explicar sus conclusiones y el proceso de razonamiento, y tener un alto rendimiento en un dominio especfico. Deben usar la heurstica frente a los modelos matemticos y funcionar desde inferencias simblicas, y no
desde algoritmos numricos. Los componentes bsicos de estos sistemas son:
v Base de conocimiento: representacin del conocimiento de un dominio.
v Mquina de inferencia: proceso de razonamiento a partir de los datos aprovechando el conocimiento representado en la base.
v Memoria de trabajo: lugar de almacenamiento de los datos de entrada y de las
conclusiones intermedias a las que se llega durante el proceso de razonamiento.
v Interfaz de usuario: entrada y salida del usuario al sistema, incorporando mecanismos interrogativos y explicativos.
v Interfaz de adquisicin: mecanismos para automatizar el aprendizaje y para
facilitar la adquisicin y el depuramiento interactivo.
estas dos caractersticas hacen pensar en los mapas conceptuales como candidato
ideal para ponerlo en prctica.
37 Cit. J. Feather. The Information Society. 2nd edition. London: Library Association Publishing Ltd.,
1998.
38 La Recherche Terminologique en Traduction: Pour une approche Hipertextuelle. Meta, 1997,
XIII,4. Cit. M. Pinto Tratamiento de los Contenidos en la Sociedad de la Informacin. En: La Sociedad de la Informacin. Madrid: Editorial Centro de Estudios Ramn Areces SA, 1999, 267-288.
39 G. Charton. Reperage de linformation sur Internet: Nouveaux utils, approches bibliotheconomiques et microstructures. En: CDI virtuel: utilisation des rseaux pour lacces la communication. Stage national DISTNB/Sousdirection des Technologies Nouvelles CRDP de Reims, 29 Avril 1997. Pars: Centre de
Calcul, Recherche et Rseaux Jussieu, URFIST, 20 de junio 1999 [ Consulta 22 de marzo de 2001].
40 P. Fayard. Exceso de informacin o ceguera estratgica? Consideraciones sobre la Inteligencia y
el Conocimiento. Telos, (1996), 44 : 11-14.
41 El entorno cambiante de la informacin. Madrid: Tecnos, 1981.
a su eficacia en la representacin del conocimiento y su recuperacin: los tres procesos indicados fomentan la inestabilidad, as como tambin imposibilitan una prediccin aceptable. La solidez de las predicciones en la programacin de los sistemas de
recuperacin de informacin se basaba en la firmeza de las disciplinas, una firmeza
que ni la indizacin automatizada ni los hiperenlaces les ha devuelto.61 Ha sido D.
W. Langridge quien mejor ha explicado el desfase entre la nueva creacin del conocimiento y su organizacin por un lado, y la clasificacin por otro.62 En su opinin
en el nuevo contexto intelectual las clases se basan en el inters de la investigacin conocimiento, y no en su acoplamiento a las formas disciplinarias del conocimiento. En consecuencia, distingue entre las formas de conocer o disciplinas y los objetos de conocimiento o fenmenos.
Por definicin una disciplina discrimina del saber la parte que enuncia y agrupa,
esto es, se comporta como un sistema discreto de organizacin del conocimiento. La
clasificacin, luego, jerarquiza las disciplinas, por lo que consecuentemente la informacin de un fenmeno estar subordinada en su ordenacin a la disciplina o subdisciplina desde la que se haya abordado,63 proporcionar una clasificacin de aspectos, que
dispersa la materia o informacin de un fenmeno en varias disciplinas. Este tipo de
clasificacin posee, empero, formas de reaccin frente a la transversalidad: realizar
una divisin de reas de conocimiento dentro de los fenmenos, las facetas, y luego
subordinar los fenmenos a las disciplinas desde las que pueden ser analizados.
Algunos lenguajes de clasificacin han tendido, pues, hacia una teora de la clasificacin facetada analtica, fundamentada en el mtodo de clasificacin del Racionalismo.64 La tendencia, sin embargo, no ha obtenido los resultados apetecidos de
eficacia y eficiencia en la recuperacin de informacin, a tenor de la forma de creacin de conocimiento propia de la sociedad de informacin, por cuanto la moderna
epistemologa se desplaza desde unos planteamientos positivistas a otros ms interpretativos y neopragmticos. Es, por tanto, mucho ms til en la clasificacin el empleo de una combinacin de mtodos de clasificacin, a saber:
v Racionalismo, basado en las divisiones lgicas.
v Empiricismo, a partir de anlisis estadsticos.
v Historicismo, por clasificar considerando los desarrollos.
61 Cit. N. J. Williamson. An Interdisciplinary world and Discipline Based Classification. Structures and
relations in knowledge organization: Proceedings for the Fifth International ISKO Conference, 25-28 August. Ergon Verl, 1998, Lillie France; ed. Hadi [ et al.]: Wrzburg. Advances in knowledge Organization, 1998, 6.
62 D. W. Langridge. Classification, its kinds, systems, elements, and applications. London [etc.]: Bowker Saur,
1992.
63 Slida argumentacin sobre los desfases de la clasificacin tradicional por parte de J. Mills & V.
Broughton. Bliss Bibliographic Classification. Second Edition. Introduction and Auxiliary Schedules. London:
Butterworths, 1977. Pese a su antigedad mantiene la lcida vigencia de un anlisis muy coherente.
64 Presenta un elaborado cuadro de los diferentes mtodos de clasificacin fundamentales B. Hjrland. Theory and Metatheory of Information Science. A New Interpretation. Journal of Documentation, 1998, 54, 5 : 606-621, en p. 612.
En este nuevo contexto, siguiendo las consideraciones de C. Beghtol69, la clasificacin debe atender tres retos:
v Otorgarle una nueva funcin a las disciplinas, como principio prioritario estructural en la clasificacin, dentro de la epistemologa pragmtica.
Re
v conocer la distincin entre la ficcin y no ficcin, como principio secundario
estructural en la clasificacin.
Lo
v grar que las tcnicas de recuperacin de informacin respondan de la forma ms apropiada a una interrogacin online sobre documentos electrnicos.
B. Hjrland y H. Albrechtsen70 han realizado un profundo anlisis sobre las implicaciones de estos tres retos, he aqu sus conclusiones:
1 En la nueva epistemologa pragmtica, la clasificacin no es descriptiva y neutral
respecto a la definicin y organizacin de las disciplinas y las comunidades discursi vas, sino que se transforma en un instrumento del constructivismo social en la generacin del conocimiento. La ciencia no es un simple reflejo de la realidad, sino
una institucin social que manifiesta una ideologa en la investigacin del entorno. La clasificacin consiste, entonces, en evaluar los valores, metas y resultados
de hacer ciencia en un determinado sentido. La investigacin en la clasificacin
tiende actualmente a adoptar una posicin metodolgica de realismo pragmtico:
realismo, cuando la clasificacin le concede prioridad al fundamento, es decir a los
procesos; pragmatismo, cuando la clasificacin atiende a la aplicacin: En ambas
dimensiones de la clasificacin, la fundamental y la aplicada, el referente comn
es el orden natural, definido por C. Beghtol.71
2 Epistemolgicamente, tiene perfecto sentido la distincin entre ficcin, para referirse a toda la informacin sobre planteamientos cientficos, respecto de la no ficcin, en referencia a toda la informacin sobre tcnica aplicada. En los sistemas
electrnicos modernos de informacin, donde la polirrepresentacin es la constante, esta divisin es muy til.
3 En los actuales sistemas de recuperacin online se plantea la disyuntiva de si la informacin debe ser extractada a partir de los documentos o si los documentos online deben permanecer como unidades documentarias. Los semilogos J. Kristeva
primero, M .M. Bakhtin despus,72 concibieron el texto como un mosaico, un trasunto de otros varios textos a los que est referido. El texto se compone de unas
unidades capaces de ser integradas en otros textos, premisa que ha sido amplia y
profundamente estudiada en el anlisis documental de contenido. La investigacin en clasificacin tiende a desarrollar una mejor comprensin de los diferentes
69 Knowledge Domains: Multidisciplinary and Bibliographic Classification Systems. Knowledge Organization, 1998, 25, 1-2 : 1-9.
70 An Analysis of Some Trends in Classification Researh. Knowledge Organization, 1999, 26, 3 : 131-139.
71 Knowledge Domains op. cit. p. 2.
72 Speech genres and other late essays. Ed. by C. Emerson & M. Holmquist. Austin: University of Texas Press,
1986.
ampliamente analizados por Robledano Arillo.86 Un repaso al estado de la cuestin acredita que en el momento presente y en un futuro prximo, la inteligencia
artificial debe recurrir a las tcnicas de representacin normalizada de conceptos
y al contenido icnico en los lenguajes documentales, pero con un claro sesgo hacia la semiologa de la imagen.
Es evidente que el desarrollo de la recuperacin de imgenes, dentro de la recuperacin de informacin, sera ms efectivo si se elaborasen investigaciones que integraran ambas tendencias, pero no existe una clara determinacin en esta va metodolgica. Esto explica que la recuperacin de imgenes siga dos sistemas:
Permiten una recuperacin mediante consultas visuales y lingsticas, utilizando tres estrategias:89 un ojeo de imgenes a partir de categoras temticas; consultas
89 Han sido tipificadas y descritas por C. Olivia Frost et al. Research on Human centered Design
and Evaluation of Multimode Image Retrieval. En: Fourth Delos Workshop: Image Indexing and Retrieval, San Miniato, Pisa, Italy, 28-30 August, 1997, ERCIM Workshop Proceedings n 97- W004. Disponible en Internet http://www.ercim.org/publication/ws-proceedings/DELOS4/frost.pdf [consulta 24 de
abril 2001].
Modelo presente en los sistemas WebSEEK, Visual SEEK y Web Chip,90 dirigidos a imgenes tomadas de la red. El mtodo analtico consiste en extraer caracteres
visuales por histogramas y regiones de color, para luego analizar el texto anejo a la
imagen mediante tcnicas de indizacin automatizada contra categoras temticas
elaboradas por indizacin humana.
Todos estos modelos, sin embargo, adolecen de un mismo inconveniente: la escasa insistencia en una investigacin ms profunda de las necesidades de los usuarios para la consecucin de unas estrategias de bsqueda ms pertinentes, as como
una escasa evaluacin de los sistemas de recuperacin de imgenes desde la perspectiva del usuario.
90 Segn exponen Shih Fu Chang et al. Finding Images/Video in Large Archives. Columbias Content Based Visual Query Project. D Lib Magazine, February, 1997. Disponble en Internet
http://mirrored.ukoln.ac.uk/lis-journals/dlib/dlib/dlib/february97/columbia /02chang.html.
Identifica los planos dentro de las secuencias de video mediante parmetros formales capaces de detectar cambios de plano.
Anlisis de movimiento de cmara y objetos que componen la imagen
Permite segmentar planos de larga duracin en unidades menores y ms homogneas, por lo que es muy til para identificar los fotogramas ms representativos.
Identificacin de los valores de encuadre y del tipo de objetivo utilizado
91 Registro de resultados concretos, en este caso, hallamos en R. K. Srhari. Automatic Indexing and
Content Based Retrieval of Captioned Images. Computer, (September 1995) 28, 9 : 49-56; tambin
en N. C. Rowe. Precise and Efficient Retrieval of Captioned Images: The MARIE Project. Library
Trends, (Feb. 1999) 48, 2 : 475-495.
92 Ofrecen un estado de la cuestin M. J. Witbrock & A. G. Hamptmann. Speech Recognition for a
Digital Video Library. Journal of the American Society for Information Science (May 1998) 49 , 7 : 619-632;
Ph. Aigrain & H. Zhang & P. Dragutin. Content Based Representation and Retrieval of Visual
Media: A State of the Art Review, Multimedia Tools and Applications, 1996, 3 : 179-202; D. P.
Huijmans & A. W. M. Semeulders (eds.). Visual Information and information Systems. Third international
conference VISUAL 99 Amsterdam, The Netherlands, June 2-4 1999 Proceedings.Berlin [etc]: Springer,
1999.
Trans
cripcin del discurso oral, si bien este discurso debe ser suficientemen
te extenso y explcito del contenido. Es el elemento que ms resultados est
proporcionando en la investigacin, como demuestra el proyecto Informedia,93 donde el usuario puede utilizar consultas visuales y textuales.
CONCLUSIONES
La exposicin realizada a lo largo del presente artculo nos permite pergear los
siguientes como los hitos ms reseables de nuestra argumentacin:
1. En la sociedad informacional el conocimiento se genera, comunica y representa
de modo muy distinto a la jerarquizacin taxonmica que organiz el conocimiento y clasific las ciencias desde el siglo XIX, modelo sobre el que se disearon los primeros lenguajes de clasificacin.
2. Estos lenguajes de clasificacin, pues, deben responder a dos interrogantes: la eficacia en incorporar la conducta y el contexto cultural del usuario en los sistemas
de informacin; plantear y definir qu es materia en el mensaje informativo del hiperdocumento.
3. Las ciencias protagonizan una vigorosa y doble orientacin evolutiva hacia la especializacin, pero tambin hacia la transversalidad. Los nuevos fenmenos de
interdisciplinariedad, multidisciplinariedad y pluridisciplinariedad afectan la capacidad organizativa de los sistemas de clasificacin.
4. La clasificacin debe adoptar una flexibilidad condicionada por el constructivismo
social, la pujanza del anlisis de contenido y los estudios de funcionalidad de los
sistemas de recuperacin de informacin.
5. La clasificacin, pues, tiene planteados tres contenciosos en la sociedad informacional: debe transformarse en un instrumento del constructivismo social; debe
insistir en la diferencia entre ficcin (informacin cientfica) y noficcin (tcnica
aplicada), y debe considerar el documento electrnico como unidad documentaria,
esto es, un mosaico de mensajes.
6. Las vas resolutivas apuntadas se dirigen hacia: el uso de los lenguajes de clasificacin existentes, con innovaciones de adaptacin al nuevo entorno; el rediseo de
los lenguajes de clasificacin existentes, y la elaboracin de nuevos lenguajes de
clasificacin.
93 Describen M. J. Witbrock & A. G. Hamptmann, op. cit.
BIBLIOGRAFA.
Ph. Aigrain ; H. Zhang ; P. Dragutin. Content Based Representation and
Retrieval of Visual Media: A State of the Art Review, Multimedia
Tools and Applications, 3, 1996, p. 179-202.
H. Albrechtsen ; B. Hjrland. Information Seeking and Knowledge organization. Knowledge Organization, 24, n 3, 1997, p. 135-6.
M. M. Bakhtin. Speech genres and other late essays. Ed. By C. Emerson & M.
Holmquist. Austin: University of Texas Press, 1986.
R. Barglow. The Crisis of the Self in the Age of Information: Computers, Dolphins
and Dreams. London: Routledge, 1994.
A. Bayarri. La CDU en el contexto de las bases de datos documentales: indizacin automtica con descriptores virtuales, asignados a partir del contenido. Desarrollo de
un prototipo en el sistema de micro ISIS de UNESCO. Madrid. CINDOC, 1996.
C. Beghtol. General Classification Systems: Structural Principles for Multidisciplinary Specification. Structures and relations in knowledge organization: Proceedings for the Fifth International ISKO Conference, 25-29 August
Ergon Verl, 1998, Lille France; ed. By Hadi [ et al.]: Wrzburg,
1998.
. Knowledge Domains: Multidisciplinary and Bibliographic Classification Systems. Knowledge Organization, 25, n 1-2, 1998, p. 1-9.
T. Bray. RDF and Metadata. XML.co. June, 1998. Disponible en Internet
http://www.xml.com/xml/pub/98/06/rdf.htm [Consulta 19 abril 2001].
B. Calenge. Les politiques dacquisisition: constituer une collection dans une bibliothque. Pars: Circle de la Librairie, 1994.