You are on page 1of 38

Modelos tericos y elementos funcionales para el

anlisis de contenido documental:


definicin y tendencias
JOS ANTONIO MOREIRO GONZLEZ
Departamento de Biblioteconoma y Documentacin
Universidad Carlos III, Madrid, Espaa
E-mail: jamore@bib.uc3m.es

MIGUEL NGEL MARZAL GARCA-QUISMONDO


Departamento de Biblioteconoma y Documentacin
Universidad Carlos III, Madrid, Espaa
E-mail: mmarzal@bib.uc3m.es

Tra
Traba
bajo
jo re
reci
cibi
bido
do el
el 15
15
de
de noviembre
noviembre
de
de 2001
2001

k
k
Tra
Traba
bajo
jo
acep
acepta
tado
do el
el 17
17
de
enero
de
de enero de 2002
2002

RESUMEN
Los autores ofrecen un panorama de las orientaciones actuales en la investigacin para tratar el contenido informativo documental, labor analtica muy
afectada por el impacto de las nuevas tecnologas. En consecuencia, el mtodo expositivo adoptado busca abordar cuatro campos de investigacin analtica: a) la evolucin y las ms recientes vas investigadoras en los tres grandes
modelos de anlisis documental de contenido, con especial atencin tanto a
la representacin probabilstica y vectorial en el modelo estadstico, como a la
inteligencia artificial y las redes neuronales en el cognitivo; b) la representacin de la informacin a travs de las transformaciones experimentadas por
los tesauros, hasta derivar en los mapas conceptuales; c) las alteraciones impuestas por la Sociedad de la Informacin a la organizacin del conocimiento
y, que por ende se proyectan en los lenguajes de clasificacin, en plena evolucin, y d) el anlisis de las imgenes, en auge en la Era de la Informacin,
como un nuevo discurso textual que exige un anlisis diferente.
Pa la bras Cla ve: An li sis D o cu men tal, R e cu pe ra cin de Informacin, Or ga ni za cin del
Co no ci mien to, Lin gs ti ca D o cu men tal, Len gua jes de Clasificacin.

MODELOS TERICOS Y ELEMENTOS FUNCIONALES PARA EL ANLISIS DE


CONTENIDO DOCUMENTAL: DEFINICIN Y TENDENCIAS

JOS ANTONIO MOREIRO-GONZLEZ


MIGUEL NGEL MARZAL-GARCA-QUISMONDO

ABSTRACT
The authors offer a view of the current orientations in the investigation dealing
with documental informative content, an analytic work greatly influenced by
the impact of new technologies. Consequently, the expositive method adopted
tries to approach four fields of analytic investigation: a) The evolution and the

126 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


most recent lines of investigation in the three big models of documental
analysis, with special attention to the probabilistic and vectorial representation in the statistical pattern, and to A.I. and neural nets in the cognitive. b) The representation of information, from the transformations experienced in thesauri to conceptual maps. c) The changes imposed by the
Information Society in the organisation of knowledge and their influence
in the languages of classification, in full evolution nowadays. d) The
analysis of images, a new textual discourse of growing importance in the
Age of Information, that demands a new approach.
Key Words: Do cu ment Analysis, In for ma tion R e trie val, Knowledge Or ga ni za tion,
Do cu men tal Lin guis tics, Clas si fi ca tion Languajes.

INTRODUCCIN

esde que las computadoras se aplicaron a la gestin y tratamiento de la informacin se observ que se abran numerosas alternativas para la construccin y manejo de las herramientas tcnicas que sirven para ordenar, clasificar y representar la informacin. Precisamente las investigaciones computacionales impulsaron
desde los aos setenta la bsqueda de modelos formales, y como consecuencia la
aparicin de unos modelos tericos que han buscado convertirse en paradigmas de
los sistemas de recuperacin de informacin automticos. Los modelos conjuntan,
pues, teora y prctica y pueden enfocarse desde una perspectiva mltiple,1 cuyos
principios y tendencias vamos a revisar aqu.

MODELOS LINGSTICOS
En el contexto de la comunicacin humana, los discursos en los que emitimos los
mensajes presentan la estructura propia del lenguaje natural en el que se realizan. Por
ello el objetivo de los modelos lingsticos consiste en eliminar la ambigedad de las
palabras filtrndolas a travs de un procesamiento a distintos niveles para tratar de
comprender el significado de los documentos. Esos niveles son el morfolgico-lxico; el sintctico; el semntico, y el pragmtico. Estos modelos han tenido un largo desarrollo y han generado corrientes tericas y aplicativas de conocida aceptacin:
v Lingstica o Ciencia del texto: Propuesta por Van Dijk, considera que los textos
presentan un triple nivel estructural: microestructura, macroestructura, y superestructura. Operativamente, el texto es sustituido por los enunciados de las
macroproposiciones que expresan su macroestructura global y las macroestructuras parciales. Sirve para reconocer (comprender), analizar (identificar las
1

Los modelos proporcionan mecanismos de recuperacin, pero atienden tambin a la forma en que la
informacin debe formularse para que se adapte a los mecanismos de bsqueda, as , K. Sparck Jones.- Some thoughts on classification for retrieval, en Journal of Documentation, 1970, 26: 89-101. D.
Ellis.- A behavioral model for Information Retrieval system design, en Journal of Information Science,
1989, 15: 237-247. , P. Ingwersen. - Information Retrieval Interaction. London: Taylor Graham: 1992.

Modelos tericos y elementos funcionales para el anlisis de contenido... 127

estructuras significativas) y representar la informacin de los discursos.2 Para


hacer esto se precisa del funcionamiento concomitante de un modelo estratgico o situacional, que aborda el anlisis desde los aspectos pragmticos e incluye informacin acerca de las situaciones, intenciones, objetivos, fines y
contexto en que los documentos se generan y se tratan.3
v Modelo de esquemas: propuesto a partir de la psicologa cognitiva por Minsky y
Rumelhart. Para entender una idea hay que comprender cada uno de los elementos que la integran. Los conceptos se consideran segn sea su posicin en
los esquemas del conocimiento. Son de una complejidad enorme:4
1. Esquemas de conocimiento
1.1. Experiencias anteriores (actos, acontecimientos, causas,
fines) = Enlaces pragmticos.
1.2. Conocimiento de los discursos = Enlaces sintcticos y
superestructurales.
1.3. Conocimiento especializado = Enlaces semnticos.
1.4. Adems, la informacin nueva o remtica.
2. Contexto sociocultural.
v Procesamiento holstico: el lector interpreta desde su experiencia sintctica, semntica y pragmtica la situacin que el texto le ofrece. Efecta saltos continuos
desde su memoria al modelo de situacin y al texto (bottom-up y top-down). Sus esquemas de conocimiento se activan ante la informacin aportada por el texto.5
v Gramtica de casos, de Fillmore: los discursos tienen una situacin concreta que
da significado a los trminos que los componen. Permite obtener esquematizaciones para construir vocabularios cientficos y para estudiar las interrogaciones de los usuarios. Es til como procedimiento aplicable tras la reduccin
sinttica de las macroestructuras para identificar los componentes terminolgicos relevantes de un texto.6
2

3
4

5
6

T. A. van Dijk.- La ciencia del texto. Un enfoque interdisciplinario. Barcelona: Paids, 1983. Sus teoras se
describen relacionadas con el anlisis de contenido documental en Jos A. Moreiro Gonzlez. Aplicacin de las Ciencias del texto al resumen documental. Madrid: Universidad Carlos III de Madrid - Boletn Oficial del Estado, 1993.
T. A. van Dijk.-Texto y Contexto. (Semntica y pragmtica del discurso). Madrid: Ctedra, 1982.
D. Rumelhart. - Schemata: the building blocks of cognition, en R. Spiro(ed).- Theoretical issues in reading comprehension: perspectives from cognitive psychology, linguistics, artificial intelligence and education. Hillsdale: Erlbaum, 1985: 75-92. M. Minsky. - A framework for representing knowledge, en P. Winston (ed).- The
psychology of computer vision. New York: McGraw-Hill, 1975: 217-228.
A. L. Brown.- Metacognitive development and reading, en R. Spiro (ed).- Theoretical issues in reading
comprehension: perspectives from cognitive psychology, linguistics, artificial intelligence and education. Hillsdale:
Erlbaum, 1985: 455-474.
C.J. Fillmore.- Em favor do caso, en , L.P. Lobato (ed.).- A semntica da Lingstica Moderna: o lxico. Ro
de Janeiro: Livraria Alves, ...: 277-365. Buscando la produccin de analizadores automticos lo utiliza A. Garsa Gutirrez.- Procedimientos de Anlisis Documental Automtico. Estudio de caso. Sevilla. Junta de Andaluca, Consejera de Cultura, 1996.

128 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


v Procesamiento del Lenguaje Natural (PLN). Propone aproximaciones modulares
al procesamiento del lenguaje natural (PLN) centradas en la integracin de los
diferentes subcomponentes que afectan a los niveles fonolgico, morfolgico, sintctico, semntico y pragmtico del discurso. A partir del texto de entrada, el proceso de anlisis de texto produce un documento que lo representa
en una forma que pueda ser interpretada por el ordenador para poder ser reutilizada en un proceso de recuperacin de informacin. En la prctica, este
procesamiento funciona cooperativamente con mtodos probabilsticos. El
estudio informatizado de cada uno de estos niveles tiene como fin originar
una serie de analizadores o parsers:
a) Anlisis morfolgico: cubre desde el reconocimiento de los accidentes de cada
palabra, hasta su anlisis lxico, para alcanzar la lematizacin o reduccin
de las palabras a su trmino cannico.
Curiosamente, el anlisis lingstico se hace utilizando tambin modelos
estadsticos. El anlisis lxico, que tiene como objetivo transformar una cadena de caracteres en un conjunto de palabras o tokens, y que es la primera
parte dentro del proceso automtico de adquisicin de componentes, se
encarga de proporcionar los trminos (posibles descriptores) para que sean
posteriormente examinados por otros procesos (filtrados, palabras compuestas, etctera). Lo primero que se ha previsto al desarrollar un analizador lxico es decidir cules son los caracteres o smbolos que no son
interesantes y que en muchos casos sirven para delimitar una palabra: los
espacios en blanco. Pero adems se deben considerar otros caracteres especiales como los guiones, signos de puntuacin, dgitos y letras. Generalmente los signos de puntuacin se eliminan en el proceso de anlisis lxico.
Sin embargo, en ciertas ocasiones la eliminacin de un signo de puntuacin
desvirta el resultado de una bsqueda.
Corresponde tambin a este nivel la eliminacin de las palabras vacas. Los
procesos de filtrado, con sus correspondientes clculos estadsticos, actan
eliminando los trminos vacos mediante su confrontacin con una lista de
palabras vacas (antidiccionario). Las palabras que son demasiado frecuentes en los documentos de una determinada coleccin, junto a las palabras
desprovistas de significado sustancial, no aportan informacin. Todas estas
palabras vacas deben eliminarse durante el proceso de anlisis automtico de
texto, para evitar que puedan ser consideradas como potenciales trminos
de representacin o de indizacin.
La eliminacin de palabras vacas reduce considerablemente el tamao de
la estructura de indizacin. A pesar de los beneficios que supone la eliminacin de palabras vacas, es posible que esta eliminacin reduzca la respuesta
a una consulta. En efecto, en el caso de que se pregunte por una frase que
contenga una palabra vaca, la recuperacin ser imposible porque dicha
palabra vaca no ser un trmino de indizacin. El proceso de eliminacin

Modelos tericos y elementos funcionales para el anlisis de contenido... 129

de palabras vacas suele realizarse comparando el texto de entrada con una


lista de palabras vacas.7
Hay que considerar tambin el tratamiento de los trminos flexionados,
aquellos relacionados morfolgicamente entre s y con significado comn,
como pato, pata, patos, patas, pero que presentan entre ellos variaciones de gnero, nmero o las producidas por la conjugacin verbal. En
este caso el tratamiento consiste en reducirlos a su trmino cannico, con
objeto de unificar su tratamiento estadstico y de facilitar las operaciones de
filtrado, creacin de relaciones, e incluso redes semnticas de representacin de los conceptos. La lematizacin se logra mediante los algoritmos de
stemming: programas que buscan variantes sintcticas de una palabra dada y
eligen una nica palabra representante del concepto expresado por todas
ellas. Su funcin consiste en mejorar la efectividad de la recuperacin y reducir el tamao de los ficheros de indizacin.8
b) Anlisis sintctico: mediante la utilizacin de gramticas se busca determinar
la funcin que cumple cada una de las palabras en una oracin, as como entender la combinacin que se da entre las palabras para obtener oraciones
gramaticalmente correctas. De su intervencin se obtiene el reconocimiento de los homgrafos, y la identificacin de las expresiones compuestas
como base de la discriminacin lingstica de las palabras. Su inters estriba
en la necesidad del conocimiento especializado de representarse mediante
palabras compuestas. Para lograrlo es necesario disear algoritmos que permitan incluir palabras compuestas como componentes del dominio, partiendo de la funcin sintctica idntica que tienen las palabras que
conforman un trmino compuesto.
c) Anlisis semntico: Se busca que el ordenador pueda hacer inferencias para la
extraccin del conocimiento y su representacin en forma de palabras o
trminos. El significado intenta alcanzarse usando la lgica extensional de
las palabras del discurso, y la lgica intensional de las palabras de la lengua.
Por lo general se aplican redes semnticas de la lengua y del discurso especializado al reconocimiento de la significacin macroestructural en un discurso dado.
7
8

Se puede consultar una lista de palabras vacas para el idioma ingls y apreciar la categora gramatical que suelen tener en Frakes, W., Prieto-Daz, R, y Fox, C.- DARE: Domain Analysis and Reuse
Environment, en Annals of Software Engineering, 1998, 5: 125-141.
Frakes, W y Baeza-Yates, R.- Information Retrieval: Data structures and algorithms. Upper Saddle River:
Prentice-Hall: 1992. Existen diferentes algoritmos de stemming dependiendo del modo en el que
trate los afijos. Los algoritmos de eliminacin de afijos extraen los sufijos y prefijos de trminos
conservando slo la raz. Los stemmers utilizan la frecuencia de secuencias de letras en el cuerpo de
un texto. Por ejemplo, el mtodo n-grams une trminos basndose en el nmero de n-grams (grupos de letras) que comparten dichos trminos.

130 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


d) Anlisis pragmtico: la significacin se sita dentro de un conocimiento de
mundo, que relaciona al lenguaje con sus usuarios y con las circunstancias
en que se produce la comunicacin. Sin duda es el nivel de anlisis ms difcil, pues implica factores subjetivos, ocasionales y situacionales en la comprensin del mensaje de un texto.
Las ltimas tendencias en indizacin automatizada, aplicadas a la recuperacin
en texto completo dentro del impulso que ha supuesto Internet a la informacin circulante, obliga a profundizar en los modelos lingsticos.9 Sin embargo presentan
como limitacin mayor no alcanzar a representar las unidades del discurso analizadas globalmente, conjuntando todos los niveles que se implican.

MODELOS ESTADSTICOS
La representacin probabilstica
Dado que la mayora de los sistemas de recuperacin de informacin trabajan
con lenguaje natural, producen cierta imprecisin a la hora de acertar con aquellos
documentos que son relevantes para una peticin concreta. Para evitarlo Robertson
y Sparck Jones se convencieron en 1976 de que era necesario establecer un orden
decreciente de importancia en los documentos recuperados tras efectuarse esa demanda, e iniciarse as los mtodos de representacin probabilstica.10
Su formulacin parte de la idea bsica de calcular la distribucin y el peso de los
trminos que intervienen en una consulta documental. Cuando un usuario plantea
una demanda pretende obtener el conjunto de documentos de respuesta ideal, aquel
formado exclusivamente por los documentos que son relevantes a su peticin. De
tal modo que el proceso de recuperacin se centra en especificar las propiedades que
debe satisfacer ese conjunto de respuesta ideal, por lo que hay que tantearlas. Este es
el objeto de un primer acercamiento efectuado por va probabilstica. El usuario valorara entonces cules de los documentos de la primera seleccin son relevantes y
cules no tienen inters para l. La informacin es pasada al sistema, que en repeticiones sucesivas del proceso refina la bsqueda y se aproxima al conjunto ideal. Se
intenta estimar si hecha una consulta q y habiendo un documento candidato d, existe
la probabilidad de que el usuario juzgue que el documento d es relevante.
Estas son las tcnicas probabilsticas ms frecuentes que se aplican a la extraccin
de trminos en la indizacin automtica, as como a la organizacin y asociacin
9

No vamos a profundizar ahora en este aspecto, ya que sera un tema de desarrollo monogrfico. Ya
que tendramos que partir de otra introduccin terica.
10 S. E. Robertson y K. Sparck Jones.- Relevance Weighting of Search Terms, en Journal of the American Society for Information Science, 1976, 27, 3.

Modelos tericos y elementos funcionales para el anlisis de contenido... 131

automticas de conceptos para la construccin de tesauros y de otras representaciones terminolgicas:11


Sistemas de ponderacin para el filtrado de trminos

Estos sistemas buscan la distribucin de la frecuencia de las palabras para calcular


sus pesos, ya que no todas tienen la misma importancia en un texto. Es muy utilizada la
Indizacin Estadstica de Trminos por Frecuencias o IDF,12 sistema de filtrado basado en la ley de Zipf que establece que las palabras de mayor frecuencia no suelen ser
significativas, ya que la importancia de un trmino es proporcional a la frecuencia de
ocurrencia en el documento e inversamente proporcional al nmero de documentos
en que aparece.13 La tcnica IDF dispone un sistema de pesos en funcin de la frecuencia relativa de cada trmino en cada documento. Dado que la ley de Zipf slo estaba pensada para filtrar trminos simples, debe complementarse con el Mtodo Ngrams que se aplica al tratamiento de palabras compuestas. Este algoritmo trabaja de
modo parecido al anterior, pero calcula la frecuencia no sobre cada trmino o palabra
compuesta, sino con cadenas de caracteres de longitud predeterminada y fija.
Mtodos de obtencin de relaciones entre componentes

Para poder representar adecuadamente la informacin y utilizarla de un modo


ptimo e inteligente es necesario clasificarla, de tal modo que se establezcan relaciones entre los componentes que la definen y describen. Existen numerosos y variados enfoques para realizar este proceso:
v Clasificadores cienciomtricos o de coocurrencias: El ms conocido es el Mtodo de Chen, que analiza el uso de grupos de palabras que aparecen simultneamente en varios documentos. Su acepcin ms corriente es la de mtodo
de coocurrencias (Co-wording), y por ser capaz de evaluar la relacin entre dos
trminos, debemos considerarlo un mtodo de clasificacin. Su propsito es
establecer un peso para la relacin que existe entre pares de trminos. Ese
peso se calcula para cada trmino basado en el modelo de espacio vectorial y
en una funcin de semejanza asimtrica.14
v Algoritmos Estadsticos de Agrupacin en Clases: es un proceso de clasificacin no supervisada de objetos. Se dispone de un conjunto de vectores {x1, ...,
xp}, que representan a los objetos y a partir de l se desea obtener el conjunto de
clases {(1, ..., (n} que los engloban. El problema es que a priori no se sabe cmo
11 Cuanto se refiere a los mtodos probabilsticos refleja parte del trabajo de J. Moreiro Gonzlez, I.
Daz, J. Llorens, J.Morato y M. Velas.co - Generacin automtica de tesauros: Propuesta de un mtodo lingstico-estadstico, en Ciencias de la Informacin, 1999, 30, 4: 51-59.
12 G. Salton. - Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer. New York: Addison-Wesley, 1989.
13 G. K. Zipf. - Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology. New
York: Haffner, 1972.
14 H. Chen y K. J. Lynch. - Automatic Construction of Networks of Concepts Characterizing Document Databases, en IEEE Transactions on Systems, Man and Cybernetics, 1992, 22, p. 885-902.

132 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


se distribuyen los vectores en las clases, ni siquiera cuntas clases habr.15 A
partir del conjunto de vectores de caractersticas dado se trata de conseguir realizar agrupaciones de estos vectores en clases, de acuerdo con las similaridades
encontradas. Se presentan a continuacin a modo de ejemplo, dos de los clasificadores estadsticos que ms se manejan actualmente:
Algoritmo K-vecinos. Busca minimizar un ndice de rendimiento, basado en
la suma de distancias eucldeas cuadrticas de todos los miembros de un cluster a su centroide. Exige conocer el nmero de clusters k en los que se desea
clasificar la muestra de vectores de la poblacin. Si el nmero de clases no se
conoce por adelantado, se puede dejar que el algoritmo determine el nmero
de clusters utilizando parmetros definidos por el usuario. El modo de funcionamiento del algoritmo consiste en mover cada vector al cluster cuyo centroide est ms cercano al mismo, y actualizar despus los centroides de los
clusters. Su convergencia depende mucho del nmero de clases.
16
Algoritmo K-vecinos axial o incremental: calcula los clusters de forma incremental. Pertenece a la familia de algoritmos de clasificacin por centros
mviles. Es una variante del algoritmo k-vecinos en su versin adaptativa,
y del algoritmo de Forgy, en el caso iterativo. Dado un patrn de entrada, el
algoritmo debe actualizar la representacin de los clusters y devolver el ndice del cluster actual al cual pertenece el patrn, sin necesitar tener presentes
los dems patrones. De este modo puede tratarse una sucesin arbitrariamente grande de patrones en tiempo real.

Los modelos de representacin vectorial


La red de asociacin de un trmino con aquellos otros trminos con los que tiene
establecidas co-ocurrencias se puede representar de forma esquemtica mediante un
mapa lexicogrfico. El trmino se muestra en relacin a los trminos que le son prximos, los que forman su contexto, y que precisan su significacin y uso sin necesidad
de requerir de ninguna categora semntica. Los mapas lexicogrficos surgen de la
continuacin de los mtodos estadsticos y sirven en la recuperacin, pues muestran la
representacin de las preguntas junto a las de los documentos que las responden actuando de forma similar a los hiperenlaces en los documentos digitales.
Precisamente porque el uso de pesos binarios es demasiado limitado, se propuso
un modo de representacin en el que los trminos de indizacin conforman las coordenadas de un espacio de informacin multidimensional. Los documentos y las consultas se representan por unos vectores que reflejan el valor que se le asigna a cada trmino segn el sistema de ponderacin empleado. Cada vector refleja la posicin del
15 A. Carpenter y S. Grossberg. - ART-2: Stable Self-organization of Pattern Recognition Code for
Analog Input Patterns, en Applied Optics, 1987, 26: 4919-4930.
16 Propuesto por M. R. Anderberg. - Cluster Analysis for Applications. New York: Academic Press,
1973.

Modelos tericos y elementos funcionales para el anlisis de contenido... 133

documento (o la consulta) al que representa en el espacio. La homogeneidad entre


una consulta hecha y los documentos que responden a ella se calcula comparando
sus vectores asociados, de acuerdo con una medida de similitud. 17 De acuerdo con
estos requisitos se dise el sistema SMART,18 que realmente exiga consultas muy
costosas para discriminar por varios trminos, cuando con unos pocos operadores de
unin quedara solucionado en un modelo de representacin lgico.

LOS MODELOS COGNITIVOS


Proponen la utilizacin de procedimientos provenientes de distintas disciplinas
cognitivas, empleados para aunar estructuras textuales, estructuras de conocimiento, objetivos y metas de los servicios de informacin, intenciones y expectativas de
analistas y usuarios, contextos de anlisis y de recepcin de informacin, y estrategias, procesos y tcnicas de representacin y recuperacin.

La representacin del conocimiento mediante tcnicas de inteligencia


Inteligencia Artificial: las ontologas

La representacin de informacin mediante la inteligencia artificial (IA) se vale


de mecanismos de inferencia para organizar el conocimiento. El conocimiento es
bsicamente informacin rica en significado (informacin acerca de informacin) que se agrupa en conjuntos representados formalmente en torno a una conceptualizacin.19 Mediante ella somos capaces de conformar una vista abstracta de
un dominio de inters, en la que se simplifican los objetos y otras entidades que lo
componen as como las relaciones que se producen entre ellos.20 Todos esos elementos propios de un dominio se categorizan mediante las ontologas. Una ontologa es una especificacin explcita de una conceptualizacin que contiene un vocabulario de trminos y su correspondiente especificacin.21 As pues, para que una
computadora pueda interpretar el conocimiento debe contar:
v Con una sintaxis: lo que requiere de unos smbolos y de un conjunto de reglas
para combinarlos.
Y
v con una semntica que explique el significado de las expresiones construidas.
17 G. Salton y M.E. Lesk.- Computer Evaluation of Indexing and Text Processing, en Journal of the
ACM, 1968, 15, 1: 23-42.
18 G. Salton.- The SMART Retrieval System Experiment in Automatic Document Processing. Englewood
Cliffs: Prentice-Hall, 1971.
19 Irene Daz Rodrguez.- Esquemas de representacin de informacin basados en relaciones. Aplicacin a la generacin automtica de representaciones de dominios. Legans (Madrid): Universidad Carlos III de Madrid,
2001. (Tesis doctoral indita).
20 Genesereth y J. Nilsson.- Logical Foundation of Artificial Intelligence. Los Altos (Ca.): Morgan
Kaufmann Publishers, 1987.
21 El trmino ontologa proviene de la filosofa, donde se refiere a existencia. En Inteligencia Artificial se parte del principio de que aquello que existe puede ser representado.

134 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


Se muestra as la evidencia de un lenguaje de representacin con capacidad para
realizar inferencias y conocimiento acerca del dominio al que se aplica.
Una ontologa general presenta estos elementos:22
v Categoras, que incluyen objetos con propiedades comunes. Se disponen en
taxonomas jerrquicas. Las categoras permiten organizar y simplificar el conocimiento de acuerdo con la herencia: clases, subclases, etctera.
Me
didas, por las que se relacionan objetos con cantidades relativas de tipos
v
particulares, as su masa, edad, precios, ... Lo principal de una medida no es su
valor numrico particular sino el hecho de que puede ordenarse.
Ob
jetos compuestos, que se integran en una categora jerrquica por ser
v
elementos constitutivos de otro (Ej. : coches estn compuestos de llantas,
motor, ...).
v Tiempo, espacio y cambio, que fijan las circunstancias en las que se producen
las acciones y los eventos.
He
chos y procesos: sucesos individuales que ocurren en un tiempo y lugar
v
concretos. Se llaman procesos los hechos que nos muestran continuidad y
homogeneidad.
v Sustancias, que tienen presencia temporal y espacial (Ej.: aceite). Tienen propiedades intrnsecas (color, temperatura de evaporacin, contenido de grasa,
...), y propiedades extrnsecas (peso, forma, ...).
Las ontologas se pueden especificar mediante un inventario clasificado de sustantivos y de relaciones entre ellos, marcadas desde un ordenamiento parcial tiposubtipo, pudiendo aparecer como:23
v Ontologa axiomtica, que clasifica los subtipos mediante el uso de axiomas y
definiciones enunciados en un lenguaje formal, como sucede en las teoras
formales en matemticas y en las colecciones de reglas de un sistema experto.
On
tologa para un prototipo, que distingue los subtipos comparndolos con
v
un prototipo de cada subtipo. Debe existir un prototipo p y una medida de la
distancia semntica d (x, y, c) que calcule la disimilitud entre dos entidades x e y
cuando ambas se consideran instancias de c. De este modo una entidad x se
puede clasificar utilizando el siguiente algoritmo recursivo:
Suponer que x ha sido clasificado como una instancia de alguna categora c,
que tiene s1,...,sn subcategoras.
Calcular la distancia semntica d(x, p i, c) para cada subcategora si con prototipo pi.
Si
d (x, pi, c) tiene un nico mnimo para alguna subcategora si, entonces se
clasifica x como una instancia de si, y se debe llamar al procedimiento de
22 J. F. Sowa.- Knowledge Representation: Logical, Philosophical, and Computational Foundations. Pacific Grove, CA: Brooks Cole Publishing Co., 1999.
23 K. Reichgelt.- Knowledge Representation: An AI Perspective. New York: Ablex Publishing, 1991.

Modelos tericos y elementos funcionales para el anlisis de contenido... 135

forma recursiva para comprobar si x se puede clasificar por alguna subcategora de si.
Si c no tiene subcategoras o si d(x, p i, c) no tiene un nico mnimo entones
el procedimiento de clasificacin se detiene porque no es posible realizar
una clasificacin ms fina con los prototipos dados.
Los sistemas expertos

Los sistemas expertos resuelven problemas utilizando una representacin simblica del conocimiento humano. Esta representacin ha de ser explcita, y generar
una capacidad de razonamiento independiente de la aplicacin especfica. Los sistemas basados en conocimiento utilizan sistemas expertos para resolver problemas.
Basan su rendimiento en la cantidad y calidad del conocimiento de un dominio especfico. Se les exige adems poder explicar sus conclusiones y el proceso de razonamiento, y tener un alto rendimiento en un dominio especfico. Deben usar la heurstica frente a los modelos matemticos y funcionar desde inferencias simblicas, y no
desde algoritmos numricos. Los componentes bsicos de estos sistemas son:
v Base de conocimiento: representacin del conocimiento de un dominio.
v Mquina de inferencia: proceso de razonamiento a partir de los datos aprovechando el conocimiento representado en la base.
v Memoria de trabajo: lugar de almacenamiento de los datos de entrada y de las
conclusiones intermedias a las que se llega durante el proceso de razonamiento.
v Interfaz de usuario: entrada y salida del usuario al sistema, incorporando mecanismos interrogativos y explicativos.
v Interfaz de adquisicin: mecanismos para automatizar el aprendizaje y para
facilitar la adquisicin y el depuramiento interactivo.

Mtodos basados en las redes neuronales


Se utilizan para resolver problemas relacionados con el conocimiento humano
como el reconocimiento de patrones, el reconocimiento del lenguaje hablado, el reconocimiento de imgenes, o los procesos de control adaptativo. El aprendizaje de
una red neuronal est relacionado con los pesos de las conexiones entre sus nodos.24
Cuando se le presenta un patrn a la red, sta produce una respuesta. La seal que se
recibe en la capa de neuronas de entrada, cuando se le presenta el patrn, se mueve a
travs de los enlaces o conexiones entre capas hacia las neuronas de la capa de salida.
Estos enlaces modulan la seal a su paso con los pesos que los caracterizan. Por lo
tanto, si se quiere modificar la seal que llega al final a la capa de salida, habr que actuar sobre dichos pesos.
Un clasificador es un sistema que va a permitir determinar cul de las M clases es la
ms representativa para un patrn de entrada no esttico que contiene N elementos.
24 D. Hebb.- Organization of Behaviour. New York: Wiley & Sons, 1949.

136 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


El clasificador neuronal acta en dos etapas, en la primera se contabiliza el nmero
de elementos que pertenecen a cada clase y en la segunda se selecciona el mximo.
La primera etapa se alimenta con los N elementos del patrn de entrada en paralelo,
cuando se produce la comparacin del patrn de entrada con los prototipos de las
distintas clases y pasan los resultados intermedios a la siguiente etapa en paralelo. En
la segunda pasada se selecciona el mximo. Todas las clases tendrn salida, pero al
acabar la clasificacin slo se apreciar la salida para la clase con mayor probabilidad. El resto, con valores muy bajos, se consideran inapreciables. Se pueden utilizar
las salidas como realimentacin de la primera etapa adaptando los pesos iniciales segn un determinado algoritmo de aprendizaje (principio de realimentacin negativa). Redes neuronales muy utilizadas en anlisis de contenido son las de Kohonen,
ART1 y ART2.
El modelo de Kohonen se dise en adaptacin a las caractersticas biolgicas, el
mapa de caractersticas, dispuesto mediante una red neuronal de dos capas, una de
entrada y otra de competicin. Los mapas autorganizativos establecen que ciertas
redes neuronales pueden adaptar sus respuestas, de tal forma que la posicin de la
clula que produce la respuesta pasa a ser especfica de una determinada caracterstica de la seal de entrada.25
Cada neurona est conectada con otras de su entorno de manera tal que produce
una excitacin en las ms prximas y una inhibicin en las ms alejadas, y causa una
interaccin lateral. Tanto la excitacin como la inhibicin lateral son gradualmente
ms dbiles a medida que nos alejamos de la neurona en cuestin. Este mecanismo
hace que cuando un estmulo produce una reaccin en una clula, las clulas de su
entorno inmediato se vean influidas por dicha reaccin, de modo positivo las ms
cercanas y de forma negativa las ms alejadas.
Por su parte la teora de la resonancia adaptativa o ART se origin en la necesidad
de superar el dilema de la Estabilidad-Plasticidad de Grossberg. Su objetivo era disear un sistema que reaccionase de forma plstica a nuevos estmulos, pero de forma
estable a aquellos que sean irrelevantes. Se agregaba la posibilidad de conmutar estos
dos estados plstico y estable, cuando fuese necesario, para evitar la degradacin de
lo ya aprendido. El sistema debe tener incorporada alguna estimacin para decidir la
relevancia o no de un estmulo si lo quiere realizar sin supervisin. Grossberg ha diseado dos modelos en los que se aplica la teora de la resonancia adaptativa:26 el
ART-1 que slo permite clasificar patrones binarios, y su variacin, el ART-2, para
trabajar con patrones analgicos.

25 Kohonen, T.- Self-Organized Formation of Topologically Correct Feature Maps, en Biological


Cybernetics, 1982, 43: 82-95.
26 Grossberg, S.- How Does the Brain Build a Cognitive Code?, en Psychological Review, 1980,
87:19-32.

Modelos tericos y elementos funcionales para el anlisis de contenido... 137

LA REPRESENTACIN DE INFORMACIN MEDIANTE TESAUROS.


Debido a la presencia de las polisemias, de los homgrafos y de las homonimias
muchos de los sistemas de tratamiento de informacin clasifican la informacin textual en lenguaje natural mediante la utilizacin de lenguajes controlados. Estos lenguajes restringen la amplitud de los naturales mediante la utilizacin de un conjunto
limitado de expresiones y de las relaciones semnticas entre ellas.27 De este modo, la
clasificacin de informacin se ve favorecida por la utilizacin de una gramtica ms
reducida. Estos lenguajes controlados pueden establecerse como:
v Lenguajes de clasificacin o conjunto de codificaciones con las que se representa cada uno de los conceptos de una materia.
Len
guajes combinatorios formados por un conjunto de descriptores o trmiv
nos que determinan el conocimiento sobre un dominio especfico.
Dentro de este ltimo nivel se aprecian a su vez dos nuevos tipos:
Listas de autoridades, confeccionadas a priori y de extensin finita que
conforman una coleccin no ordenada de conceptos representados por
palabras o por expresiones. Slo los trminos que figuran en esta lista pueden ser utilizados para clasificar los documentos. Las listas no estn obligadas a contener relaciones semnticas entre los trminos.
Tesauros o listas de control terminolgico donde se representan los conceptos de un rea del conocimiento mediante trminos. Es un lenguaje
convenido y controlado para que los trminos presenten una clara univocidad, en el que se ofrece la posibilidad de combinar sus trminos tanto para
analizar como para buscar el contenido concreto de los documentos. El esquema de representacin de informacin basado en la estructura de tesauro establece relaciones entre los trminos de indizacin para conseguir una
recuperacin ms eficaz.28
Los tesauros establecen relaciones semnticas entre sus trminos, con el fin de
inducir hacia la representacin exacta de los conceptos y de facilitar el dilogo entre
los contenidos documentales, los usuarios y los documentalistas. Dos trminos de
un lenguaje documental siempre que se relacionen lo hacen en reciprocidad. Esta relaciones pueden ser de equivalencia; definitorias para evitar la polisemia; jerrquicas
o clasificatorias; y de asociacin. Mientras que la clasificacin categrica tiene como
misin organizar los descriptores mediante una abstraccin conceptual representativa de un sector del dominio que cubre el tesauro. El trmino que encabeza cada
sector se ha denominado tradicionalmente macrodescriptor o top term, y su funcin
en un lenguaje controlado es slo la de organizar, sin valer, por su generalidad, para
27 G.Van Slype.- Les Langages dIndexation: Conception, Construction et Utilisation dans les Systmes Documentaires. Paris : Les Editions dorganisation, 1991.
28 G. Salton.- Experiments in automatic thesaurus construction for information retrieval, en Proceedings IFIP Congress 1971, TA-2, 43-49, 1971.

138 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


transferir hechos de la semntica de mundo y por ello sin poder ser utilizados para la
indizacin.
Por su parte la asociacin entre los trminos pretende sugerir enlaces entre facetas de conceptos del tesauro. Los trminos asociados establecen una relacin difcil
de fijar, pues depende mucho de la creatividad de los autores del tesauro, lo que se
aprecia como un contrasentido, pues esta parte es la que establece las relaciones ms
interpretativas y evocadoras de un lenguaje controlado. La navegacin entre los trminos permite establecer enlaces horizontales y oblicuos por los que pasamos a relacionar unas categoras con otras, e incluso destacamos similaridades entre trminos
pertenecientes a la misma categora pero que muestran una relacin especial. Mediante esta navegacin saltamos de una categora a otra y, a la vez, en cada una de
ellas estamos capacitados para ascender o descender por su disposicin jerrquica.
Se muestra una propensin a construir actualmente Tesauros Conceptuales:
aquellos que son compilados de forma postcoordinada a partir del sublenguaje de
un rea especfica del conocimiento, en cuya utilizacin prima la recuperacin.29 La
denominacin de tesauro conceptual proviene de su fundamentacin terica alrededor de la nocin de materia, es decir, del concepto del que tratan los textos. As,
Maniez propuso un modelo de tesauro de relaciones asociativas, que aunase trminos y conceptos reales por su similitud de sentido en el contexto especfico del usuario.30 Tales tesauros presentan estas caractersticas novedosas:
a) Aportan notas definitorias que aclaran las posibles dudas de uso, e incluso dan algunas explicaciones extensas.
b) Razonan las equivalencias existentes entre trminos
c) Consideran incluso los trminos coloquiales, tambin las variaciones y truncamientos de los trminos reconocidos.
d) Glosan todas las palabras no vacas existentes en las bases de datos.
e) Contienen numerosas relaciones asociativas entre descriptores, e incluso con los
no descriptores.
La integracin que suponen estos rasgos demuestra la progresiva desaparicin
funcional de las diferencias entre los lenguajes controlados de los tesauros tradicionales y el lenguaje natural mediante el que se manifiestan las necesidades de los usuarios. La causa que lo permite es la presencia de ambos lenguajes en las interfaces de
los Sistemas de Gestin Documental como herramientas de ayuda para la recuperacin. Al funcionar integrados ambos lenguajes en los Sistemas de Gestin de la Informacin, evitan la indeterminacin de las bsquedas que plantean en lenguaje natural usuarios no expertos.31
29 W. Schmitz-Esser.- New approaches in Thesaurus Application, en International Classification, 1991, 18,
3: 143-147.
30 J. Maniez.- Los lenguajes documentales y de clasificacin. Madrid: Fundacin Germn Snchez Ruiprez,
1993: 213-215.
31 M. Lpez Alonso.- Los tesauros conceptuales como herramienta de precisin en los sistemas de organizacin cientfica, en Revista Interamericana de Bibliotecologa, 1999, 22, 1: 21-35.

Modelos tericos y elementos funcionales para el anlisis de contenido... 139

Los trminos se extraen de documentos de texto completo, y luego conforman


las bases de conocimiento descentralizadas de Internet. Los enlaces en la red se establecen tras su adaptacin al espacio conceptual hipertextual mediante el lenguaje
HTML o el XML. Como resultado se obtiene un cuerpo terminolgico cuya representacin se establece como una red semntica neuronal: en cada nodo hay un concepto semntico con el que se asocian una serie de descriptores. Los enlaces entre
los descriptores pueden tambin establecerse segn las tpicas relaciones de los
tesauros: de equivalencia, facetadas o por asociacin. El funcionamiento de la recuperacin se establece desde la pregunta del usuario. Los conceptos solicitados se
confrontan con la red terminolgica, cuyos elementos estn diseados como mapas
representativos de los textos, y de este modo actan como lenguajes controlados
que organizan la informacin de cualquier objeto contenido en la red.
Esta manera de construir los tesauros se ha consolidado precisamente porque
ayuda al usuario a recuperar la informacin con soluciones provenientes del Modelo
Cognitivo. La precisin se enriquece cuando el usuario puede comparar su conocimiento con la representacin que refleja la terminologa que se le ofrece. En su procesamiento se percibe que es en gran parte coincidente con el que se efecta en los
programas ms avanzados de indizacin automtica. Se comienza procesando el
texto en lenguaje natural mediante lematizadores y analizadores morfosintcticos y
semnticos, para concretar el anlisis de las palabras y de sus relaciones. Primero
identificando las relaciones simples, luego los sintagmas. Con los trminos identificados se establecen bancos de datos terminolgicos. Finalmente, mediante redes
neuronales, se crean bases de conocimientos terminolgicas mediante las que se establecen bsquedas automatizadas en Internet.
Estos tesauros han de aplicarse a la informacin de carcter enciclopdico distribuida por Internet. Para gestionar tal riqueza de conceptos es obligado desarrollar diferentes tesauros conceptuales, que se unan en una red semntica de estructuras neuronales. En su funcionamiento se combinan la tecnologa hipertextual y las redes
semnticas, las cuales proporcionan un mapa tanto de las variables con que se efecta
la demanda como de las obtenidas en la recuperacin. El usuario tiene acceso a los sistemas de informacin a travs de una representacin grfica de la red (tabla de contenidos grficos con las conexiones visibles mediante enlaces hipertextuales), por la que
puede rastrear los documentos siguiendo el recorrido de su inters. El desarrollo de
asociaciones de redes neuronales que vuelven dinmicos los nodos hipertextuales
permite que los conceptos situados en cada uno de ellos puedan ser consultados simultnea y no slo secuencialmente, de acuerdo con las necesidades de cada usuario.
La autogeneracin de un tesauro conceptual exige el desarrollo de potentes algoritmos capaces de procesar los diferentes documentos de la base de datos y la obtencin de sus ndices de covarianza correspondientes. Se producirn as :32
32 H. Chen, T. Yim y D. Fye.- Automatic thesaurus generation for an electronic community system,
en Journal of the ASIS, (1995), 46, 3: 178-180.

140 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


v Listas de trminos a partir de las cuales se identifiquen los conceptos ms importantes.
v Indizadores automticos que identifiquen las materias.
v Analizadores semnticos que agrupen los conceptos relacionados entre s.
En esta lnea se sita la propuesta de Paice, quien propone que tanto las preguntas
de los usuarios como los textos que responden a ellas se representen mediante fragmentos de documentos extrados, segn el contexto, de los conceptos que representa.33 Para construir las entidades desde las cuales se representen los conceptos contenidos en las preguntas y en los textos es necesario contar con una amplia base de conocimientos terminolgicos de un campo concreto de referencia, en la que se incluiran:
1. Los descriptores del tesauro que constasen en los subtextos analizados.
2. Los conceptos implcitos pero que tengan relacin en el tesauro con los primeros.
3. Los trminos que pertenezcan, junto a los anteriores, a la misma red semntica.
4. Las relaciones de todo tipo que se den entre todos los trminos anteriores.
Las recuperaciones se establecen por comparacin con la red neuronal de cada
nueva entidad que represente una pregunta. As se localizarn por coincidencia los
documentos situados en mayor proximidad a los conceptos pedidos. Podemos considerar como los mtodos ms utilizados de clasificacin en el mbito que nos afecta
a los siguientes ( de ellos hemos dado nocin a lo largo de este artculo):
1. Mtodos de agrupacin basados en Grafos tericos
2. Mtodos de agrupacin basados en Centros de masas
2.1. Algoritmo K-vecinos o K-medias
2.2. Algoritmo ISODATA
3. Algoritmos de clasificacin basados en Redes neuronales
3.1. Mapas autoorganizativos de Kohonen
3.2. La teora de resonancia adaptativa (ART-1 y ART-2)

La representacin de informacin mediante mapas conceptuales


Un modelo, derivado tanto de los modelos estadsticos (representaciones vectoriales) como de los lingsticos, busca hacer representaciones diagramticas del conocimiento mediante diferentes lenguajes visuales (representaciones grficas de los
conceptos y de las relaciones entre ellos). Los conceptos son los nodos (cada uno con su
tipo, nombre y contenido), y las relaciones son los enlaces. Son eficaces para organizar
nueva informacin e integrarla en el conocimiento existente, ya que su construccin
ayuda a reconocer nuevas relaciones entre conceptos y a refinar la comprensin de
las relaciones existentes. El proceso de construccin de un mapa conceptual se
compone de cinco etapas principales:
1) seleccin de los conceptos que formarn parte del mapa;
2) listado de los conceptos desde los ms abstractos a los ms concretos;
33 C. Paice.- A thesaural mode of Information Retrieval, en Information Processing and Management,
1991, 27, 5: 434-435.

Modelos tericos y elementos funcionales para el anlisis de contenido... 141

3) agrupacin de los conceptos relacionados;


4) ordenacin de los conceptos;
5) enlace de cada par de conceptos mediante lneas etiquetadas.
Precisamente para evitar la limitacin que imponen los tesauros al uso respecto
de la aplicacin de relaciones semnticas entre sus trminos, y luego de corroborar
las tendencias que venimos explicando, se ha elaborado la Norma ISO/IEC 13250
Topic Maps que define el modelo y la sintaxis de intercambio para formalizar mapas
conceptuales.34 La motivacin para estudiar los mapas de temas tiene su origen en la
necesidad de crear ndices y de proporcionar as acceso a la informacin con base en
un modelo de conocimiento cuyo corazn es el concepto de tpico. El estndar internacional proporciona una notacin estandarizada para representar informacin referente a las fuentes de informacin utilizadas para definir tpicos y sus relaciones.
As, un conjunto de uno o ms documentos que utiliza la notacin definida por este
estndar se llama topic map (mapa de temas).
Las ideas fundamentales del estndar son los conceptos, los diferentes casos que
ofrecen, y las relaciones (asociaciones) que se dan entre ellos. Un mapa conceptual
en su formato de intercambio es un documento o grupo de documentos SGML (o
XML) que usan los diferentes tipos de elementos para representar los conceptos, los
casos que presentan, y las asociaciones entre ellos. Precisamente por su estructuracin semntica de los enlaces en la red se denomina a esta norma el GPS del universo de la informacin, en cuanto que es una solucin para organizar y navegar por
los extensos y continuamente crecientes recursos de informacin (publicaciones de
editoriales y corporativas, as como sitios web), y establecer un puente entre los campos del conocimiento y la gestin de la informacin.
Un tpico, en sentido general, representa cualquier cosa una persona, una entidad, un concepto. El representante abstracto de un tpico se llama materia. En cierto sentido, una materia se corresponde con lo que Platn llamaba idea. Formalmente el trmino tpico hace referencia a un elemento perteneciente a un topic map
que representa una materia. Sin embargo habitualmente ambos conceptos se fusionan y nos referimos a ambos mediante el uso del trmino tpico.
Los tpicos (y sus respectivos tipos) varan segn vare la informacin que se est
tratando. En efecto, si se est hablando de documentacin relativa a software, los tpicos representarn funciones, variables, objetos y mtodos; si la informacin es relativa a botnica, los tpicos se referirn a plantas, algas y sus funciones.
Esta norma internacional proporciona una notacin normalizada para representar informacin intercambiable en torno a la estructura de los recursos de informacin utilizados para determinar los conceptos, y las relaciones que se dan entre los
conceptos. Un grupo de uno o ms documentos interrelacionados que emplea la
34 ISO/IEC FCD 13250: 1999 Topic Maps. Elaborada por ISO/IEC JTC1/SC34 Descripcin documental y Lenguajes de Procesamiento.

142 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


notacin definida por esta norma internacional es denominado mapa conceptual.
En l se define un espacio en el que las localizaciones son conceptos, y en el que las
distancias entre conceptos son apreciables a partir del nmero de conceptos intermedios que deben ser visitados si se quiere ir de un concepto a otro y tambin el tipo
de relacin que define la trayectoria de un concepto a otro, si la hay, a travs de los
conceptos intermediarios, si estos existen.35 La arquitectura de los mapas conceptuales est ideada para facilitar la unin de mapas conceptuales sin necesitar los mapas tpicos combinados para ser copiados o modificados. A causa de su carcter extrnseco, los mapas conceptuales pueden ser considerados como incrustaciones,
o extensiones hacia los objetos informativos.
SGML se establece como la notacin base de los mapas conceptuales. Un mapa
conceptual intercambiable contiene al menos un documento SGML, pero puede incluir y/o referir a otros tipos de recursos informativos. Un grupo de recursos de informacin que comprende un mapa completo intercambiable de conceptos puede
especificarse utilizando la ayuda del grupo de objetos enlazados Bounded Object Set
(BOS).36 Dado que XML es un subgrupo de SGML, puede tambin ser usado como
notacin base para los mapas conceptuales.
La notacin de mapa conceptual se define como una Arquitectura SGML, y
esta norma internacional toma la forma de un architecture definition document expresado de conformidad con el Anexo Normativo A.3 de ISO/IEC 10744:1997, el
SGML Architectural Form Definition Requirements ( AFDR). La definicin formal de la
notacin de un mapa conceptual se expresa como un meta-DTD.
Un tpico posee dos caractersticas fundamentales: debe poseer un nombre y al
menos una ocurrencia. Una ocurrencia es un puntero para la fuente de informacin
en la que el tpico es relevante. Las ocurrencias pueden ser de varios tipos, cada uno
de los cuales se denomina rol de la ocurrencia. Los conceptos de tpico, tipo de tpico, nombre del tpico, ocurrencia y rol de la ocurrencia, permiten organizar las fuentes de informacin de acuerdo con los tpicos as como crear ndices, pero realmente no permiten
mucho ms.
Lo realmente importante de este modelo es la posibilidad de crear asociaciones
entre tpicos. Cada tpico participante en una asociacin posee un rol de asociacin
que establece el rol que juega el tpico en la asociacin.
La estructura captulo-seccin de un texto de documentacin cientfica se fracciona en cientos (o quizs miles) de mdulos de texto separados que son autocontenidos
respecto a un tema concreto. Del mismo modo, la asignacin de cdigos jerrquicos
permite un acceso rpido a la informacin contenida en los mdulos. Obviamente
35 Dos conceptos pueden conectarse mediante una asociacin, y pueden tambin conectarse en virtud
de participar en un acontecimiento comn. Adems, los objetos informativos pueden tener propiedades, as como valores de esas propiedades, asignados a ellos externamente. Estas propiedades son
denominadas facet types: La palabra faceta se utiliza aqu de forma metafrica: una faceta es una
propiedad de un grupo de documentos que puede ser usada para crear una perspectiva suya.
36 Definida por la arquitectura HyTime en ISO/IEC 10744:1997.

Modelos tericos y elementos funcionales para el anlisis de contenido... 143

estas dos caractersticas hacen pensar en los mapas conceptuales como candidato
ideal para ponerlo en prctica.

TENDENCIAS DE INVESTIGACIN EN CLASIFICACIN


Es perfectamente constatable la proyeccin que la sociedad de la informacin
est realizando sobre la representacin y organizacin del conocimiento y, por ende,
en la clasificacin de la informacin.
Las nuevas tecnologas, en efecto, han permitido el advenimiento de los hipermedia, un nuevo tipo documental que unifica en s los diferentes modos de expresin informativa,37 hasta desembocar en el concepto de hiperdocumento como
producto simbitico de los conenidos multimedia, los soportes informticos y las
redes de comunicacin. Ha sido C. Durieux quien ha caracterizado estos hiperdocumentos dentro de la red, nuevo espacio que tiene como rasgos distintivos una constante metamorfosis (construccin permanente), la heterogeneidad, el isomorfismo,
la exterioridad, la topologa y la movilidad de los centros.38 Los contenidos que se
comunican por la red, lo hacen siguiendo unos parmetros no jerrquicos, heterogneos, pblicos y en constante cambio.39 En consecuencia, existe una ingente creacin e insercin de informacin en la red, con una diseminacin escasamente estructurada.40 Asistimos a la enunciacin de una disyuntiva que puede hacer derivar la
sociedad de la informacin, bien slo a una sociedad de la comunicacin, o a una sociedad del conocimiento.
La disyuntiva no es balad dados sus extraordinarios efectos sobre el conocimiento humano. En la dcada de los 80 del pasado siglo, J. McHale observaba que en la
nueva sociedad postmoderna la informacin presentaba como rasgos reseables su
simultaneidad, transdisciplinariedad, dinamismo e interaccin multimedia,41 y sin
embargo esta ubrrima abundancia de informacin en movimiento no derivaba necesariamente en una comprensin, asimilacin y conocimiento. Entre otros mu chos efectos, actualmente en investigacin, las caractersticas anotadas alteran sus-

37 Cit. J. Feather. The Information Society. 2nd edition. London: Library Association Publishing Ltd.,
1998.
38 La Recherche Terminologique en Traduction: Pour une approche Hipertextuelle. Meta, 1997,
XIII,4. Cit. M. Pinto Tratamiento de los Contenidos en la Sociedad de la Informacin. En: La Sociedad de la Informacin. Madrid: Editorial Centro de Estudios Ramn Areces SA, 1999, 267-288.
39 G. Charton. Reperage de linformation sur Internet: Nouveaux utils, approches bibliotheconomiques et microstructures. En: CDI virtuel: utilisation des rseaux pour lacces la communication. Stage national DISTNB/Sousdirection des Technologies Nouvelles CRDP de Reims, 29 Avril 1997. Pars: Centre de
Calcul, Recherche et Rseaux Jussieu, URFIST, 20 de junio 1999 [ Consulta 22 de marzo de 2001].
40 P. Fayard. Exceso de informacin o ceguera estratgica? Consideraciones sobre la Inteligencia y
el Conocimiento. Telos, (1996), 44 : 11-14.
41 El entorno cambiante de la informacin. Madrid: Tecnos, 1981.

144 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


tancialmente la educacin, que se ha visto obligada a adaptarse a una nueva Era del
Aprendizaje42 en la que las formas de aprender deben fundamentarse en:
v Una estrategia secuencial y asociativa, en relacin directa con el pensamiento
relacional, convertido en el instrumento idneo para un aprendizaje adecuado.
El
desarrollo de una habilidad de asimilacin sobre documentos dinmicos,
v
simultneos e interactivos, en una clara referencia a los lenguajes URML.43
v La formacin continua conducente a una constante actualizacin a travs de
las comunidades educativas virtuales44.
v El autoaprendizaje, que implica una mayor insistencia sobre los mtodos de
manipulacin de las fuentes y recursos de informacin que sobre los contenidos.45
v La Escuela comienza a ver relativizada su funcin como nica institucin de
formacin, por cuanto ha de compartir el espacio educativo con el Aula sin
Muros,46 mucho ms efectiva en Internet.47
La sociedad informacional le impone todava otro condicionante al conocimiento humano: los sofisticados medios tecnolgicos facultan, a tenor de lo arriba expuesto, para la masiva produccin de mensajes multimedia, pero esta misma tecnologa le permite al individuo disear su propio sistema de acceso a la informacin.48
La informacin, pues, se produce masivamente pero su consumo est muy fragmentado e individualizado; y su diseo se orienta hacia una franja concreta de consumidores y una absoluta atemporalidad.49 Se produce as la paradoja de que si
bien las nuevas tecnologas fomentan la integracin y organizacin de las actividades humanas, al mismo tiempo rompen el concepto del individuo como medida del entorno comunicativo.50 Este condicionante tiene una notoria proyeccin
42 L. Joyanes Aguilar. Cibersociedad: los retos sociales ante un nuevo mundo digital. Madrid: McGraw-Hill,
1997.
43 Realiza una buena perspectiva hacia sus usos didcticos J.R. Hilera & S. Otn & J. Martnez. Aplicacin de la Realidad Virtual en la enseanza a travs de Internet. Disponible en Internet
http://www.ucm.es/info/multidoc/multidoc/revista/num8/hilera-oton.html . [Consulta 22 de marzo de
2001].
44 Analiza E. Lorente Bilbao. Las Comunidades virtuales de enseanza - aprendizaje. Disponible en Internet
http: //www.ucm.es/info/multidoc/multidoc/revista/num8/eneko.html. [Consulta 22 de marzo de 2001].
45 J. C. Marcos Recio. Fuentes de informacin, educacin y proyectos de investigacin multimedia. Disponible en
Internet http://www.ucm.es/info/multidoc/multidoc/revista/num8/jmarcos.html. [Consulta 22 de marzo
2001].
46 Definida por E. Carpenter & M. McLuhan. El Aula sin muros. Barcelona: Laia, 1974.
47 Segn apuntan M. Gisbert Cervera et al. Entornos Virtuales de Enseanza Aprendizaje: Proyecto GET. Cuadernos de Documentacin Multimedia (1998) 6-7. Disponible en Internet
http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/evea.htm. [Consulta 25 de marzo de 2001].
48 Cifr. F.L. Miksa. The DDC, the Universe of Knowledge and the Post- Modern Library. New York: Forest
Press, 1998.
49 Dibuja con suma habilidad este nuevo entorno informativo M. Castells. La Era de la Informacin:.
Economa, Sociedad y Cultura. Madrid: Alianza Editorial, 2000, vol. 1, p. 359-408.
50 Cifr. R. Barglow. The Crisis of the Self in the Age of Information: Computers, Dolphins and Dreams. London:
Routledge, 1994.

Modelos tericos y elementos funcionales para el anlisis de contenido... 145

epistemolgica en la clasificacin del conocimiento: los sistemas de clasificacin


construyen una realidad til en un momento y para una finalidad determinados,
pero no son una referencia absoluta, sino una conveniencia en la organizacin del
conocimiento.51
En estas circunstancias, los sistemas de clasificacin han debido iniciar una estrecha relacin con la organizacin del conocimiento, entendida como una ciencia tridimensional, que mediante el establecimiento de unos principios, mtodos e instrumentos, sea capaz de gestionar el conocimiento humano desde la representacin,
organizacin y comunicacin del mensaje documental.52 Desde esta perspectiva, los
sistemas de clasificacin han comenzado a incorporar la necesidad de dar respuesta
a dos interrogantes:
1. La bsqueda de informacin es, sin duda, una manifestacin de la conducta humana, que ha de ser considerada en documentacin desde su ptica psicolgica. Es
preciso el concurso de la antropologa y la psicologa sociolgica para determinar
cmo la cultura condiciona el conocimiento humano y las necesidades informativas.53 Es este conocimiento el que ha animado al desarrollo de los estudios de usuarios,
cuyos objetivos son el anlisis de las necesidades y comportamientos en la informacin, junto con el anlisis de las motivaciones y actitudes de los usuarios.54
Esta va de investigacin sienta sus cimientos en el paradigma cognitivo, que recientemente presenta como carcter ms novedoso la consideracin nodal del comportamiento del usuario en los sistemas de recuperacin de informacin,55 tendencia
que para algunos autores debe ser reconocida como un nuevo paradigma.56
2. El planteamiento de qu es la materia, asunto o tema del mensaje informativo de
un documento. Si la respuesta poda ser abordada mediante una metodologa
propia del anlisis documental sobre el documento, bien asentada por lo dems,
no sucede lo mismo por lo que respecta al hiperdocumento. La materia del hiperdocumento est en relacin directa con los conocimientos previos del usuario, sus
prejuicios, y sus expectativas de respuesta, determinantes indudables de la interrogacin. El tema o materia del hiperdocumento debe referirse a su potencialidad
51 Defiende F.L. Miksa, obr. cit. p. 86.
52 Interesante perspectiva de M.A. Esteban Navarro & F.J. Garca Marco. Primeras Jornadas sobre
Organizacin del Conocimiento: Organizacin del Conocimiento e Informacin Cientfica. Scire,
(enero junio)1, 1 : 149-157.
53 Tesis que defienden H. Albrechtsen & B. Hjrland. Information Seeking and Knowledge Organization. Knowledge Organization, 1997, 24, 3 : 135-6.
54 Sumamente aclaratoria la comunicacin de M. Izquierdo Alonso & J. Ruiz Abelln & J.T. Piera
Lucas. Los estudios de usuarios en los programas de gestin de calidad. Propuesta de un marco
terico integrador para el estudio del usuario de informacin. En: Los sistemas de informacin al servicio
de la sociedad: actas de las jornadas. VI Jornadas Espaolas de Documentacin. Valencia: FESABID, 1998:
433-444.
55 Cifr. C. Kuhltham. Inside the search process: information seeking from the users perspective.
Journal of the American Society for Information Science, 1995, 42, 5 : 361-371.
56 Como, por ejemplo, W. Sugar. User centered perspective of information retrieval research and
analysis methods. Annual Rewiew of Information Science and Technology, 1995, 30 : 77-109.

146 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


epistemolgica,57 conforme a la transversalidad de los mensajes en la sociedad
informacional.
De otro lado, los condicionantes de la sociedad informacional, antes expuestos,
han tenido un efecto extraordinario en las formas de crear, producir, diseminar y
usar el conocimiento, lo que ha perturbado profundamente la estructura del saber y
los campos acadmicos normalizados en la tradicional disposicin del conocimiento. Ciencias, tcnicas y disciplinas han comenzado a fundirse en interrelaciones hasta ahora desconocidas, por efecto de la aparicin de nuevas comunidades cientficas
y discursivas que producen documentos y no se adaptan con plenitud a las estructuras acadmicas existentes,58 en tanto que son cada vez ms frecuentes las bsquedas
de informacin al margen de la estructuracin del conocimiento en disciplinas.59 La
consecuencia de todo ello es que ni la estructura epistemolgica acadmica del conocimiento, ni tampoco los sistemas de recuperacin de informacin, engloban y
pueden aplicarse a todo el conocimiento.
Cuando desde la ptica de la documentacin y sus tcnicas para organizar el conocimiento se ha abordado la cuestin, se ha diagnosticado como fenmeno del
mximo inters la transversalidad del conocimiento en varias ciencias o disciplinas,
entendida como la aplicacin del mtodo cientfico de un rea de conocimiento a
otras reas. El carcter anfibolgico del concepto de informacin ha obligado, empero, a depurar a la vez el concepto de transversalidad en referencia a otros conceptos
semnticamente prximos, tarea en la que ha sido muy til el trabajo definitorio de I.
Dahlberg,60 quien ha distinguido:
v Interdisciplinariedad, proceso en el que una disciplina es estudiada desde la
perspectiva de otras afines.
Mul
tidisciplinariedad, una especialidad de la interdisciplinaridad. Consiste
v
en aquel proceso que analiza slo un hecho o fenmeno propio de un rea de
conocimiento, desde la ptica de otra rea de conocimiento. Un caso especfico es la syndisciplinariedad, que implica la colaboracin de dos o ms disciplinas para el anlisis de un caso concreto.
Plu
ridisciplinariedad, proceso que invierte los trminos, al considerar ahora
v
una propiedad en su comportamiento, cuando es referida a distintas disciplinas.
La automatizacin y el desarrollo de Internet han hecho que para los lenguajes de
clasificacin e indizacin los conceptos de multidisciplinaridad e interdisciplinariedad complementen a la transversalidad por aproximacin en sus efectos, en cuanto
57 Cit. B. Hjrland. Information Seeking and Subject Representation: An activity theorical approach to information science. Westport; Connecticut; London: Greenwood,1997.
58 Cifr. R.S. Clegg & G. Palmer (eds.). The politics of management knowledge. London [etc.]: Sage, 1996.
59 Segn hace constar D.A. Klein. Decision analytic intelligent systems automated explanation and knowledge
acquisition. Hillsdale; New Jersey: Lawrence Erlbaum Asociates, 1994.
60 Current trends in knowledge organization. En: Organizacin del conocimiento en sistemas de informacin y
documentacin: actas del I Encuentro de ISKO Espaa. Madrid 4 y 5 de noviembre de 1993/ ed. F.J. Garca
Marco. Zaragoza: Librera General, 1995: 7-26.

Modelos tericos y elementos funcionales para el anlisis de contenido... 147

a su eficacia en la representacin del conocimiento y su recuperacin: los tres procesos indicados fomentan la inestabilidad, as como tambin imposibilitan una prediccin aceptable. La solidez de las predicciones en la programacin de los sistemas de
recuperacin de informacin se basaba en la firmeza de las disciplinas, una firmeza
que ni la indizacin automatizada ni los hiperenlaces les ha devuelto.61 Ha sido D.
W. Langridge quien mejor ha explicado el desfase entre la nueva creacin del conocimiento y su organizacin por un lado, y la clasificacin por otro.62 En su opinin
en el nuevo contexto intelectual las clases se basan en el inters de la investigacin conocimiento, y no en su acoplamiento a las formas disciplinarias del conocimiento. En consecuencia, distingue entre las formas de conocer o disciplinas y los objetos de conocimiento o fenmenos.
Por definicin una disciplina discrimina del saber la parte que enuncia y agrupa,
esto es, se comporta como un sistema discreto de organizacin del conocimiento. La
clasificacin, luego, jerarquiza las disciplinas, por lo que consecuentemente la informacin de un fenmeno estar subordinada en su ordenacin a la disciplina o subdisciplina desde la que se haya abordado,63 proporcionar una clasificacin de aspectos, que
dispersa la materia o informacin de un fenmeno en varias disciplinas. Este tipo de
clasificacin posee, empero, formas de reaccin frente a la transversalidad: realizar
una divisin de reas de conocimiento dentro de los fenmenos, las facetas, y luego
subordinar los fenmenos a las disciplinas desde las que pueden ser analizados.
Algunos lenguajes de clasificacin han tendido, pues, hacia una teora de la clasificacin facetada analtica, fundamentada en el mtodo de clasificacin del Racionalismo.64 La tendencia, sin embargo, no ha obtenido los resultados apetecidos de
eficacia y eficiencia en la recuperacin de informacin, a tenor de la forma de creacin de conocimiento propia de la sociedad de informacin, por cuanto la moderna
epistemologa se desplaza desde unos planteamientos positivistas a otros ms interpretativos y neopragmticos. Es, por tanto, mucho ms til en la clasificacin el empleo de una combinacin de mtodos de clasificacin, a saber:
v Racionalismo, basado en las divisiones lgicas.
v Empiricismo, a partir de anlisis estadsticos.
v Historicismo, por clasificar considerando los desarrollos.
61 Cit. N. J. Williamson. An Interdisciplinary world and Discipline Based Classification. Structures and
relations in knowledge organization: Proceedings for the Fifth International ISKO Conference, 25-28 August. Ergon Verl, 1998, Lillie France; ed. Hadi [ et al.]: Wrzburg. Advances in knowledge Organization, 1998, 6.
62 D. W. Langridge. Classification, its kinds, systems, elements, and applications. London [etc.]: Bowker Saur,
1992.
63 Slida argumentacin sobre los desfases de la clasificacin tradicional por parte de J. Mills & V.
Broughton. Bliss Bibliographic Classification. Second Edition. Introduction and Auxiliary Schedules. London:
Butterworths, 1977. Pese a su antigedad mantiene la lcida vigencia de un anlisis muy coherente.
64 Presenta un elaborado cuadro de los diferentes mtodos de clasificacin fundamentales B. Hjrland. Theory and Metatheory of Information Science. A New Interpretation. Journal of Documentation, 1998, 54, 5 : 606-621, en p. 612.

148 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


v Pragmatismo, basado en el anlisis de las finalidades y las consecuencias,
En la sociedad informacional la multidisciplinariedad es la norma,65 que genera
nuevos campos de conocimiento y asociaciones interdisciplinaria entre ellos, incapaces de ser representados por la organizacin acadmica de disciplinas. Si antes importaba discriminar el saber, ahora es preferible hacer relevantes las similitudes entre las disciplinas y la interdisciplinariedad entre reas de conocimiento. Se
desencadena as un proceso de conocimiento muy dinmico por la misma interdisciplinariedad: un inters suscita un nuevo campo multidisciplinario de conocimiento,
que luego puede continuar como un rea de conocimiento interdisciplinario y derivar por fin hacia una nueva disciplina.
A partir de los nuevos fundamentos epistemolgicos multidisciplinarios,66 la clasificacin debe asumir la flexibilidad como un instrumento imprescindible para responder con eficacia y rapidez a cualquier posible demanda en referencia directa al
entorno intelectivo y de conocimiento, tanto de los productores como de los usuarios. Los sistemas de recuperacin de informacin deben adecuarse a cada uno de
los proyectos y finalidades de los usuarios, as como acomodarse a las nuevas identidades disciplinarias y reas multidisciplinarias, que no son ni estticas ni homogneas. La clasificacin se orienta, entonces, en opinin de B. Hjrland,67 hacia tres
perspectivas analticas:
v Adaptacin a las necesidades informativas concretas de las colectividades factual y usual68, en el marco del constructivismo social.
v Anlisis del contenido, con especial hincapi en el estudio del comportamiento durante la bsqueda de informacin, segn los diferentes dominios del
conocimiento.
v Estudio de la funcionalidad de los sistemas de recuperacin de informacin,
con el fin de enmendar un funcionamiento inadecuado.
El objetivo de la adopcin de estas perspectivas es doble:
v Proporcionarle soporte a una nueva epistemologa, en la que los fenmenos
han de ser clasificados en el contexto de las actividades e intereses del usuario,
en flagrante contradiccin con el empirismo y el racionalismo clsicos.
Di
v sear la organizacin de una nueva epistemologa pragmtica, para optimizar el
aprendizaje y el uso del conocimiento.
65 Documentada afirmacin de C. Beghtol. General Classification Systems: Structural Principles for
Multidisciplinary specification. Structures and relations in knowledge organization: Proceedings for the Fifth
International ISKO Conference, 25-29 August Ergon Verl, 1998, Lille France; ed. By Hadi [ et al.]:
Wrzburg, 1998.
66 Documentada afirmacin de C. Beghtol. General Classification Systems: Structural Principles for
Multidisciplinary specification. Structures and relations in knowledge organization: Proceedings for the Fifth
International ISKO Conference, 25-29 August Ergon Verl, 1998, Lille France; ed. By Hadi [ et al.]:
Wrzburg, 1998.
67 Theory and Metatheoryop. cit.
68 En feliz y estimulante definicin que ha hecho B. Calenge. Les politiques dacquisisition: constituer une
collection dans une bibliothque. Pars: Circle de la Librairie, 1994.

Modelos tericos y elementos funcionales para el anlisis de contenido... 149

En este nuevo contexto, siguiendo las consideraciones de C. Beghtol69, la clasificacin debe atender tres retos:
v Otorgarle una nueva funcin a las disciplinas, como principio prioritario estructural en la clasificacin, dentro de la epistemologa pragmtica.
Re
v conocer la distincin entre la ficcin y no ficcin, como principio secundario
estructural en la clasificacin.
Lo
v grar que las tcnicas de recuperacin de informacin respondan de la forma ms apropiada a una interrogacin online sobre documentos electrnicos.
B. Hjrland y H. Albrechtsen70 han realizado un profundo anlisis sobre las implicaciones de estos tres retos, he aqu sus conclusiones:
1 En la nueva epistemologa pragmtica, la clasificacin no es descriptiva y neutral
respecto a la definicin y organizacin de las disciplinas y las comunidades discursi vas, sino que se transforma en un instrumento del constructivismo social en la generacin del conocimiento. La ciencia no es un simple reflejo de la realidad, sino
una institucin social que manifiesta una ideologa en la investigacin del entorno. La clasificacin consiste, entonces, en evaluar los valores, metas y resultados
de hacer ciencia en un determinado sentido. La investigacin en la clasificacin
tiende actualmente a adoptar una posicin metodolgica de realismo pragmtico:
realismo, cuando la clasificacin le concede prioridad al fundamento, es decir a los
procesos; pragmatismo, cuando la clasificacin atiende a la aplicacin: En ambas
dimensiones de la clasificacin, la fundamental y la aplicada, el referente comn
es el orden natural, definido por C. Beghtol.71
2 Epistemolgicamente, tiene perfecto sentido la distincin entre ficcin, para referirse a toda la informacin sobre planteamientos cientficos, respecto de la no ficcin, en referencia a toda la informacin sobre tcnica aplicada. En los sistemas
electrnicos modernos de informacin, donde la polirrepresentacin es la constante, esta divisin es muy til.
3 En los actuales sistemas de recuperacin online se plantea la disyuntiva de si la informacin debe ser extractada a partir de los documentos o si los documentos online deben permanecer como unidades documentarias. Los semilogos J. Kristeva
primero, M .M. Bakhtin despus,72 concibieron el texto como un mosaico, un trasunto de otros varios textos a los que est referido. El texto se compone de unas
unidades capaces de ser integradas en otros textos, premisa que ha sido amplia y
profundamente estudiada en el anlisis documental de contenido. La investigacin en clasificacin tiende a desarrollar una mejor comprensin de los diferentes
69 Knowledge Domains: Multidisciplinary and Bibliographic Classification Systems. Knowledge Organization, 1998, 25, 1-2 : 1-9.
70 An Analysis of Some Trends in Classification Researh. Knowledge Organization, 1999, 26, 3 : 131-139.
71 Knowledge Domains op. cit. p. 2.
72 Speech genres and other late essays. Ed. by C. Emerson & M. Holmquist. Austin: University of Texas Press,
1986.

150 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


puntos de acceso de materia en el campo de las anotaciones, para ser utilizados con
una mayor pertinencia en la recuperacin interactiva. Esta tendencia implica un
profundo conocimiento en lo concerniente a la produccin de documentos y la
valoracin de la informacin.
La constatacin de los problemas expuestos y el planteamiento de los retos expresados, han hecho que la investigacin en clasificacin pergee tres vas resolutivas
1 La utilizacin de los lenguajes de clasificacin existentes (CDU, LCC, DDC) a los
que, sin embargo, les hayan sido incorporadas ciertas innovaciones para su adaptacin al nuevo entorno. Este es el caso del proyecto para transformar el DDC en
una gua de materias en Internet, mediante:
v La incorporacin de un glosario terminolgico complementario al DDC, para
un uso ms eficaz en Internet.
La
revisin de los ttulos del DDC, para obtener una mayor expresividad y cav
pacidad de difusin.
La
elaboracin de prototipos de la Gua Temtica Dewey en la red, a partir de
v
los resultados de las dos actividades anteriores.73
Es sta una tendencia que sigue los pasos de las innovaciones de los tesauros en Internet, con base en las cuales se prefiere incidir en una nebulosa de asociaciones y
diluir la organizacin jerrquica, de tal modo que las remisiones RT, USE, UP, son
sustituidas por Considere tambin, o, mucho ms novedosamente, Elegido desde.74
2 La adaptacin de los mayores sistemas de clasificacin existentes, a travs de tres
proyectos de revisin:
v Bliss Bibliographic Classification 2, que incorpora la notacin retroactiva,
junto con una estructura facetada, emplazamientos opcionales y clases de fenmenos para tpicos sin disciplina.
v Reconfiguracin de la CDU por McIlwaine y Williamson, que utilizan la estructura facetada del BBC2. El objetivo consiste en otorgarle a la CDU una estructura que le proporcione una mayor capacidad interdisciplinaria y
desarrolle en ella un rea similar a la Clase de Fenmenos del BBC2.75
v Desarrollo de enlaces entre descriptores de tesauros y ttulos del DDC, como
el proyecto de Olson, iniciado a partir de la definicin del campo de estudio de
la mujer.
3 La elaboracin de nuevos sistemas de clasificacin capaces de ser aplicados a las
necesidades plurales de la creacin del conocimiento multidisciplinario y la difusin electrnica, mediante la sustitucin de las disciplinas acadmicas por tipos
de textos y el desarrollo de los tpicos anlogos o tpicos homlogos. El proyecto ms
73 Realiza una sistemtica descripcin del proyecto D. Vizine-Goetz. Dewey as an Internet Subject
Guide. Advances in Knowledge Organization, 1998, 6 : 191-197.
74 Sugiere M. Lykke Nielsen. Future Thesauri: GAT kind of Conceptual Knowledge do Searchers
Needs? Advances in Knowledge Organization, 1998, 6 : 51-64.
75 Una explicacin por parte de uno de los actores del proyecto nos la ofrece N.J. Williamson. An Interdisciplinary world op. cit.

Modelos tericos y elementos funcionales para el anlisis de contenido... 151

avanzado es el Spectrum de la Britannica Online (1998), que reconoce dos niveles,


uno primero, facetado en diez grupos, y uno segundo especfico, ms acadmico.
Es un orden viewpoint que enfatiza la interrogacin desde las perspectivas.76
Una correcta reflexin analtica sobre estas tres vas de investigacin en clasificacin, nos permite apuntar la doble dimensin de adaptacin que la sociedad informacional est desarrollando como campo de trabajo.
a) El diseo de sistemas de clasificacin que organicen el conocimiento siguiendo el
modelo de pensamiento relacional hipertextual. Si bien es til, en efecto, la incorporacin
de estructuras facetadas, comienza a ser evidente la conveniencia de evolucionar
desde los grandes sistemas de clasificacin precoordinados hacia otros de indizacin por descriptores virtuales, mediante una asignacin automtica.77 La finalidad entraara desarrollar una indizacin automatizada semntica que fomentara
los hiperenlaces y vnculos dinmicos78 hasta generar una red de hipertesauros.79
El objetivo de este diseo relacional en la clasificacin no es otro sino el de asegurar relevancia en la recuperacin de informacin, que ya no procede slo de unidades fsicas de informacin sino de un compendio innmero e intangible de recursos electrnicos. Si el desarrollo de los metadatos se orienta a mejorar la
recuperacin de informacin, la investigacin sobre lenguajes de marca, como el
RDF,80 busca hallar alternativas para una clasificacin de los nuevos recursos.81
b) La representacin del usuario y sus necesidades informativas en los sistemas de
clasificacin, para hacer una recuperacin pertinente de la informacin; esto es,
convertir estos sistemas en una gua experta de investigacin. En este sentido es sumamente til analizar las oraciones sustantivas de informacin al interrogar al
usuario, para extraer las pequeas piezas de informacin textual82 susceptibles de precisar
76 Expone C. Beghtol. General Classification Systems op. cit.
77 Una propuesta que dise con precisin A. Bayarri. La CDU en el contexto de las bases de datos documentales: indizacin automtica con descriptores virtuales, asignados a partir del contenido. Desarrollo de un prototipo
en el sistema de micro ISIS de UNESCO. Madrid. CINDOC, 1996.
78 Es sumamente ilustrativa la comunicacin de C.G. Figuerola & J.L. Alonso Berrocal & A.F. Zazo
Rodrguez. Nuevos puntos de vista en la Recuperacin de Informacin en la Web. Los sistemas de informacin al servicio de la sociedad: actas de las jornadas. VI Jornadas Espaolas de Documentacin. Valencia:
FESABID, 1998: 273-280.
79 L. West & P. Murray-Rust. Steps towards the global linking of knowledge. Managing Information,
1998, p. 36-39.
80 Cifr. T. Bray. RDF and Metadata. XML.co. June, 1998. Disponible en Internet
http://www.xml.com/xml/pub/98/06/rdf.htm [Consulta 19 abril 2001]. Tambin en E. Miller An
Introduction to the Resource Description Framework. D Lib Magazine. May, 1998. Disponible en
Internet http://www.dlib.org/dlib/may98/miller/05miller.html.
81 Analiza E. Mndez Rodrguez. RDF: un modelo de metadatos flexible para las bibliotecas digitales
del prximo milenio. 7es Jornades Catalanes de Documentaci. Les biblioteques i els centres de documentacial
segle XXI: pea clau de la societat de la informaci. Disponible en Internet:
http://www.bib.uc3m.es/~mendez/publicaciones/7jc99/rdf.htm [Consultado 29 de abril 2001].
82 Cifr. J.A. Sillines. Argumentation-based indexing for information retrieval from learned articles.
Journal of Documentatio, 1992, 48, 4 : 387-401. Tambin C.D. Paice. A Thesaural Model of Information Retrieval. Information Processing & Management, 1991, 27, 5 : 433-447.

152 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


la recuperacin por contenido contextual. Esta orientacin adquiere su plena eficacia mediante el desarrollo de redes neuronales en los SARI, as como en los topic
maps. Una va de investigacin muy atractiva ser aquella que se dirija a la representacin del usuario mediante la introduccin de categoras definidas a partir del
estudio de usuarios. La consecucin de esta representacin exige la definicin de
un paradigma en donde el usuario sea un elemento activo, as como una metodologa que materialice la presencia del usuario a travs de la consideracin de aspectos subjetivos (intencionalidad en la bsqueda) y aspectos objetivos (tema de
la necesidad informativa).

TENDENCIAS EN EL ANLISIS DE IMGENES


Es fcilmente perceptible la forma en que la imagen adquiere en la sociedad informacional una vigorosa y nueva dimensin en sus funciones y en su valor. La imagen ha
redescubierto su efectividad semitica en la comunicacin y se orienta ya hacia la
constitucin de un nuevo cdigo que precisar sus nuevos modos de lectura y escritura.83 Es tambin perfectamente constatable cmo los notables progresos en la tecnologa sobre imgenes digitales, as como el masivo almacenamiento microinformtico,
facultan para un correcto tratamiento de la imagen. Estas capacidades, semitica y tecnolgica, se suman a la necesidad de reutilizar imgenes, por lo que ha llegado a ser imperioso el desarrollo de sistemas de recuperacin de informacin grfica.
La recuperacin de informacin grfica ha seguido dos modelos estratgicos:
1 Tcnicas de recuperacin conceptual sobre los textos que identifican la imagen
(ttulo, pie de foto) o que describen la imagen, aplicando las tcnicas de indizacin diseadas para documentos textolingsticos y que constituyen un proceso
analticodescriptivo inadecuado para la naturaleza de la imagen.84
2 Tcnicas de recuperacin automtica de imgenes en la rbita de las tecnologas
de tratamiento de la imagen digital, que Enser agrup en cuatro modelos, a saber:
lingsticolingstico, visualvisual, lingsticovisual y modelo mixto,85
83 Son sumamente interesantes a este respecto los trabajos de J.A. Ortega Carrillo. Alfabetizacin visual
y desarrollo de la inteligencia: programa de intervencin didctica basado en el entrenamiento de capacidades perceptivo visuales, grafo motrices y de lectura crtico analtica de la imagen, Granada: Fundacin Educacin y
Futuro: Fundacin Genesian, 1996. Tambin el Proyecto Fin de Carrera presentado en la Facultad
de Humanidades, Comunicacin, Documentacin de la Universidad Carlos III Madrid del D.F.
Arranz Lago. Internet y el Libro electrnico frente a la cultura tradicional. Getafe: D. F. Arranz Lago, 2000.
84 Hacen especial hincapi en este desfase T. Kato & T. Kurita. Visual interaction with Electronic Art Gallery. En: M. Tjoa & R. Wagner (eds.). Database and Expert Systems Applications. Proceedings of
the International Conference: Viena, 1990; O. Firschein. Image Undestanding Program at ARPA.
IEEE Expert, 5, 10 (October 1995) : 8-38; T. Kanade. Inmersion into Visual Media. New Applications of Image Understanding. IEEE Expert, 1: 11( February 1996) : 73-80; H. Treat. Searching
Images Using Ultimedia anager. Information Services & Use, (1996) , 16 : 15-24.
85 Cifr. Progress in Documentation Pictorial Information Retrieval. Journal of Documentation, 51 : 2
(June 1995) : 126-171.

Modelos tericos y elementos funcionales para el anlisis de contenido... 153

ampliamente analizados por Robledano Arillo.86 Un repaso al estado de la cuestin acredita que en el momento presente y en un futuro prximo, la inteligencia
artificial debe recurrir a las tcnicas de representacin normalizada de conceptos
y al contenido icnico en los lenguajes documentales, pero con un claro sesgo hacia la semiologa de la imagen.
Es evidente que el desarrollo de la recuperacin de imgenes, dentro de la recuperacin de informacin, sera ms efectivo si se elaborasen investigaciones que integraran ambas tendencias, pero no existe una clara determinacin en esta va metodolgica. Esto explica que la recuperacin de imgenes siga dos sistemas:

Sistemas visuales automticos


Pensados para una aplicacin en dominios restringidos estos sistemas utilizan funciones de similaridad por atributos de color, textura y estructura de la imagen y de los
objetos de la imagen,87 caracteres primitivos en opinin del profesor Eakins, en tanto
que no se ha investigado con suficiencia el reconocimiento automtico de objetos y
contenido icnico, los que comportan un nivel de abstraccin mucho mayor. Apenas
se estn esbozando proyectos para reconocer tipos de objetos y escenas concretas.
Estos sistemas encuentran en su desarrollo problemas matemticos de tipo algortmico (generar un vector de caractersticas grficas para cada atributo visual de recuperacin, as como un algoritmo de similaridad entre estos vectores), pero su limitacin
ms significativa est en su campo de aplicacin. La tendencia ms comn es la aplicacin en el contenido intrnseco de la imagen; esto es, el conjunto de atributos derivados de
los caracteres materiales de la imagen, bien mediante la distribucin en el espacio de
las sustancias constitutivas de la imagen tradicional, bien en el anlisis de distribucin y
relacin entre los pixeles de la imagen electrnica. Una recuperacin de imgenes sera
tanto ms eficaz cuanto considerase el contenido extrnseco de la imagen; esto es, el contenido conceptual de la imagen, cuya abstraccin intelectiva es producto de la accin humana en una fase de representacin cognitiva, o en la alimentacin de una base de conocimientos capaz de asociar conceptos y patrones grficos.
El contenido extrnseco de la imagen tiene como elementos estructurales la percepcin de la imagen, que relaciona la forma de la imagen y los patrones cognitivos
del indizador88 y se proyecta en el espacio icnico (permitiendo inferencias a partir
de la apariencia) y el espacio plstico (orden de valores cromticos y compositivos);
y el texto anejo o referido a la imagen. La lectura de la imagen estar definida por la
interrelacin entre los espacios plstico, icnico y textual.
86 Tendencias actuales y perspectivas futuras en la recuperacin de informacin grfica. En: F. J:
Garca Marco (ed.) Actas del III Encuentro de ISKO Espaa, Getafe, 19-20 de noviembre de 1997. Zaragoza, 1997, p. 119-132.
87 Cit. J. Eakins. Automatic Image Content Retrieval: are we getting any where? Abstract of paper presented at
the 3rd ELVIRA conference: May 1996.
88 Analizan J. R. Hilera & V. J. Martnez. Redes Neuronales Artificiales: Fundamentos, Modelos, Aplicaciones.
Madrid: Rama, 1995, p. 23.

154 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


La recuperacin en un sistema automtico visual mediante atributos extrnsecos
reclama el diseo de una base de conocimiento en la que se puedan asociar conceptos con conos o atributos plsticos. Las bases de conocimiento almacenan de manera formalizada representaciones simblicas de reglas o de hechos y siguen un modelo muy simple consistente en el empleo de reglas de produccin silogstica: IF
(condicin) y THEN (conclusin). Mediante este modelo la base de conocimiento
relaciona atributos intrnsecos (color, textura, contorno) de fragmentos de imgenes aislados previamente y representados matemticamente, con conceptos susceptibles de ser representados por imgenes fcilmente aislables.
Este sistema de recuperacin mediante atributos extrnsecos slo es factible en
dominios restringidos, por cuanto que es inabarcable representar todo el conocimiento visual susceptible de manifestarse en cualquier imagen de modo tan simple y
vlido para cualquier usuario y uso. Es preciso, adems, que la generacin de la base
de conocimiento sea humana, a la que luego seguir un proceso automtico de
aprendizaje del propio sistema para la generacin automtica de nuevas reglas que
mejoren la base. Es problemtico tambin, por ltimo, representar matemticamente de modo tan simple los objetos, puesto que los objetos no formalizados presentan una morfologa muy variada.

Sistemas visuales mixtos


Permiten bsquedas en las que se emplean conjuntamente las tcnicas del modelo de recuperacin visual visual y las representaciones textuales por indizacin de
imgenes en una base de datos textual, ya sea relacional (Multimedia Manager), ya
documental (Corbis).
Sin duda son los sistemas que mejor se adecuan a la tendencia actual en los sistemas de recuperacin de imagen, dada su capacidad para representar y recuperar contenidos con distintos grados de abstraccin. Son sistemas muy tiles para recuperar
imgenes sobre un tema cuyos atributos visuales son difciles de definir; y adems
reducen el tiempo de recuperacin al ampliar la capacidad de seleccin del usuario
entre imgenes similares.
Los sistemas visuales mixtos presentan actualmente tres modalidades, a partir
siempre de un sistema visual puro:
Integracin con un sistema lingstico

Permiten una recuperacin mediante consultas visuales y lingsticas, utilizando tres estrategias:89 un ojeo de imgenes a partir de categoras temticas; consultas
89 Han sido tipificadas y descritas por C. Olivia Frost et al. Research on Human centered Design
and Evaluation of Multimode Image Retrieval. En: Fourth Delos Workshop: Image Indexing and Retrieval, San Miniato, Pisa, Italy, 28-30 August, 1997, ERCIM Workshop Proceedings n 97- W004. Disponible en Internet http://www.ercim.org/publication/ws-proceedings/DELOS4/frost.pdf [consulta 24 de
abril 2001].

Modelos tericos y elementos funcionales para el anlisis de contenido... 155

fundamentadas en el texto, mediante palabras clave, y consulta visual, a travs de


una imagenejemplo, como gua en la estrategia de bsqueda; sumamente til cuando
el usuario desconoce la terminologa especfica del rea de inters solicitada en su
interrogacin.
Este modelo se utiliza en el sistema Retrieval Ware Image Server, de Excalibur
Technologies, as como la aplicacin Ultimedia Manager, con tecnologa QBIC de
IBM, que permite analizar y recuperar imgenes a partir del color, textura, forma y
posicin del objeto grfico, en tanto que atributos. La consulta puede realizarse,
bien cumplimentando campos relacionales de la base de datos textual asociada a
imgenes, bien permitindole al usuario seleccionar atributos para recuperar por
coincidencia, incluso permitindole dibujar formas con el ratn en la pantalla.
Integracin con un modelo de representacin visual y recuperacin lingstica

Prototpico es el sistema ART MUSEUM, donde se encuentran integrados dos


mdulos:
v QVE o de la imagen. Recupera a partir de caracteres morfolgicos de las imgenes digitalizadas empleando grficos visuales aplicados sobre un ndice de
contornos de todas las imgenes almacenadas por el sistema, que el usuario
puede dibujar esquemticamente e introducir en el sistema mediante una pizarra electrnica.
v QVD o de usuario. Relaciona la descripcin de sensaciones de un usuario ante
la imagen con las imgenes que provocan esa misma sensacin en el usuario a
partir del color, el elemento ms representativo de las sensaciones en las imgenes. El mtodo consiste en el registro del usuario y de los adjetivos que utiliz. El sistema relaciona los conceptos abstractos sensitivos del usuario con
los atributos formales y morfolgicos que los han inferido.
Integracin con un modelo de clasificacin sobre el texto anejo a la imagen

Modelo presente en los sistemas WebSEEK, Visual SEEK y Web Chip,90 dirigidos a imgenes tomadas de la red. El mtodo analtico consiste en extraer caracteres
visuales por histogramas y regiones de color, para luego analizar el texto anejo a la
imagen mediante tcnicas de indizacin automatizada contra categoras temticas
elaboradas por indizacin humana.
Todos estos modelos, sin embargo, adolecen de un mismo inconveniente: la escasa insistencia en una investigacin ms profunda de las necesidades de los usuarios para la consecucin de unas estrategias de bsqueda ms pertinentes, as como
una escasa evaluacin de los sistemas de recuperacin de imgenes desde la perspectiva del usuario.
90 Segn exponen Shih Fu Chang et al. Finding Images/Video in Large Archives. Columbias Content Based Visual Query Project. D Lib Magazine, February, 1997. Disponble en Internet
http://mirrored.ukoln.ac.uk/lis-journals/dlib/dlib/dlib/february97/columbia /02chang.html.

156 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001

Tendencias en el anlisis automtico de imgenes de video.


Campo de investigacin en notable desarrollo pese a no haber diseado todava
tcnicas automticas de anlisis de imgenes, capaces de recuperar por atributos semnticos de alto nivel de abstraccin como los iconogrficos e iconolgicos. El actual
estado de la tecnologa informtica no permite su uso en exclusividad, sino que la recuperacin automtica de imgenes de video ha de ser un complemento en la labor de
anlisis documental por parte de documentalistas, quienes identifican conceptos y
realizan la transcodificacin de la imagen al texto lingstico, salvo en los casos en que
las imgenes de video van acompaadas de texto ilustrativo de su contenido, en cuyo
caso es posible usar sistemas de clasificacin o indizacin automticos.91
Empero, la investigacin en torno al anlisis automtico de imgenes de video
est captando un creciente inters cientfico,92 de tal modo que son reseables seis
reas de investigacin:
Reconocimiento automtico de secuencias

Segmentacin de la totalidad de un video en unidades temticas menores. La


fragmentacin exige un complejo anlisis de contenido de alto nivel semntico, por
lo que este sistema slo permite resultados cuando se representa un texto explicativo de la imagen o se acompaa el video de una transcripcin del texto hablado.
Segmentacin temporal de secuencias de video

Identifica los planos dentro de las secuencias de video mediante parmetros formales capaces de detectar cambios de plano.
Anlisis de movimiento de cmara y objetos que componen la imagen

Permite segmentar planos de larga duracin en unidades menores y ms homogneas, por lo que es muy til para identificar los fotogramas ms representativos.
Identificacin de los valores de encuadre y del tipo de objetivo utilizado

Va de investigacin muy compleja por cuanto precisa tcnicas especficas de


anlisis semntico de las imgenes.

91 Registro de resultados concretos, en este caso, hallamos en R. K. Srhari. Automatic Indexing and
Content Based Retrieval of Captioned Images. Computer, (September 1995) 28, 9 : 49-56; tambin
en N. C. Rowe. Precise and Efficient Retrieval of Captioned Images: The MARIE Project. Library
Trends, (Feb. 1999) 48, 2 : 475-495.
92 Ofrecen un estado de la cuestin M. J. Witbrock & A. G. Hamptmann. Speech Recognition for a
Digital Video Library. Journal of the American Society for Information Science (May 1998) 49 , 7 : 619-632;
Ph. Aigrain & H. Zhang & P. Dragutin. Content Based Representation and Retrieval of Visual
Media: A State of the Art Review, Multimedia Tools and Applications, 1996, 3 : 179-202; D. P.
Huijmans & A. W. M. Semeulders (eds.). Visual Information and information Systems. Third international
conference VISUAL 99 Amsterdam, The Netherlands, June 2-4 1999 Proceedings.Berlin [etc]: Springer,
1999.

Modelos tericos y elementos funcionales para el anlisis de contenido... 157


Anlisis del sonido

Campo de investigacin que apunta hacia tres elementos analticos:


Deteccin, segmentacin y representacin de las distintas categoras de
sonido en un video.
Iden
tificacin de los hablantes.

Trans
cripcin del discurso oral, si bien este discurso debe ser suficientemen
te extenso y explcito del contenido. Es el elemento que ms resultados est
proporcionando en la investigacin, como demuestra el proyecto Informedia,93 donde el usuario puede utilizar consultas visuales y textuales.

CONCLUSIONES
La exposicin realizada a lo largo del presente artculo nos permite pergear los
siguientes como los hitos ms reseables de nuestra argumentacin:
1. En la sociedad informacional el conocimiento se genera, comunica y representa
de modo muy distinto a la jerarquizacin taxonmica que organiz el conocimiento y clasific las ciencias desde el siglo XIX, modelo sobre el que se disearon los primeros lenguajes de clasificacin.
2. Estos lenguajes de clasificacin, pues, deben responder a dos interrogantes: la eficacia en incorporar la conducta y el contexto cultural del usuario en los sistemas
de informacin; plantear y definir qu es materia en el mensaje informativo del hiperdocumento.
3. Las ciencias protagonizan una vigorosa y doble orientacin evolutiva hacia la especializacin, pero tambin hacia la transversalidad. Los nuevos fenmenos de
interdisciplinariedad, multidisciplinariedad y pluridisciplinariedad afectan la capacidad organizativa de los sistemas de clasificacin.
4. La clasificacin debe adoptar una flexibilidad condicionada por el constructivismo
social, la pujanza del anlisis de contenido y los estudios de funcionalidad de los
sistemas de recuperacin de informacin.
5. La clasificacin, pues, tiene planteados tres contenciosos en la sociedad informacional: debe transformarse en un instrumento del constructivismo social; debe
insistir en la diferencia entre ficcin (informacin cientfica) y noficcin (tcnica
aplicada), y debe considerar el documento electrnico como unidad documentaria,
esto es, un mosaico de mensajes.
6. Las vas resolutivas apuntadas se dirigen hacia: el uso de los lenguajes de clasificacin existentes, con innovaciones de adaptacin al nuevo entorno; el rediseo de
los lenguajes de clasificacin existentes, y la elaboracin de nuevos lenguajes de
clasificacin.
93 Describen M. J. Witbrock & A. G. Hamptmann, op. cit.

158 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


7. La recuperacin de informacin grfica ha seguido dos modelos estratgicos: tcnicas de recuperacin conceptual y recuperacin automtica.
8. Estos modelos, no integrados, originan dos sistemas de recuperacin de imgenes:
los sistemas visuales automticos(similaridad por atributos de color, textura y estructura de la imagen), y los sistemas visuales mixtos que usan la imagen y el texto
en la recuperacin, y cuyas modalidades son: la integracin con un sistema lingstico; la integracin con un mdulo de representacin visual y recuperacin lingstica, y la integracin con un modelo de clasificacin sobre texto anejo a la imagen.
9. El anlisis automtico de imgenes de video an debe utilizar la transcodificacin
de la imagen a texto, si bien se estn desarrollando seis reas de investigacin: reconocimiento automtico de imgenes; segmentacin temporal de secuencias;
anlisis de movimiento de cmara; identificacin de los valores de encuadre; anlisis de sonido, y resumen automtico.

BIBLIOGRAFA.
Ph. Aigrain ; H. Zhang ; P. Dragutin. Content Based Representation and
Retrieval of Visual Media: A State of the Art Review, Multimedia
Tools and Applications, 3, 1996, p. 179-202.
H. Albrechtsen ; B. Hjrland. Information Seeking and Knowledge organization. Knowledge Organization, 24, n 3, 1997, p. 135-6.
M. M. Bakhtin. Speech genres and other late essays. Ed. By C. Emerson & M.
Holmquist. Austin: University of Texas Press, 1986.
R. Barglow. The Crisis of the Self in the Age of Information: Computers, Dolphins
and Dreams. London: Routledge, 1994.
A. Bayarri. La CDU en el contexto de las bases de datos documentales: indizacin automtica con descriptores virtuales, asignados a partir del contenido. Desarrollo de
un prototipo en el sistema de micro ISIS de UNESCO. Madrid. CINDOC, 1996.
C. Beghtol. General Classification Systems: Structural Principles for Multidisciplinary Specification. Structures and relations in knowledge organization: Proceedings for the Fifth International ISKO Conference, 25-29 August
Ergon Verl, 1998, Lille France; ed. By Hadi [ et al.]: Wrzburg,
1998.
. Knowledge Domains: Multidisciplinary and Bibliographic Classification Systems. Knowledge Organization, 25, n 1-2, 1998, p. 1-9.
T. Bray. RDF and Metadata. XML.co. June, 1998. Disponible en Internet
http://www.xml.com/xml/pub/98/06/rdf.htm [Consulta 19 abril 2001].
B. Calenge. Les politiques dacquisisition: constituer une collection dans une bibliothque. Pars: Circle de la Librairie, 1994.

Modelos tericos y elementos funcionales para el anlisis de contenido... 159


M. Caridad (coord.). La Sociedad de la Informacin. Madrid: Editorial
Centro de Estudios Ramn Areces SA, 1999.
E. Carpenter & M. McLuhan. El Aula sin muros. Barcelona: Laia, 1974.
M. Castells. La Era de la Informacin. Economa, Sociedad y Cultura. Madrid:
Alianza Editorial, 2000, vol. 1, p. 359-408.
G. Charton. Reperage de linformation sur Internet: Nouveaux utils,
approches bibliotheconomiques et microstructures. En: CDI virtuel: utilisation des rseaux pour lacces la communication. Stage national
DISTNB/Sousdirection des Technologies Nouvelles CRDP de Reims, 29 Avril
1997. Pars: Centre de Calcul, Recherche et Rseaux Jussieu, URFIST, 20
de junio 1999 [ Consulta 22 de marzo de 2001.
R.S. Clegg ; G. Palmer (eds.). The politics of management knowledge. London
[etc.]: Sage, 1996.
I. Dahlberg. Current trends in knowledge organization. En: Organizacin
del conocimiento en sistemas de informacin y documentacin: actas del I Encuentro
de ISKO Espaa. Madrid 4 y 5 de noviembre de 1993/ ed. F.J. Garca Marco.
Zaragoza: Librera General, 1995: 7-26.
C. Durieux. La Recherche Terminologique en Traduction: Pour une
approche Hipertextuelle. Meta, XIII, n 4, 1997.
J. Eakins. Automatic Image Content Retrieval: are we getting any where? Abstract
of paper presented at the 3rd ELVIRA conference: May 1996.
P. Enser. Progress in Documentation Pictorial Information Retrieval.
Journal of Documentation, 51 : 2 (June 1995), p. 126-171.
M.A. Esteban Navarro ; F.J. Garca Marco. Primeras Jornadas sobre Organizacin del Conocimiento: Organizacin del Conocimiento e In formacin Cientfica. Scire, 1, n 1, (enero junio 1995), p. 149-157.
P. Fayard. Exceso de informacin o ceguera estratgica? Consideraciones sobre la Inteligencia y el Conocimiento. Telos, vol. 44, 1996, p. 1114.
J. Feather. The Information Society. 2nd edition. London: Library Association
Publishing Ltd. 1998.
C.G. Figuerola ; J.L. Alonso Berrocal ; A.F. Zazo Rodrguez. Nuevos
puntos de vista en la Recuperacin de Informacin en la Web. Los sistemas de informacin al servicio de la sociedad: actas de las jornadas. VI Jornadas Espaolas de Documentacin. Valencia: FESABID, 1998: 273-280.
O. Firschein. Image Understanding Program at ARPA. IEEE Expert, 5: 10
(October 1995), p. 8-38.

160 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


M. Gisbert Cervera et al. Entornos Virtuales de Enseanza Aprendizaje:
Proyecto GET. Cuadernos de Documentacin Multimedia, n 6-7,1998. Disponible en Internet
http://www.ucm.es/info/multidoc/multidoc/revistacuad6-7/evea.htm.
J. R. Hilera ; V. J. Martnez. Redes Neuronales Artificiales: Fundamentos, Modelos, Aplicaciones. Madrid: Rama, 1995, p. 23.
J.R. Hilera ; S. Otn ; J. Martnez. Aplicacin de la Realidad Virtual en la enseanza a travs de Internet. Disponible en Internet
http://www.ucm.es/info/multidoc/multidoc/revista/num8/hilera-oton.html.
[Consulta 22 de marzo de 2001].
B. Hjrland. Information Seeking and Subject Representation: An activity theorical approach to information science. Westport; Connecticut; London: Greenwood,1997.
B. Hjrland. Theory and Metatheory of Information Science. A New Interpretation. Journal of Documentation, 54, n 5, (1998), p. 606-621.
B. Hjrland. An Analysis of Some Trends in Classification Researh.
Knowledge Organization, 26, n 3, 1999, p. 131-139.
D. P. Huijmans ; A. W. M. Semeulders (eds.). Visual Information and information Systems. Third international conference VISUAL 99 Amsterdam, The
Netherlands, June 2-4 1999 Proceedings. Berlin [etc]: Springer, 1999.
J. M. Izquierdo Alonso ; J. Ruiz Abelln ; J.T. Piera Lucas. Los estudios
de usuarios en los programas de gestin de calidad. Propuesta de un
marco terico integrador para el estudio del usuario de informacin.
En: Los sistemas de informacin al servicio de la sociedad: actas de las jornadas. VI
Jornadas Espaolas de Documentacin. Valencia: FESABID, 1998: 433-444.
L. Joyanes Aguilar. Cibersociedad: los retos sociales ante un nuevo mundo digital.
Madrid: McGraw-Hill, 1997.
T. Kanade. Inmersion into Visual Media. New Applications of Image Understanding. IEEE Expert, 1: 11( February 1996), p. 73-80.
T. Kato ; T. Kurita. Visual interaction with Electronic Art Gallery. En: M. Tjoa ;
R. Wagner (eds.). Database and Expert Systems Applications. Proceedings of the International Conference: Viena, 1990.
D.A. Klein. Decision analytic intelligent systems automated explanation and
knowledge acquisition. Hillsdale; New Jersey: Lawrence Erlbaum Asociates, 1994.
C. Kuhltham. Inside the search process: information seeking from the
users perspective. Journal of the American Society for Information Science, 42,
n 5, 1995, p. 361-371.

Modelos tericos y elementos funcionales para el anlisis de contenido... 161


D. W. Langridge. Classification, its kinds, systems, elements, and applications.
London [etc.]: Bowker Saur, 1992.
E. Lorente Bilbao. Las Comunidades virtuales de enseanza - aprendizaje. Disponible en Internet http: //www.ucm.es/info/multidoc/multidoc/revista/num8/eneko.html. [Consulta 22 de marzo de 2001].
M. Lykke Nielsen. Future Thesauri: GAT kind of Conceptual Knowledge
do Searchers Needs? Advances in Knowledge Organization, vol. 6 1998, p
51-64.
M. J. Lpez Huertas Prez. La representacin del usuario en la Recuperacin de Informacin. Los sistemas de informacin al servicio de la sociedad:
actas de las jornadas. VI Jornadas Espaolas de Documentacin. Valencia: FESABID, 1998: 521-528.
J. C. Marcos Recio. Fuentes de informacin, educacin y proyectos de investigacin
multimedia. Disponible en Internet http://www.ucm.es/info/multidoc/multidoc/revista/num8/jmarcos.html. [Consulta 22 de marzo 2001].
F.L. Miksa. The DDC, the Universe of Knowledge and the Post- Modern Library.
New York: Forest Press, 1998.
E. Miller An Introduction to the Resource Description Framework. D
Lib Magazine. May, 1998. Disponible en Internet
http://www.dlib.org/dlib/may98/miller/05miller.html. [Consulta 12 de
abril de 2001].
J. Mills ; V. Broughton. Bliss Bibliographic Classification. Second Edition. Introduction and Auxiliary Schedules. London: Butterworths, 1977.
C. Olivia Frost et al. Research on Human centered Design and Evaluationof Multimode Image Retrieval. En: Fourth Delos Workshop: Image
Indexing and Retrieval, San Miniato, Pisa, Italy, 28-30 August, 1997, ERCIM
Workshop Proceedings n 97- W004. Disponible en Internet http://www.ercim.org/publication/ws-proceedings/DELOS4/frost.pdf [consulta 24 de abril
2001].
J.A. Ortega Carrillo. Alfabetizacin visual y desarrollo de la inteligencia: programa
de intervencin didctica basado en el entrenamiento de capacidades perceptivo visuales, grafo motrices y de lectura crtico analtica de la imagen, Granada:
Fundacin Educacin y Futuro: Fundacin Genesian, 1996.
C.D. Paice. A Thesaural Model of Information Retrieval. Information Processing & Management, 27, n 5, 1991, p. 433-447.
G. Qin Thana. Psicologa y lenguaje. Madrid: ICE de la Universidad Complutense, 1994.

162 Investigacin Bibliotecolgica v. 15 No. 31 julio/diciembre de 2001


J. Robledano Arillo. Tendencias actuales y perspectivas futuras en la recuperacin de informacin grfica. En: F. J: Garca Marco (ed.) Actas del
III Encuentro de ISKO Espaa, Getafe, 19-20 de noviembre de 1997. Zaragoza, 1997, p. 119-132.
N. C. Rowe. Precise and Efficient Retrieval of Captioned Images: The
MARIE Project. Library Trends, 48:2 (Feb. 1999), p. 475-495.
J.A. Sillines. Argumentation-based indexing for information retrieval
from learned articles. Journal of Documentation,48, n4, (1992), p. 387401.
Shih Fu Chang et al. Finding Images/Video in Large Archives. Columbias Content Based Visual Query Project. D Lib Magazine, February,
1997. Disponble en Internet http://mirrored.ukoln.ac.uk/lis-journals
/dlib/dlib/dlib/february97/columbia /02chang.html.
R. K. Srhari. Automatic Indexing and Content Based Retrieval of Captioned Images. Computer, 28:9 (September 1995), p. 49-56.
W. Sugar. User centered perspective of information retrieval research and
analysis methods. Annual Rewiew of Information Science and Technology, 30,
1995, p. 77-109.
H. Treat. Searching Images Using Ultimedia anager. Information Services &
Use, 16, 1996, p. 15-24.
D. Vizine-Goetz. Dewey as an Internet Subject Guide. Advances in
Knowledge Organization, vol. 6, 1998, p 191-197.
L. West & P. Murray-Rust. Steps towards the global linking of knowledge.
Managing Information, 1998, p. 36-39.
N. J. Williamson. An Interdisciplinary world and Discipline Based Classification. Structures and relations in knowledge organization: Proceedings for the
Fifth International ISKO Conference, 25-28 August. Ergon Verl, 1998, Lillie
France; ed. Hadi [ et al.]: Wrzburg. Advances in knowledge Organization, vol 6, 1998.
M. J. Witbrock ; A. G. Hamptmann. Speech Recognition for a Digital Video Library. Journal of the American Society for Information Science, 49 . 7,
(May. 1998), p. 619-632.

You might also like