You are on page 1of 8

Clasificacin de documentos

De Wikipedia, la enciclopedia libre


Clasificacin del documento o documentos de categorizacin es un problema
en bibliotecologa , ciencias de la informacin y ciencias de la computacin . La
tarea es asignar un documento a una o ms clases o categoras . Esto se puede
hacer "manualmente" (o "intelectualmente") o algortmicamente . La
clasificacin intelectual de los documentos ha sido en su mayora de la
provincia de la bibliotecologa, mientras que la clasificacin algortmica de
documentos se utiliza principalmente en ciencias de la informacin y la
informtica. Los problemas que se superponen, sin embargo, y por lo tanto,
tambin hay investigaciones interdisciplinarias sobre la clasificacin de
documentos.
Los documentos para ser clasificados pueden ser textos, imgenes, msica, etc
Cada tipo de documento tiene sus problemas especiales de clasificacin.
Cuando no se especifica lo contrario, clasificacin de texto est implcito.
Los documentos pueden ser clasificados de acuerdo a sus sbditos o de
acuerdo con otros atributos (como el tipo de documento, autor, ao de
impresin, etc). En el resto de este artculo slo se considera la clasificacin
por temas. Hay dos filosofas principales de clasificacin temtica de los
documentos: el enfoque contenido en funcin y el enfoque basado solicitud.
Contenido [ ocultar ]
1 clasificacin "basada peticin" versus "basados Contenido"
2 Clasificacin contra indexacin
3 Clasificacin automtica de documentos
4 Tcnicas
5 Aplicaciones
6 Vase tambin
7 Referencias
8 Lectura adicional
9 Enlaces externos
"Basada peticin" "basada contenido" frente a la clasificacin [ editar ]

Clasificacin basada contenido es la clasificacin en la que el peso que se da a


determinados temas en un documento determina la clase a la que se asigna el
documento. Es, por ejemplo, una norma de clasificacin mucho biblioteca que
al menos el 20% del contenido de un libro debe ser de la clase a la que se
asigna el libro. [ 1 ] En la clasificacin automtica que podra ser el nmero de
veces determinado palabras aparece en un documento.
Orientado Solicitud de clasificacin (o indexacin) es una clasificacin en la que
la solicitud anticipada de los usuarios influye en cmo se clasifican los
documentos. El clasificador se pregunta: "En qu descriptores deben
encontraron esta entidad?" Y "pensar en todas las posibles consultas y decidir
por cules la entidad en cuestin es relevante" (Soergel, 1985, p 230. [ 2 ] ).
Orientado Solicitud de clasificacin puede ser la clasificacin que se dirige
hacia un grupo de audiencia o usuario particular. Por ejemplo, una biblioteca o
una base de datos para los estudios feministas pueden clasificar documentos /
Inicio de manera diferente cuando se compara con una biblioteca histrica.
Probablemente es mejor, sin embargo, para entender orientada solicitud de
clasificacin como poltica basada clasificacin : La clasificacin se realiza de
acuerdo a algunos ideales y refleja el propsito de la biblioteca o base de datos
hacer la clasificacin. De este modo no es necesariamente una especie de
clasificacin o indexacin basada en los estudios de usuarios. Clasificacin Slo
si se aplican los datos empricos sobre el uso o los usuarios deben solicitar
orientados considerarse como un enfoque basado en el usuario.
Clasificacin contra indexacin [ edit ]

A veces se hace una distincin entre la asignacin de documentos a las clases


("clasificacin") frente a la asignacin de los sujetos a los documentos ("
indexacin de temas "), sino como Frederick Wilfrid Lancaster ha argumentado,
esta distincin no es fructfera. "Estas distinciones terminolgicas", escribe,
"son bastante sentido y slo sirven para causar confusin" (Lancaster, 2003, p.
21 [ 3 ] ). la opinin de que esta distincin es puramente superficial tambin es
apoyado por el hecho de que una clasificacin sistema puede ser transformado
en un diccionario de sinnimos y viceversa (cf., Aitchison, 1986, [ 4 ] de 2004; [
5 ] Broughton, 2008; [ 6 ] Riesthuis y Bliedung de 1991 [ 7 ] ). Por lo tanto es el
acto de un etiquetado documento (digamos mediante la asignacin de un
trmino de un vocabulario controlado a un documento) al mismo tiempo, para
asignar ese documento a la clase de documentos indexados por ese trmino
(todos los documentos indexados o clasificadas como X pertenece a la misma
clase de documentos).

Automtico de documentos de clasificacin [ editar ]

Tareas automticas de clasificacin de documentos se pueden dividir en tres


tipos: la clasificacin de documentos supervisado donde algn mecanismo
externo (como retroalimentacin humana) proporciona informacin sobre la
correcta clasificacin de documentos, clasificacin de documentos sin
supervisin (tambin conocido como documento de la agrupacin ), donde se
debe realizar la clasificacin completo sin hacer referencia a la informacin
externa y clasificacin de documentos semi-supervisado , donde las partes de
los documentos que estn etiquetados por el mecanismo externo.
Tcnicas [ editar ]

Tcnicas de clasificacin automtica de documentos incluyen:


Expectativa maximizacin (EM)
Ingenuo clasificador de Bayes
Tf-idf
Indexacin semntica latente
Mquinas de soporte vectorial (SVM)
Red neuronal artificial
Algoritmos K vecinos ms prximos
Los rboles de decisin como ID3 o C4.5
Concepto de Minera
Clasificador conjunto aproximado basado
Clasificador conjunto Soft basada
Aprendizaje mltiple instancia
De procesamiento de lenguaje natural enfoques
Aplicaciones [ editar ]

Tcnicas de clasificacin se han aplicado a

filtrado de spam , un proceso que trata de discernir de spam de correo


electrnico mensajes de correos electrnicos legtimos
enrutamiento de correo electrnico , el envo de un correo electrnico enviado
a una direccin general a una direccin o buzn especfico dependiendo tema [
8]
identificacin del idioma , que determina automticamente el idioma de un
texto
clasificacin de gnero , determinando automticamente el gnero de un texto
[9]
evaluacin de la legibilidad , determinando automticamente el grado de
legibilidad de un texto, ya sea para encontrar los materiales adecuados para
diferentes grupos de edad o tipos de lectores o como parte de una mayor
simplificacin de texto del sistema
Vase tambin [ editar ]

Categorizacin
Clasificacin (desambiguacin)
Procesamiento trmino Compuesto
Concepto basado en imgenes de indexacin
Basado en el contenido de la imagen de recuperacin
Documento
El aprendizaje supervisado , aprendizaje no supervisado
La recuperacin de documentos
Clustering de documentos
Recuperacin de la informacin
La organizacin del conocimiento
Conocimiento del Sistema Organizacin
Clasificacin de la Biblioteca
El aprendizaje automtico
Mtricas de Cuerda

Tema (documentos)
La indizacin por materias
La minera de texto , web mining , la minera concepto
Referencias [ editar ]

Salta hacia arriba ^ Biblioteca del Congreso (2008). El manual de los


encabezamientos de materia. Washington, DC:. Biblioteca del Congreso,
Divisin de Polticas y Normas. (Hoja H 180: ". Asignar partidas solo para los
temas que comprenden al menos un 20% de la obra")
Salta hacia arriba ^ Soergel, Dagoberto (1985). La organizacin de la
informacin: Principios de base de datos y sistemas de recuperacin. Orlando,
FL: Academic Press.
Salta hacia arriba ^ Lancaster, FW (2003). Indizacin y resumen en la teora y
la prctica. Library Association, Londres.
Salta hacia arriba ^ Aitchison, J. (1986). "Una clasificacin como fuente de
diccionario de sinnimos:. La Clasificacin Bibliogrfica de SE la dicha como
fuente de trminos y la estructura del tesauro" Revista de Documentacin, vol.
42 N 3, pp 160-181.

Salta hacia arriba ^ Aitchison, J. (2004). "Los tesauros de BC2: Problemas y


posibilidades reveladas en un diccionario de sinnimos experimental derivado
de la programacin de Bliss Music." Dicha clasificacin Bulletin, vol. 46, pp 2026.
Salta hacia arriba ^ Broughton, V. (2008). "Una clasificacin facetas como la
base de una terminologa variada: Conversin de una estructura clasificada a
formato de diccionario de sinnimos en la Clasificacin Bibliogrfica de Bliss (2
ed.)". Axiomathes, vol. 18 N 2, pp 193-210.
Salta hacia arriba ^ Riesthuis, GJA, y Bliedung, St. (1991). "Thesaurification de
la UDC." Herramientas para la organizacin del conocimiento y la interfaz
humana, vol. 2, pp 109-117. ndice Verlag, Frankfurt.
Salta hacia arriba ^ Stephan Busemann, Sven Schmeier y Roman G. Arens
(2000). Clasificacin de mensajes en el centro de llamadas. En Sergei
Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. Sexto
Aplicada Procesamiento del Lenguaje Natural Conf. (ANLP'00), pginas 158165, ACL.

Salta hacia arriba ^ Santini, Marina; Rosso, Mark (2008), Prueba de una
aplicacin habilitada Gnero: Una evaluacin preliminar , BCS IRSG Simposio:
Orientaciones futuras de Acceso a la Informacin, Londres, Reino Unido, pp 5463
Para leer ms [ edit ]

Fabrizio Sebastiani. Aprendizaje automtico de categorizacin automtica de


texto . Encuestas ACM Informtica, 34 (1) :1-47, 2002.
Stefan Buttcher, Charles LA Clarke, y Gordon V. Cormack. Recuperacin de
Informacin: Implementacin y Evaluacin de los motores de bsqueda . MIT
Press, 2010.
Enlaces externos [ editar ]

Introduccin a la clasificacin de documentos


Bibliografa sobre Automatizado Categorizacin texto
Bibliografa sobre la clasificacin de consultas
Clasificacin del texto Pgina anlisis
Aprender a Clasificar Texto - Cap. 6 del libro de Procesamiento del Lenguaje
Natural con Python (disponible en lnea)
TechTC - Technion repositorio de conjuntos de datos de categorizacin de texto
Los conjuntos de datos de David D. Lewis
BioCreative III ACT (tarea de clasificacin artculo) conjunto de datos
Categoras :Ciencia de la InformacinProcesamiento del lenguaje
naturalRepresentacin del conocimientoLa minera de datosEl aprendizaje
automtico
Men de navegacin
Crear una cuentaIniciar la sesinArtculoHablarLeerEditarVer el historial

Pgina principal
Contenido

Contenido Destacado
Actualidad
Artculo al azar
Donar a Wikipedia
Wikimedia Shop
Interaccin
Ayudar
Acerca de Wikipedia
Portal de la comunidad
Cambios recientes
Contacto pgina
Instrumentos
Imprimir / exportar
Idiomas
Deutsch
Espaol
Euskara

Franais
Italiano

Norsk nynorsk

Basa Sunda
Suomi
Editar enlaces

Esta pgina fue modificada por ltima vez el 9 de marzo de 2014 a 13:29.
El texto est disponible bajo la Licencia Creative Commons ReconocimientoCompartir bajo la misma ; clusulas adicionales pueden aplicar. Al utilizar este
sitio, usted acepta los Trminos de Uso y Poltica de Privacidad.
Wikipedia es una marca registrada de la Fundacin Wikimedia, Inc. , una
organizacin sin fines de lucro.
Poltica de privacidadAcerca de WikipediaAviso legalPngase en contacto con
WikipediaDesarrolladoresVista mvilFundacin Wikimedia Powered by
MediaWiki

You might also like