You are on page 1of 9

Qu es un corpus y cmo se utiliza?

En el estudio e investigacin de una lengua es esencial el trabajo con corpus, puesto que estos son los que
permiten obtener ejemplos reales con el objetivo de analizar y conocer el uso de determinadas palabras dentro
de una oracin, cul es el grado de frecuencia de un trmino o sintagma en una lengua o en qu registros se
utiliza i.e., si una palabra es propia de un registro coloquial o especializado o si es comn en el nivel culto o
en el nivel vulgar, por citar algunos ejemplos. Es ms, hay una rama de la lingstica la lingstica de
corpus especializada en la investigacin de las muestras reales de una lengua, pues a partir de estas se puede
trabajar en mltiples aspectos de una lengua, como la morfologa, la sintaxis, el lxico o la pragmtica.

Los corpus o corpora, su plural en latn se definen como aquel conjunto de datos o textos de un mismo
tipo que sirve de base a una investigacin (DPD, 2005). Para ser ms concretos, un corpus lingstico recoge
todo un vastsimo conjunto de textos, desde guiones de cine a obras de teatro, transcripciones radiofnicas o
ensayos, donde quedan almacenados un conjunto an ms amplio de trminos. Los corpus de referencia, por
tanto, sirven para recopilar aquello que se escribe en una lengua en un momento determinado. Por consiguiente,
los diferentes corpus de los que dispone la Real Academia Espaola en su pgina web muestran las formas la
lengua espaola en un momento concreto. Verbigracia, el Corpus del Nuevo diccionario histrico del
espaol (CDH) cuenta con 355 740 238 registros desde el siglo XII hasta 1975 desde este ao hasta el ao
2000, los registros se solapan con los del Corpus de referencia del espaol actual (CREA). Actualmente, los
corpus que se pueden consultar en la pgina web de la Real Academia Espaola son el CORPES XXI con
ms de 225 millones de formas en su ltima edicin, el CREA con documentos de todos los pases de
habla hispana desde 1975 hasta 2004, el CORDE que registra documentos desde el siglo XII hasta 1975
y el anteriormente mencionado CDH.

Para realizar una bsqueda en un corpus por ejemplo, en el CREA debemos seguir los siguientes pasos: en
primer lugar, en el cuadro de consulta introducimos la palabra o sintagma que deseemos buscar. Por ejemplo, la
palabra odisea. Con el resto de recuadros podemos acotar la bsqueda, ya sea para buscar esa palabra en un
autor u obra concreta, por temtica, por situacin geogrfica o por el medio en el que fue publicada. En la
imagen de abajo, la bsqueda se ha acotado por orden cronolgico, habiendo seleccionado cualquier medio, pas
y tema. Al pinchar sobre el botn Buscar, se nos remite a otra pgina.

En la siguiente pgina aparece el nmero de veces que aparece esa palabra y en cuntos documentos tiene
presencia. Como solamente aparecen 18 casos en 11 documentos, pinchamos en recuperar.

Una vez que recuperemos la bsqueda, aparecern los ejemplos con la palabra destacada, as como toda la
informacin relevante para manejarla: ao, autor, ttulo, medio en el que se public, pas y temtica, tal y como
se puede ver en la imagen de abajo.
Por ltimo, la pgina nos muestra el prrafo en el que se encuentra dicha palabra, para que de ese modo
podamos entenderla en funcin de su contexto y el trabajo lexicogrfico sea an ms preciso. Tambin cabe
destacar la presencia de otros corpus que no son los de la Real Academia Espaola, como el corpus Biblia
Medieval o el corpus del espaol, de la National Endowment for the Humanities (NEH).

Corpus lingstico

Un corpus lingstico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos
ejemplos pueden ser textos (los ms comunes), o muestras orales (generalmente transcritas). Un corpus
lingstico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas
o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su
modalidad, de la forma ms exacta posible; en cuanto a su uso, preocuparse de que su representacin sea
real. Los corpus1 tienen similitudes con los textos porque estn compuestos por ellos, por otro lado, no son
textos en s, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un
principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales
caractersticas por no poseer una estructura, sino slo una composicin. Por esta razn conviene analizar un
corpus recurriendo a herramientas y metodologa propias.
Debido a su tamao, accesibilidad, informacin lingstica y enciclopdica, muy alta fiabilidad y otras
particularidades, la complicacin de los corpus han llegado a ser uno de los principales, si no el principal,
mtodo e instrumento de la investigacin de la lengua en la lingstica general.2

La necesidad de trabajar las muestras recogidas de forma eficaz y econmica (teniendo en cuenta su enorme
extensin), ha alentado el desarrollo de una de las ramas con ms futuro de la lingstica contempornea: la
lingstica computacional. Actualmente los corpus se recogen y almacenan de manera electrnica.

Aplicacin de los corpus[editar]

Los corpus lingsticos se utilizan para hacer anlisis estadsticos y contrastar hiptesis sobre el rea que
estudian. Este tipo de corpus cada vez cuenta con ms partidarios, y gracias al estudio de la lengua que estos
corpus ofrecen, algunos postulados lingsticos que contaban con un gran respaldo dentro de la comunidad
lingstica, han sido puestos en duda.3

Se llama lingstica de corpus a la subdisciplina de la lingstica que estudia la lengua a travs de estas
muestras. Este tipo de aproximacin choca con el enfoque chomskiano que tiende a estudiar la lengua a travs
de la intuicin lingstica del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele
asociarse con la lingstica computacional, segn esta ltima se acerca a las aplicaciones del procesamiento de
lenguaje natural.

Esta disciplina se inici en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clsico
Computational Analysis of Present-Day American English (Anlisis computacional del ingls estadounidense de
la actualidad), a partir del corpus Brown, una compilacin de ingls estadounidense de aproximadamente un
milln de palabras seleccionadas de una amplia variedad de fuentes.

Criterios de clasificacin[editar]

Grado de generalidad[editar]

El grado de generalidad de un corpus depende de la medida en que sus textos han sido seleccionados con
respecto a las diversas variedades de una lengua. Los corpus especializados se orientan a una variedad
lingstica particular (sublanguage) o a un dominio restringido (lenguaje periodstico, jurdico, mdico, etc).
Por este motivo tienen el grado mnimo de generalidad. Por otro lado, los textos de los corpus generales
pertenecen a diferentes variedades lingsticas y son seleccionados porque componen el cuadro descriptivo
de la lengua en su totalidad. Se trata, por lo tanto, de corpus plurifuncionales que son a menudo usados como
recursos de referencia a la hora de estudiar una lengua, por ejemplo como fuente de datos para la elaboracin
de un diccionario. Frecuentemente los corpus generales se componen o se pueden dividir en varios subcorpus,
es decir subconjuntos de textos que pertenecen a una variedad particular.
Tamao[editar]

El tamao del corpus es determinado por el nmero de palabras que contiene el mismo corpus en el caso de
los corpus de lengua escrita. En cambio, en los corpus de lengua hablada, se tiene en cuenta las horas de
grabacin. Podemos distinguir corpus cerrados y abiertos. El primero es la versin del corpus estndar
tradicional, en el cual la cantidad de los textos y de las palabras viene ya prefijado en la fase inicial del
proyecto. Los corpus cerrados son como una especie de fotografa de una lengua a travs de los textos
seleccionados, pero no son adaptados a seguir los cambios y la evolucin que se da en una lengua como con
su naturaleza intrnsecamente dinmica. Con el fin de superar este lmite, John Sinclair propuso extender la
nocin tradicional de corpus a instrumento de observacin lingstica. Los corpus cuya funcin es
principalmente observar la lengua (monitor corpus) es un conjunto abierto de textos que cambia en el tiempo,
ya que va introduciendo textos nuevos seleccionados conforme a los mismos criterios usados para elegir
textos anteriores. Este tipo de corpus permite por ejemplo observar el carcter cambiante del lxico de la
lengua en cuestin y por lo tanto puede ser usado en contextos lexicogrficos como fuente de datos para a los
diccionarios actualizados.

Corpus representativo[editar]

Un corpus es representativo cuando tiene rasgos de todo el mbito de la variabilidad y las propiedades de una
lengua. Esto significa que un corpus debe proporcionar un modelo de las propiedades lingsticas del lenguaje
analizado de la manera ms verosmil posible. De esta manera, debe ser posible aplicar los textos del corpus a
una poblacin entera.

Autenticidad[editar]

Es otra condicin requerida para conseguir un corpus representativo. Los textos autnticos son aquellos que
se han creado en condiciones de comunicacin natural. Esto es especialmente cierto para el lenguaje hablado.
Por ejemplo, los dramas, la poesa, los subttulos de pelculas, etc. Son considerados fuentes de corpus no muy
autnticas y demasiado especficas. Debido a la influencia inevitable por parte de la lengua de la versin
original, en los corpus generales no se recogen las traducciones (s en los corpus paralelos). Hay ms
problemas relacionados con la autenticidad, como la prescripcin. Las muestras recogidas, por norma general,
no se corrigen, no se acortan ni se cambian. Incluso los errores tpicos en los peridicos y las revistas de la
lengua inglesa se consideran valiosos en cierta manera. Ellos permiten darse cuenta de las regularidades,
cmo se infringen las reglas de ortografa u otras normas formales y comprobar la direccin de las tendencias
del desarrollo lingstico.4

Equilibrio[editar]
Desde el surgimiento de los corpus se ha procurado crearlos de modo equilibrado, compuestos por diversas
fuentes y siguiendo criterios claros. Slo ms tarde aparecieron corpus que empleaban todos los textos
recogidos (corpus oportunistas). El equilibrio se consigue al establecer las proporciones de diferentes fuentes
segn ciertos criterios. Los criterios posibles son los siguientes:

Elitismo (las fuentes ms vlidas)

Legibilidad (best sellers, periodismo)

Indicadores demogrficos (mayor variedad de autores)

Accesibilidad

En cuanto a la representatividad, la pregunta esencial es qu es lo que debe reflejar un corpus? No basta slo
con decir que ste debe reflejar el idioma o su variabilidad, porque esta respuesta no es informativa. Por tanto
conviene disgregar la composicin en cuatro esferas de uso: el habla, la escritura, la audicin y la lectura, y,
adems, tomar en cuenta el nmero de usuarios de cada esfera. Los corpus oportunistas y representativos a
menudo se relacionan como etapas distintas de composicin de un nico corpus: al principio se crea un corpus
representativo y luego, de acuerdo con ciertas proporciones, se seleccionan corpus para un corpus
equilibrado.

Tipos de corpus[editar]

La tipologa de los corpus[editar]

Los corpus lingsticos se pueden dividir dependiendo del tipo de informacin que recojan.5 Tipolgicamente
los corpus pueden ser subdivididos segn

el canal comunicativo (corpus escritos y orales);

su forma de presentacin y almacenamiento (textuales y multimodales, los ltimos consistiendo en


grabaciones del sonido, imagen y sus correspondientes transcripciones);

el nmero de lenguas representadas (mono-/bi- y multilinges, corpus paralelos);

la anotacin de la lengua (no anotados y anotados morfolgicamente, fonticamente y sintcticamente);

el alcance (corpus generales y especializados);

su carcter de enfoque temporal sobre la lengua (sincrnicos y diacrnicos);6

El grado de finalizacin (finitos (estticos) y continuos (dinmicos)).


Cabe mencionar que los distintos tipos de corpus no son exclusivos, puede darse el caso de que un nico
corpus rena las caractersticas de dos de los tipos de corpus mencionados ms abajo. A continuacin
aparecen algunos tipos explicados:

Corpus general[editar]

Contiene una gran variedad de ejemplos orales y escritos de la lengua que han sido producidos por gente de
diversas edades, regiones y clases sociales. Un conocido ejemplo de este tipo de corpus es el British National
Corpus.

Corpus especializado[editar]

Aunque existe polmica sobre si es necesario saber de antemano quin y cmo va a utilizar el corpus, cada vez
es ms notable la tendencia de crear corpus de tipo general y finalidades diversas, y no corpus especializados.
Los ltimos son de tamao reducido, representan un rea especfica de la lengua y se codifican (se anotan)
acudiendo directamente a las necesidades de investigadores particulares. Los compiladores de los corpus
siguen la pliza del texto limpio: la versin original del corpus no se codifica, no se contamina con marcado
de ningn tipo para que las necesidades de unos investigadores no obstruyan el trabajo de otros. Por tanto los
corpus especializados y anotados normalmente se presentan como versiones separadas de los corpus
globales.

Corpus sincrnico y corpus diacrnico[editar]

El corpus sincrnico contiene ejemplos lingsticos recogidos en un nico momento, es decir, en un tiempo
determinado. Un ejemplo podra ser el corpus lingstico del espaol de principios del siglo XIX. El corpus
diacrnico recoge textos de diferentes pocas, como lo son por ejemplo los diferentes siglos. Se usa para ver
como palabras desaparecen, estn introducidas o cambian de significado.

Corpus finitos y continuos[editar]

Los corpus finitos ensean el estado de la lengua en un momento dado. Son tiles cuando se comparan con
otros corpus similares pero creados en otro momento en el tiempo o para otra lengua o dialecto. En los corpus
continuos se puede aplicar filtros que recojan hechos lingsticos nuevos. Normalmente estn compuestos de
textos enteros y no sus fragmentos y por eso no equilibrados. Sin embargo, la extensin de los mismos
compensa el desequilibrio.

Corpus mono-/ bi- y multilinges[editar]


Corpus monolinges permiten investigaciones sobre una lengua, mientras que corpus bi- o multilinges
recogen ejemplos de ms de una. De los corpus multilinges se distinguen tres diferentes subtipos:

Corpus comparativos[editar]

Son corpus en los cuales los textos de las diferentes lenguas son comparables en tamao y contenido, pero
donde no todas las lenguas son apuntadas necesariamente con la misma precisin.

Corpus paralelos[editar]

Son corpus con los mismos textos en todas las lenguas anotadas. Un corpus paralelo famoso es la Biblia en
todos los idiomas en los que est traducida.

Corpus alineados[editar]

Son corpus paralelos en los que no todas las lenguas tienen los mismos textos, sino que donde est anotado
qu fragmento del texto corresponde a qu fragmento del texto en el otro idioma. Estas anotaciones se
encuentran o a nivel de prrafo o bien a nivel de frases.

Corpus hablado[editar]

Adems del corpus escrito, existen tambin los corpus hablados que recogen dilogos, entrevistas,
conferencias etc. En la mayora de los casos, los fragmentos hablados van acompaados de transcripciones
ortogrficas o fonticas.

La transcripcin ortogrfica ms conocida es la subtitulacin de pelculas, mientras que la transcripcin


fontica usa el alfabeto fontico.

Los corpus hablados dependen de la situacin en la que se habla: ruidos de fondo, errores a la hora de habla,
vacilaciones y otros fenmenos hablados juegan un papel en el transcripto, tanto como volumen y entonacin.

Corpus estudiantil[editar]

Son conjuntos de datos producidos por estudiantes de lenguas extranjeras, como por ejemplo ensayos o
exmenes escritos.
Treebanks[editar]

(Del ingls: 'banco de rbol') Corpus con anotaciones sintcticas. Se usan para la investigacin y la instalacin
de programas de descomposicin.

Modelo de corpus:

Puede obtenerse fuera del contexto de la entrevista o mediante preguntas que despierten la emotividad del
hablante.

Cada situacin contextual creada durante la entrevista da lugar a un estilo de habla.

Situacin
Situacin contextual Estilo de habla
contextual

A1 Interaccin fuera del contexto de la entrevista Informal (casual)

A2 Interaccin con una tercera persona Informal (casual)

A3 Interaccin fuera de las respuestas directas a Transicin del estilo informal


A
preguntas del entrevistador (casual) al espontneo

A4 Rimas y costumbres infantiles Espontneo

A5 Peligro de muerte Espontneo

B Situacin de entrevista Formal (careful)

C Textos Lectura

Palabras aisladas Lectura


D
D Pares mnimos Lectura

You might also like