Tarea 2

DICCIONARIOS E INFORMÁTICA.
- TAREA EVALUABLE 2
1.- Consulta de corpus informatizados

Corpus del español: http://www.corpusdelespanol.org/
CREA de la Real Academia Española: http://www.rae.es/recursos/banco-
de-datos/crea
El corpus informatizado lo forman un conjunto de textos completos o fragmetos
en formato electrónico que permite el almacenamiento de gran cantidad de datos
lingüísticos para una rápida consulta.
He seleccionado estos dos en español porque prefería comparar dos corpus
basados en una misma lengua para establecer mejor las diferencias o similitudes que
pueda haber entre ambos.
El primero de ellos, a simple vista, parece más complejo que el CREA, que
presenta una página inicial más sencilla y menos recargada.
Si hacemos el tour guiado en cinco minutos nos damos cuenta de las grandes
posibilidades que presenta el trabajar con una herramienta de este tipo. Posee más de
cien millones de palabras y da la opción de que aparezca en inglés y en español.
Estas palabras proceden de más de veinte mil textos fechados entre el s. XVIII y
el XX por lo que se puede decir que es un corpus de uso actual.
Los vocablos los podemos encontrar a través de diferentes procedimientos como
a través de palabras exactas, comodines, etiquetas, lemas, categorías gramaticales o
combinando todo lo anterior. Además también vemos la frecuencia de uso, bien a través
de los registros o bien a través del período histórico, siendo ambos también métodos de
búsqueda. Por último, pero no menos interesante es la búsqueda semántica, es decir, por
las colocaciones de las palabras, lo que permite eliminar resultados que puede que no
sean factibles para nuestra búsqueda.
La posibilidad de crear mi propio listado de palabras y frases para poder
utilizarlas posteriormente es algo que me ha sorprendido gratamente porque facilita
mucho el trabajo.
El CREA tiene un número mayor de palabras seleccionadas de libros, revistas y
sirve como punto de partida para investigadores, publicistas, periodistas y demás
usuarios de la lengua en un nivel profesional.
Este corpus permite la búsqueda a través del autor, la cronología, el medio en el
que aparece la geografía y el o los temas en los que quiera que aparezca.
Como he comentado anteriormente, a simple vista, es una búsqueda más sencilla
porque se hace menos agobiante la página principal pero, sin embargo, algo que he visto
positivo del primero es que, al buscar una palabra, los ejemplos aparecen justo debajo
mientras que en el CREA tienes que abrir un enlace para verlo.
He buscado la palabra tsunami para comprobar la diferencia entre ambos corpus
y, una vez realizada la búsqueda, he observado que en el de Mark Davies aparece dos
veces frente a los treinta casos en diecinueve documentos distintos del CREA.
Con las expresiones ocurre lo mismo. “Dar las uvas” aparece dos veces en el
CREA frente a ninguna en el Corpus del español. Al igual ocurre con la palabra “panty”
que sí aparece en el CREA pero no en el segundo.
Creo que los corpus informáticos son necesarios en los tiempos que corren
porque, como he dicho con anterioridad, facilita mucho el trabajo de búsqueda de una
palabra para ver tanto el número de veces que está en uso como las épocas en que se ha
usado más y con qué significado.
3.- Analizador
He buscado, como sugería en el ejercicio, la palabra envoyais.
Una vez hecha la búsqueda, nos dice que el verbo está en primera persona y que
no tiene sujeto: Le verbe envoyais, à la 1e personne, ná pas de sujet.
Si pincho donde pone “Rapport” añade más información, en este caso
morfológica, diciendo que pertenece a la primera conjugación: Conjugaison 1.
Justo debajo de donde dice que la primera persona no tiene sujeto aparece escrito
lo siguiente: Toutes les phrases ou propositions ont, normalement, un sujet. Parfois, par
souci de rapideté ou relâchement de style, le pronom personnel de la première personne
est omis (Ai rencontré Martine. Ne parviens pas a me décider vraiment. Lámour,
comáis pass…) Voulez-vous verifier síl ságit dúnchoix délibéré ou el ún oubli.
Aquí nos explica que todas las frases u oraciones normalmente llevan sujeto
pero que a veces se omite y nos advierte de que si el omitirlo es una acción deliberada o
no.
6.- Lectura de Gregory Grefenstette
La palabra corpus designa la recopilación de material lingüístico hecha con un
propósito de investigación concreto, es decir, es una recopilación extensa de textos
(escritos, orales o de ambos tipos) recogidos con el fin de servir como muestra
representativa de una lengua.
Es por este motivo por el que lenguas como la inglesa o la española presentan un
corpus con el material recogido y que cada usuario puede hacer uso de él para sus
sucesivos estudios o investigaciones.
La recopilación de vocablos para estos corpus viene dada a través de los libros,
revistas, periódicos y habla oral que se dan a diario en la calle. Pero hay una diferencia
entre este método de recopilación, o más concretamente, entre las palabras que forman
parte del corpus y la web como corpus.
La web es un medio que no deja de crecer continuamente y no solo eso, sino que
también es modificable por cada usuario, es decir, cualquier persona puede escribir o
publicar algo en ella sin necesidad de que lo que escribe pase por algún filtro normativo.
Es por esto que en ella encontramos palabras y expresiones que no están recogidas ni
por la academia ni por los diccionarios de uso.
Que todo el mundo pueda escribir en ella no significa tampoco que predomine
un uso incorrecto de la lengua, de hecho, como afirma Gregory Grefenstette en su
artículo, en un caso anecdótico de no saber usar bien la lengua, en algunos aspectos
como el dequeísmo se podría escoger la forma correcta sin saber nada de la lengua,
simplemente usando los recuentos de la Web, es por eso que sí puede funcionar como
corpus lingüístico.
Reuniendo y clasificando un amplio número de páginas, se puede agrupar un
corpus tan amplio como se desee y no sólo eso, sino que cada persona (con un poco de
interés por la lengua) se puede ir haciendo su propio corpus, al igual que ofrecía esa
posibilidad el Corpus del español de Mark Davies.
Además de crear un corpus de palabras, al observarlas más exhaustivamente
veríamos qué tipos de sintagmas forman o cuál de ellos le sigue, lo que permite hacer un
estudio de la lengua en su más amplio sentido.
Por eso el autor termina diciendo que “El futuro lexicógrafo no solamente
dominará su lengua, sino también el ordenador. Lexicógrafos computacionales llevarán
a cabo la lexicografía en lugar de ser llevada a cabo a través de artesanos de la lengua”.
7.- Comentario general
Este trabajo me ha servido para investigar, analizar y recapacitar sobre cómo
funciona y para qué sirve un corpus lingüístico ya que tres de las dos preguntas
anteriores iban sobre ello.
Lo que más me ha llamado la atención con respecto al CREA y al Corpus del
español es la cantidad de palabras y formas de búsqueda que hay en ellos. No imaginaba
que algo así existiese ni que dieran tantas facilidades para encontrar aquello que se
desea y que además, como en el corpus del español, uno mismo se pueda ir creando el
suyo.
Al principio el corpus del español me ha parecido bastante fácil de manejar,
sobre todo porque hay un tutorial de unos cinco minutos que te lo deja todo muy claro,
bastante más fácil de encontrar que el del CREA, sin embargo, este último es más
sencillo, quizá sea porque la página es más sencilla, no tan “agobiante”, por lo menos
para mí. Por el contrario en el primero los ejemplos aparecen antes que en el segundo,
en el que tienes que pinchar un enlace para que te lleve a ellos.
El analizador me ha parecido bastante curioso ya que te hace observaciones
sobre qué persona está el verbo en este caso, haciendo mención de que a lo mejor la
ausencia de sujeto no es por casualidad y sí por olvido. Recuerda que todas las frases
tienen que llevar sujeto aunque a veces se omita, lo que me parece de gran importancia
si no se domina una lengua.
Por último, el ejercicio de la lectura me ha resultado interesantísimo. Jamás me
había planteado que la web sirviera como corpus (tengo que admitir que hasta que
empecé el máster no sabía lo que era el corpus) dado mis carencias en este tema. Con
ella he averiguado que puedes establecer la frecuencia con que se utiliza una palabra e
incluso con palabras que no forman parte de la norma pero que sí que se encuentran en
el habla.
Esto ha hecho que se habrá un gran campo para los lexicógrafos ya que su objeto
de estudio no está solamente en los textos de toda la vida (prensa, novelas…) sino que
todo lo que está en la Red será pertinente para ellos.
Bibliografía
CordialAnalyseur:
http://www.synapsefr.com/Cordial_Analyseur/Presentation_Coridial_Analyseur.htm
Consultado el 10/12/2014
Corpus del español: http://www.corpusdelespanol.org/ Consultado el

15/12/2014
Grefenstette, Gregory (2002): “The WWW as a Resource for Lexicography”.
RAE- Banco de datos (CREA) Corpus de referencia del español actual.
http://corpus.rae.es/creanet.html Consultado el 15/12/2014

Tarea 2

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tarea 2

Uploaded by

Copyright:

Available Formats

DICCIONARIOS E INFORMÁTICA.

1.- Consulta de corpus informatizados

Corpus del español: http://www.corpusdelespanol.org/ Consultado el

You might also like