Professional Documents
Culture Documents
INSTITUTO DE INGENIERA
QUINES SOMOS
El grupo de Ingeniera Lingstica (GIL) es un grupo de investigacin interdisciplinaria fundado en 1999 con el fin de desarrollar formalmente el rea de ingeniera lingstica en la UNAM y a nivel nacional. La sede de ste se encuentra en el Instituto de Ingeniera. El GIL representa un grupo de investigacin en el que dos reas, la lingstica y la ingeniera, se unen con el fin de resaltar el sentido de la unidad e independencia para formar un solo ncleo. El GIL se form con el objetivo de crear una base de conocimiento concerniente a la ingeniera lingstica y formar personal especializado y comprometido con el estudio y desarrollo de las diversas reas que sta ofrece. El inters de GIL radica en la realizacin de proyectos que superen las necesidades y los problemas presentados para el procesamiento de lenguaje natural, incluyendo el desarrollo de aplicaciones especficas que sirvan a las diferentes reas con las que interacta.
QU REAS TRABAJAMOS
En el GIL trabajamos conjuntamente con expertos en las reas de ingeniera lingstica, lingstica computacional y procesamiento del lenguaje natural, sobre todo. Es decir, es un rea interdisciplinar que conjuga los conocimientos de lingista y de computlogos. Hay diferencias claras entre estas subreas: la lingstica computacional se encarga de la modelacin de teora que apoyen al procesamiento del lenguaje natural en todas sus formas, siendo su preocupacin principal de ndole terica. Por su parte, la ingeniera lingstica se enfoca en desarrollar productos y/o sistemas principales para la extraccin procesamiento y generacin de informacin computacional.
BANCO TERMINOLGICO Un Banco Terminolgico se define como una coleccin de bases de datos que contienen conjuntos de datos estructurados, fiables y homogneos almacenados en una computadora. La informacin contenida en un banco es sobre una temtica de carcter cientfica y/o tecnolgica, y contiene las terminologas con sus respectivas definiciones catalogada en diferentes reas temticas. Nuestro banco cuenta con las reas de fsica, lingstica, ingeniera lingstica, metrologa, desastres y sexualidad. Existen diversas aplicaciones muy tiles para un banco de este tipo, entre ellas podemos contar, por un lado, que el banco terminolgico constituye una base de conocimiento particular para el especialista en Ingeniera Lingstica, ya que sus actividades dependen en gran medida de la informacin contenida en dicho banco; y por otro, que cualquier persona interesada en consultar trminos y definiciones de estas reas se ver beneficiado con el uso de esta herramienta, ya que le ahorrar tiempo de bsqueda y adems cuenta con las ventajas de que es una herramienta de libre acceso va Internet, que es posible que los expertos incluyan sus terminologas y, que las definiciones que se encuentran dentro del banco terminolgico pueden ser adquiridas y utilizadas sin costo alguno. CORPUS LINGSTICOS Un corpus lingstico electrnico es una coleccin de textos digitales organizados y estructurados de acuerdo a criterios lingsticos. Son una valiosa herramienta de trabajo para terminlogos, lingistas, lingistas computacionales y cualquier investigador que desee conocer la distribucin y uso de formas lingsticas de una lengua dada. Estos corpus pueden utilizarse, adems, en sistemas de resumen automtico de textos, sistemas de extraccin y recuperacin de informacin y en cualquier aplicacin de minera de textos. Actualmente, el GIL est desarrollando un corpus diacrnico de espaol de los siglos XVI al XIX, el Corpus Histrico del Espaol en Mxico (CHEM). Tambin se estn creando del corpus sincrnico: el Corpus Lingstico en Ingeniera (CLI) y el Corpus de las Sexualidades en Mxico (CSMX). Actualmente, el GIL asesora y colabora en proyectos con reconocidos lingistas mexicanos para la construccin de corpus lingsticos personalizados a sus necesidades de investigacin.
EXTRACTOR DE CONTEXTOS DEFINITORIAS (ECODE) El Extractor de Contextos Definitorios es un sistema basado en la extraccin automtica de conocimiento definitorio de textos especializados en espaol. Nuestra metodologa est basada en la bsqueda de patrones verbales definitorios para extraer contextos definitorios de acuerdo con diferentes tipos de definiciones: analticas, extensionales, funcionales y sinonmicas. Este sistema puede ser una herramienta muy til en el proceso de elaboracin de diccionarios especializados, glosarios y ontologas.
DICCIONARIO ELECTRNICO PARA LA BSQUEDA ONOMASIOLGICA (DEBO) Este diccionario es un prototipo que permite la bsqueda de trminos en el rea de fenmenos destructivos. Se trata del primer diccionario de GIL enfocado a la bsqueda inversa onomasiolgica- que rompe con los esquemas del trabajo lexicogrfico clsico al ser, por una parte, totalmente diseado con herramientas de esta rea y, en segundo lugar, por ser inverso y de nueva planta. Su finalidad es ofrecer al usuario una herramienta que vaya ms all de las bsquedas a las que est acostumbrado ya que permite introducir, mediante lenguaje natural, palabras relativas al trmino que no sean especficamente las que encontrara una definicin comn. La herramienta puede arrojar resultados con un alto ndice de coincidencia entre la bsqueda insertada y el trmino obtenido debido a las efectivas tcnicas de agrupamiento semntico con las que trabaja. La ventaja de este diccionario sobre otros es que no existen diccionarios onomasiolgicos exceptuado el de Casares- y, adems, ste ltimo no existe en lnea. ILEX (INTERFAZ LEXICOGRFICA) El objetivo de la Interfaz Lexicogrfica es proporcionar al usuario una herramienta que reduzca el tiempo de bsqueda en la extraccin y recuperacin de informacin en todas las reas del conocimiento, adems con ella el usuario podr crear campos semnticos y de relacin entre trminos que le ayuden a conceptualizar y contextualizar el foco de su investigacin. En su primera versin se enfoca nicamente a los trminos bsicos del rea de lingstica. El ILEX tom su contenido del Diccionario Bsico de Lingstica, el cual tiene como objetivo presentar terminologa bsica de lingstica de una manera precisa pero sencilla. El Diccionario Bsico se distribuye en doce temas: lingstica general, fontica, fonologa, gramtica, morfologa, sintaxis, semntica, lexicologa, terminologa, pragmtica, sociolingstica y dialctica; los cuales son retomados por el Ilex para una mejor explotacin de los trminos que en dicho diccionario se encuentran. VARIACIN LXICA INTERNACIONAL DEL ESPAOL (VALIDE) El VALIDE, o Variacin Lxica Internacional del espaol es una herramienta desarrollada por miembros del GIL entre 2005 y 2006. Se trata de una interfaz ergonmica y divertida que trata de ser una herramienta til para todo aquel que se encuentre en la bsqueda de sinnimos geogrficos o variantes lxica del espaol. El VALIDE surge como una solucin al uso ms adecuado de las variantes lxicas en contextos determinados. De tal manera que este desarrollo tiene como fin ser una herramienta, primero, para todos aquellos que deseen crear textos homogneos lxicamente y, en segundo plano, para ayudar a los especialistas e investigadores de la lengua espaola en cualquier pas de habla hispana. Este ltimo punto se ve beneficiado por la flexibilidad del VALIDE para incorporar, eliminar y/o modificar las entradas del programa.
DETECCIN DE FRAUDE Esta rea junto a la determinacin de autoras es quiz una de las ms fructferas dentro del campo de la lingstica computacional por dos razones concisas: en primer lugar ayuda de manera significativa al mbito legal dentro de una investigacin y por otro lado es un rea casi sin desarrollo en Mxico, lo que nos permite experimentar ser pioneros dentro del territorio nacional. La deteccin de un fraude se ve beneficiada por pruebas de ndole legal capaces de corroborar o mostrar los puntos clave donde el pleito jurdico puede identificar posibles culpables. Nuestros mtodos se apoyan en ndices lingsticos y anlisis estadsticos aplicados que nos llevan a proponer un mtodo nuevo y efectivo.
http://www.iling.unam.mx