CRATER: Corpus Resources and Terminology Extraction

Estado

Finished

Fecha de comienzo

1994-03-01

Fecha de finalización

1995-12-31

Miembros

José Carlos González Cristóbal; Amalio F. Nieto Serrano

Descripción

El objetivo de CRATER es examinar la extendibilidad de los corpus multilingües modernos. Para este fin se ha añadido el español al corpus anotado de la ITU (International Telecommunications Union), que hasta ahora cubría sólo inglés y francés. Como parte de este trabajo se ha desarrollado un etiquetador mor- fosintáctico para el Español y se han revisado las versiones inglesa y francesa del corpus. Resultado de todo ello es un corpus alineado trilingue de un millón de pa- labras, que debe ser útil en otros proyectos europeos de investigación en lingüïstica computacional en general y en traducción automática en particular. Además de estos objetivos, CRATER pretende impulsar el trabajo del proyecto ET10-63 por lo que respecta a la generación de recursos mono y multilingües a partir de los corpus desarrollados. Para este fin se han desarrollado técnicas de alineamiento híbridas que incorporan metodos estadísticos y otros plausibles desde el punto de vista cognitivo. Finalmente, se han desarrollado un conjunto de herramientas para la inspección del corpus trilingue y examinar el alineamiento de palabras o expresiones.