Imaxin|Software presentó ayer, en el Centro ON de Santiago de Compostela, el proyecto Carvalho, un proyecto de traducción automática estadística, de código abierto y sustentábel, entre el inglés y el gallego encuadrado dentro de la plataforma de servicios de traducción automática Opentrad y publicado bajo licencia GPL.

El proyecto está abierto a la colaboración de toda la comunidad. El objetivo es mejorare y enriquecer el corpus inglés-gallego actual, que incluye ya unos 71 millones de palabras, contribuyendo al tiempo a la plantación de especies autóctonas por toda nuestra geografía, ya que Imaxin se comprometió a hacer repoboacións forestais de árboles autóctonas segundo vaya creciendo el corpus con las aportaciones de la comunidad.
En la web del proyecto tienen instrucciones detalladas, incluso con videotitorias, en las que se indica que una de las formas de colaborar es enviándoles al proyecto corpora de inglés-gallego o de inglés-portugués. Este último si además se transforma al gallego sería de grande utilidad.
Este proyecto me la fuere parte de una nueva línea de investigación abierta en la empresa compostelá, consistente en por una parte basar la traducción automática en el uso de tecnologías de traducción estadística y por otro tomar cómo base para la misma corpus aliñados entre el inglés y el portugués de Portugal, ante la inexistencia de corpus paralelos inglés – gallego grandes de sobra. El punto de partida de esta nueva vía radica en que la traducción basada en reglas, empleada incluso el momento polo sistema de traducción Opentrad, funciona de manera excelente entre lenguas lingüisticamente próximas como es el caso del español y el gallego como por ejemplo, mas no resulta efectiva para lenguas tan distantes como el inglés y el gallego.
El tipo de traducción estadística en que se basa el proyecto Carvalho es el tipo conocido como Phrase-based Statistical Machine Translation (traducción automática estadística basada en frases). Los corpus de portugués e inglés empleados fueron obtenidos a través de las actas del Parlamento Europeo, un material libremente disponible. Sobre estos se hizo una adaptación de los tenérmelos portugueses al gallego. En grandes líneas, la metodología subxacente la este tipo de traducción automática parte de la descubierta en una primera fase de relaciones estadísticas de aliñamento entre palabras y en una segunda fase, partiendo del aliñamento de palabras se induce la relación entre chunks –esto es, segmentos– de las oraciones del corpus. Para la primera fase se empleó el sistema GIZA++ y para la segunda se empleó Moses.
Esta estrategia innovadora está a ser muy bien valorada en los principales congresos científicos españoles y portugueses de lingüística computacional y de corpus como la SEPLN, el CILC o el ICEIS de Portugal. Durante lo proceso de desarrollo de este proyecto, se enteraron de que Google había seguido una estrategia semejante, pero con algunas diferencias como como por ejemplo el hecho de que la herramienta del buscador no es quien de diferenciar a ojos vistas entre gallego y portugués.