Recopilación de corpus paralelo español-guaraní y experimentos iniciales con traductor automático estadístico
DOI:
https://doi.org/10.70833/rseisa17item342Palabras clave:
Corpus paralelo, Corpus bilingüe, Traducción automática estadística, GuaraníResumen
En este artículo se presenta el trabajo realizado para recolectar conjuntos de oraciones en español y guaraní a fin de crear un corpus bilingüe que servirá como base para la creación de tecnología lingüística relacionada con el par de idiomas. En este caso, se hace foco en la traducción automática del español al guaraní. El guaraní es una lengua que carece, en gran medida, de recursos digitales. Esto impide que la misma prospere en cuanto a tecnología se refiere. Para la generación del corpus se ha hecho uso de materiales digitales disponibles en la nube. Así también, se ha utilizado una plataforma web denominada Guampa con el objetivo de generar nuevas frases de forma colaborativa. Se presentan datos estadísticos del corpus generado y experimentos iniciales con Moses y su plataforma para la Traducción Automática Estadística (SMT, del inglés, Statistical Machine Translation). Los resultados pretenden servir de punto de partida para futuros experimentos en el área.
Descargas
Citas
Apertium/apertium-grn. (2020). [Python]. Apertium. https://github.com/apertium/apertium-grn (Original work published 2018)
Gasser, M. (2006). Machine translation and the future of indigenous languages. I Congreso Internacional de Lenguas y Literaturas Indoamericanas.
Gasser, M. (2018). Mainumby: Un Ayudante para la Traducción Castellano-Guaraní. CoRR, abs/1810.08603. http://arxiv.org/abs/1810.08603
Guarani Language and the Guarani Indian Tribe (Avañe’e, Jopará, Chiriguano, Mbyá). (n.d.). Retrieved March 3, 2020, from http://www.native-languages.org/guarani.htm
Hltdi/Bitext. (n.d.). GitHub. Retrieved December 1, 2020, from https://github.com/hltdi/Bitext
Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A., & Herbst, E. (2007). Moses: Open Source Toolkit for Statistical Machine Translation. Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, 177–180. https://www.aclweb.org/anthology/P07-2045
Maldonado, D. M., Villalba Barrientos, R., & Pinto-Roa, D. P. (2016, November 22). Eñe’˜e: Sistema de reconocimiento automático del habla en Guaraní. Simposio Argentino de Inteligencia Artificial (ASAI 2016) - JAIIO 45 (Tres de Febrero, 2016). http://sedici.unlp.edu.ar/handle/10915/56979
Milagros, M. P., Abdelali, A., Cowie, J., Helmreich, S., Jin, W., Ogden, B., Rad, H., & Zacharski, R. (2006). Guarani: A Case Study in Resource Development for Quick Ramp-Up MT.
morfo: Análisis y generación morfológica. (n.d.). Retrieved February 10, 2021, from http://plogs.soic.indiana.edu/morfo/
Moses—Main/HomePage. (n.d.). Retrieved May 12, 2020, from http://www.statmt.org/moses/
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). Bleu: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. https://doi.org/10.3115/1073083.1073135
Rudnick, A., Skidmore, T., Samaniego, A., & Gasser, M. (2014). Guampa: A Toolkit for Collaborative Translation. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), 1659–1663. http://www.lrec-conf.org/proceedings/lrec2014/pdf/151_Paper.pdf
Descargas
Publicado
Cómo citar
Número
Sección
Categorías
Licencia
Derechos de autor 2023 Aldo Andrés Álvarez López
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Licencia de Atribución Creative Commons CC-BY
Usted es libre de:
Compartir — copiar y redistribuir el material en cualquier medio o formato.
Adaptar — remezclar, transformar y construir a partir del material para cualquier propósito, incluso comercialmente.
Bajo los siguientes términos:
Atribución — Usted debe dar crédito de manera adecuada, brindar un enlace a la licencia, e indicar si se han realizado cambios. Puede hacerlo en cualquier forma razonable, pero no de forma tal que sugiera que usted o su uso tienen el apoyo de la licenciante.