La estrategia nacional de IA y ALIA kit: recursos públicos para innovación lingüística.

By WSN In Tecnología

23

Ene
2025

El Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS) ha desarrollado ALIA Kit, una plataforma pública y abierta que proporciona acceso a una amplia gama de recursos lingüísticos en castellano y lenguas cooficiales. Este conjunto de herramientas incluye modelos de lenguaje, modelos multimodales que integran texto, voz e imagen, metodologías, documentación y conjuntos de datos para entrenamiento y evaluación. El desarrollo de ALIA Kit se enmarca en el Plan Nacional de Tecnologías del Lenguaje de la Estrategia Nacional de Inteligencia Artificial, financiado por el Ministerio para la Transformación Digital y de la Función Pública, con fondos de la Unión Europea – Next Generation EU.

Entre los recursos destacados se encuentran los modelos de texto, diseñados para tareas como generación de texto, análisis de sentimientos y resumen automático. Estos modelos han sido entrenados con grandes corpus lingüísticos para capturar las complejidades y matices del idioma. Además, ALIA Kit ofrece modelos de traducción automática que facilitan la conversión precisa de texto entre diferentes lenguas, mejorando la comunicación y el acceso a la información en contextos multilingües.

Para respaldar el desarrollo y la evaluación de estos modelos, ALIA Kit proporciona diversos conjuntos de datos. En el ámbito textual, destaca CATalog, un corpus compuesto por más de 17.450 millones de palabras distribuidas en aproximadamente 34,8 millones de documentos de fuentes variadas, incluyendo textos curados manualmente. Este recurso está disponible en Hugging Face.

En cuanto a los datos para modelos de voz, se incluyen corpus con transcripciones detalladas, como el conjunto de datos de las sesiones de las Corts Valencianes, que contiene más de 270 horas de grabaciones de voz. Estos recursos son fundamentales para el entrenamiento de sistemas de reconocimiento y síntesis de voz de alta calidad.

Para la traducción automática, ALIA Kit ofrece corpus paralelos que permiten el entrenamiento de modelos capaces de traducir entre diferentes lenguas cooficiales. Por ejemplo, el corpus CA-GL_Parallel_Corpus contiene más de 33 millones de frases en catalán y gallego, facilitando el desarrollo de sistemas de traducción precisos entre estos idiomas.

Además, ALIA Kit ha implementado demostradores en Hugging Face Spaces, proporcionando servicios con una API gratuita que permite realizar pruebas y evaluar el rendimiento de los modelos en aplicaciones prácticas.

Es importante tener en cuenta que, aunque los modelos de lenguaje de ALIA Kit están diseñados para asistir en diversas tareas generando texto basado en los datos de entrenamiento, presentan limitaciones y posibles riesgos. Las respuestas generadas pueden no ser correctas o estar desactualizadas; por ello, es fundamental verificar siempre la información en fuentes confiables. Además, los modelos pueden reproducir sesgos presentes en los datos de entrenamiento o generar contenido inapropiado, por lo que se recomienda su uso con precaución. Se aconseja no introducir información sensible, confidencial o personal, y garantizar un uso ético y legal, evitando la generación de contenido dañino, ofensivo o ilegal. Es importante recordar que estos modelos no poseen comprensión real ni juicio humano; su funcionamiento se basa en patrones estadísticos y no deben considerarse como asesores expertos. El usuario es responsable del uso adecuado de los modelos y de asegurar el cumplimiento de las regulaciones aplicables, incluidas las relacionadas con la inteligencia artificial. El BSC-CNS, como creador del modelo, no se responsabiliza de los resultados derivados del uso por parte de terceros.

En resumen, ALIA Kit se establece como una herramienta integral que facilita el desarrollo y la implementación de tecnologías lingüísticas en lenguas españolas, ofreciendo recursos abiertos y de alta calidad que promueven la investigación y aplicaciones prácticas en el campo del procesamiento del lenguaje natural.