LA MIRADA ACTUAL: La RAE y Amazon Web Services presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet

jueves, 26 de mayo de 2022

La RAE y Amazon Web Services presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet

Es capaz de analizar decenas de miles de documentos a la vez. Ya ha sido probada con 8 745 563 textos digitales del español espontáneo de España y todos los países hispanohablantes de América.

En su fase inicial permite identificar extranjerismos, medir la riqueza léxica de un escrito y detectar errores lingüísticos.

Esta colaboración se enmarca dentro del proyecto Lengua Española e Inteligencia Artificial (LEIA), ideado y liderado por la RAE.

L.M.A.

JUEVES, 26 DE MAYO DE 2022

La Real Academia Española (RAE) y Amazon Web Services (AWS) han presentado esta mañana en Madrid la herramienta de análisis del español que han creado conjuntamente. Permite examinar, en muy poco tiempo y mediante sistemas de inteligencia artificial, decenas de miles de documentos de Internet a la vez con el fin de valorar el estado del español en el mundo.

Este sistema, desarrollado a partir de las tecnologías nativas de la nube de AWS y con el asesoramiento de la RAE, servirá como barómetro de distintos parámetros y será la base para la recopilación de datos masivos.

La presentación se ha llevado a cabo en la sede de la Academia y ha contado con las intervenciones del director de la RAE y presidente de la ASALE, Santiago Muñoz Machado; el director general de Amazon Web Services en España y Portugal, Miguel Álava, y el director de Tecnología de AWS en Iberia, Carlos Carús. El acto, cuya bienvenida ha estado a cargo del director de la RAE, ha sido clausurado por la secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas.

LA HERRAMIENTA RAE-AWS

En su primera versión beta, la herramienta contiene 8 745 563 documentos de España y todos los países hispanohablantes de América. Por el momento, sus fuentes se centran en el español digital espontáneo actual, especialmente el propio de textos informales obtenidos de redes sociales, foros o plataformas de venta en línea, pero también se ha incluido una representación de textos periodísticos para poder observar las diferencias entre un tipo de lenguaje y otro.

Actualmente, está dividida en tres grandes bloques que incluyen el estudio de extranjerismos, detectando su proporción en los textos; el análisis de la riqueza léxica, midiendo la diversidad de palabras a través del sistema MTLD (del inglés measure of textual lexical diversity ‘medida de la diversidad léxica textual’), y un radar de errores lingüísticos que los identifica y clasifica como ortográficos, gramaticales, léxicos, de estilo y tipográficos. Se han integrado reglas extraídas de obras normativas de la RAE.

El desarrollo de esta herramienta permitirá, entre otras acciones futuras, el análisis de la claridad del lenguaje administrativo, la comparación de calidad del español por épocas o la detección de errores comunes en asistentes de voz y otros dispositivos de IA.

La colaboración entre la RAE y AWS se enmarca en el proyecto Lengua Española e Inteligencia Artificial (LEIA). La acción busca aplicar la IA a nuestro idioma para hacer un análisis de su situación actual, cuidar su uso y velar por la unidad de nuestra lengua en todos los ámbitos, especialmente en el digital.

¿CÓMO TRABAJA LA HERRAMIENTA DE ANÁLISIS LINGÜÍSTICO?

Esta herramienta de análisis lingüístico en la nube desarrollada por la RAE y AWS sigue una arquitectura «sin servidor» y orientada a eventos. Su proceso de análisis de fuentes de datos tiene 3 fases.

En una primera fase, los documentos de las fuentes de datos se indexan mediante AWS Lambda, un servicio en la nube que permite ejecutar código sin aprovisionar ni administrar servidores, en Amazon OpenSearch Service, un sistema altamente escalable para proporcionar acceso rápido, análisis y búsqueda a volúmenes grandes de datos. Previo al proceso de indexación, hay un paso en el que se valida que cada documento contenga los campos necesarios (fecha de generación, texto, país al que pertenece y código de dicho país). Las fuentes de datos y los resultados y métricas a partir de los documentos de entrada que van a ser procesados se almacenan en Amazon S3, un servicio de almacenamiento creado para reunir y recuperar cualquier volumen de datos desde cualquier ubicación.

En una segunda fase, atendiendo a distintos criterios tales como el cálculo de estadísticas generales respecto a la variabilidad, frecuencia y riqueza del texto, así como el cálculo de errores mediante algoritmos de procesamiento de lenguaje natural (NLP, por sus siglas en inglés, dentro del campo de la inteligencia artificial y el machine learning o aprendizaje automático), se obtienen métricas que caracterizan los textos de las distintas fuentes de datos. Los algoritmos de riqueza del texto se han basado en el estado del arte, TTR (del inglés, type token ratio), o proporción de texto a palabra, y MTLD, o medida de la diversidad léxica textual. El algoritmo de procesamiento de lenguaje natural detecta errores de varias categorías y está basado en las reglas extraídas de las obras académicas. Durante todo el desarrollo del proyecto se ha usado Amazon SageMaker, un servicio completamente administrado para crear, entrenar e implementar modelos de aprendizaje automático, para la creación y prueba de algoritmos y visualizaciones, y AWS Batch, que aprovisiona de manera dinámica la cantidad y el tipo óptimos de recursos informáticos necesarios según el volumen y los requisitos específicos necesarios en cada momento.

La tercera de las fases de esta herramienta es la indexación de los resultados del análisis para su visualización, de nuevo mediante AWS Lambda. Se ha procedido a incorporar los datos indexados por fuente en la herramienta de visualización basada en Amazon OpenSearch Dashboards, facilitando a los usuarios visibilizar e interactuar con sus datos una vez han sido procesados. Tal herramienta permite aplicar filtros de manera dinámica que actualizan los resultados visuales mostrados en tiempo real.

Esta forma de trabajo en tres fases ha permitido desarrollar una herramienta que es capaz de trabajar con millones de documentos devolviendo resultados en muy poco tiempo. Ofrece una visualización en línea con filtrado de resultados en función del país de origen, fuente de datos, fecha, etc., cuyos datos pueden presentarse en gráficas y mapas visuales y sencillos. Gracias a este proyecto, la RAE podrá elaborar informes sobre diversas temáticas lingüísticas.

No hay comentarios:

Publicar un comentario