Science data University Institute for Computing Research

Ir a contenido Ir a Estudios, Gobernanza y organización
Logo UA
Realizar búsqueda
Menú
Research Institutes
Logo University Institute for Computing Research   University Institute for Computing Research
University Institute for Computing Research
CAPACIDADES
CIENCIA DE DATOS E
INTELIGENCIA ARTIFICIAL

Science data

Capacidades

  • Aprendizaje automático y profundo.
  • Minería de datos.
  • Big Data.
  • Inteligencia de negocio.
  • Procesamiento de lenguaje natural
  • Traducción automática
  • Publicación y gestión de datos abiertos
  • Ingeniería de requisitos y personalización web
  • Almacenes de datos e integración de datos complejos bajo demanda

 

 

En el IUII se diseñan e implementan soluciones para extraer conocimiento de los datos en sus diferentes formas, y se procesan y analizan textos para recuperar información o generar nuevos textos. En particular, se investiga en:

  • Métodos de recuperación y análisis de datos, textos e imágenes y representación de la información de grandes volúmenes, como la generada por usuarios en internet. Aplicación de tecnologías del lenguaje humano para el análisis de redes sociales, minería de opiniones, o generación de textos, entre otros.
  • Sistemas de traducción automática y traducción asistida por ordenador. Adaptación de sistemas de traducción neuronal, estadística y basados en reglas a dominios específicos y lenguas con pocos recursos.
  • Inteligencia de negocio y análisis avanzado de grandes volúmenes de datos (big data).
  • Ingeniería de requisitos, personalización web, gestión de datos abiertos (open data) y análisis centrado en el usuario. 

PROYECTOS DESTACADOS

 

SIIA

Tecnologías del lenguaje humano para una sociedad inclusiva, igualitaria, y accesible


Actualmente, la sociedad se encuentra en un momento de cambio acelerado desde el punto de vista tecnológico y de la información (no es una época de cambios sino un cambio de época), cambios que producen un aumento exponencial y heterogéneo de la cantidad de información disponible en la nueva sociedad digital. Esta sobreabundancia y heterogeneidad de la información hace imprescindible un procesamiento, comprensión y generación automática de dicha información, además de mostrarla igualitaria, inclusiva y accesible.

En este proceso de cambio, las tecnologías de la información ocupan un papel central, como reto y oportunidad, no sólo como medio de acceso, sino también como garantes de la disponibilidad, la accesibilidad y la asequibilidad de dicha información. Sin embargo, los retos tecnológicos hasta el momento se han centrado mayoritariamente en resolver el “qué” de la información que se necesita y muy poco en el “cómo” se necesita. No todo el mundo consume la información de la misma manera, puesto que no todos tenemos las mismas necesidades.

Por otra parte, este uso masivo de la información genera también un importante riesgo de aumento de los sesgos discriminatorios por razones sociales o de sexo, provocados por un mal uso del lenguaje. De esta manera, con el fin de construir documentos libres de sesgos y accesibles a todos los colectivos, en este proyecto se pretende abordar la aplicación de las Tecnologías del Lenguaje Humano para la creación, transformación, generación e interpretación de documentación inclusiva, igualitaria y accesible (IIA) para modelos de lenguaje universales.

Pagina web del proyecto

  • Grupo de investigación: Procesamiento de lenguage natural y sistemas de información (GPLSI)
  • Financiación: programa PROMETEO de la Generalitat Valenciana (Consellería de Educación, Investigación, Cultura y Deporte. Dirección General de Universidad, Investigación y Ciencia) para la realización  de proyectos de I+D+i para grupos de investigación de excelencia. El presupuesto total es de 291.256€.
  • Duración: De enero 2018 a diciembre 2021.
  • Investigador principal: Manuel Javier Palomar Sanz

gOURMET

Global Under-Resourced Media Translation


La traducción automática (TA) es una tecnología de apoyo a la comunicación cada vez más importante en un mundo globalizado. Millones de usuarios hacen uso de la TA tanto para la asimilación (comprender textos escritos en otro idioma) como para la diseminación (generar borradores de traducciones para su corrección posterior). Aunque la adopción de la TA ha aumentado gradualmente en los últimos diez años, los recientes avances en TA neuronal (TAN) ha suscitado un gran interés en la industria y ha llevado a la adopción muy rápida del nuevo paradigma. Sin embargo, los sistemas de TAN requieren de una gran cantidad de textos ya traducidos de los que aprender, lo cual dificulta su adopción para la traducción entre pares de idiomas para los cuales no se dispone de grandes colecciones de textos ya traducidos. Esto es especialmente problemático para los socios industriales de GoURMET, BBC y DW, que necesitan acceso a una traducción rápida y precisa para idiomas con muy pocos recursos.

El objetivo de GoURMET es mejorar significativamente la robustez y aplicabilidad de la TAN para pares de idiomas y dominios con pocos recursos. GoURMET tiene cinco objetivos:

  1. Avanzar en el aprendizaje profundo para lenguas con pocos recursos para aplicaciones de lenguaje natural;
  2. Desarrollo de TAN de alta calidad para dominios y pares de idiomas con pocos recursos;
  3. Desarrollo de herramientas para analistas de medios y periodistas;
  4. Proveer una plataforma y servicios sostenibles y mantenibles;
  5. Difundir y comunicar los resultados del proyecto. Para alcanzar estos objetivos GoURMET se propone avanzar el estado de la cuestión en aprendizaje automático en escenario de escasez de recursos.

Para ello se desarrollarán métodos que hagan que la traducción sea significativamente más robusta utilizando la intuición de que los textos traducidos contiene mucha redundancia y son una forma ineficiente de aprender a traducir. Inspirados por el aprendizaje humano, estudiaremos métodos para construir el significado composicionalmente, sesgando los modelos para concentrar su capacidad en patrones que es probable que generalicen mejor y, por lo tanto, sean más eficientes en cuanto a los datos. También se explorarán técnicas de transferencia para construir sobre el conocimiento aprendido en tareas relacionadas y para la generación de ejemplos de entrenamiento sintéticos. Esto nos permitirá extraer conocimiento de recursos monolingües y textos traducidos a otros idiomas y dominios.

Este proyecto combina la investigación fundamental en aprendizaje profundo y rápido, con una investigación de menor riesgo, basada en datos, para desarrollar sistemas útiles para los socios industriales de GoURMET..

Pagina web del proyecto

 
 

Paracrawl 2

Continued Web-Scale Provision of Parallel Corpora for European Languages


Este proyecto tiene por objeto mejorar y ampliar los corpus paralelos compilados en dos acciones anteriores financiadas igualmente por el CEF en las que también participó el grupo Transducens. Un corpus paralelo contiene un conjunto de frases en dos idiomas de forma que para cada frase en un idioma se incluye su traducción al otro idioma. Estos datos son muy útiles en numerosas tareas de procesamiento del lenguaje natural como, por ejemplo, en sistemas de traducción automática que usan técnicas de aprendizaje automático. Las dos acciones anteriores dieron como resultado el lanzamiento del mayor corpus paralelo público existente para todos los idiomas oficiales de la UE/EEE y el inglés, así como un completo kit de herramientas de software de código abierto para buscar y extraer las frases paralelas de la web.

Este nuevo proyecto ofrecerá un software de extracción mejorado capaz de procesar eficientemente una porción aún mayor de la web (más de 1 petabyte comprimido). Además, se aplicarán métodos neuronales de última generación para la detección de frases paralelas y el procesamiento de los corpus extraídos, haciendo especial hincapié en la recolección de datos para los pares de idiomas que actualmente carecen de recursos.

Todos los corpus están disponibles a través de un portal de datos que permite a los desarrolladores de sistemas de traducción automática seleccionar los textos que mejor se ajusten a sus necesidades.

Pagina web del proyecto

Noticias