Ciencia de datos I.U. Investigación Informática

Ir a contenido Ir a Estudios, Gobernanza y organización
Logo UA
Realizar búsqueda
Menú
Institutos
Logo I.U. Investigación Informática   I.U. Investigación Informática
I.U. Investigación Informática
CAPACIDADES
CIENCIA DE DATOS E
INTELIGENCIA ARTIFICIAL

Ciencia de datos

Capacidades

  • Aprendizaje automático y profundo.
  • Minería de datos.
  • Big Data.
  • Inteligencia de negocio.
  • Procesamiento de lenguaje natural
  • Traducción automática
  • Publicación y gestión de datos abiertos
  • Ingeniería de requisitos y personalización web
  • Almacenes de datos e integración de datos complejos bajo demanda

 

 

En el IUII se diseñan e implementan soluciones para extraer conocimiento de los datos en sus diferentes formas, y se procesan y analizan textos para recuperar información o generar nuevos textos. En particular, se investiga en:

  • Métodos de recuperación y análisis de datos, textos e imágenes y representación de la información de grandes volúmenes, como la generada por usuarios en internet. Aplicación de tecnologías del lenguaje humano para el análisis de redes sociales, minería de opiniones, o generación de textos, entre otros.
  • Sistemas de traducción automática y traducción asistida por ordenador. Adaptación de sistemas de traducción neuronal, estadística y basados en reglas a dominios específicos y lenguas con pocos recursos.
  • Inteligencia de negocio y análisis avanzado de grandes volúmenes de datos (big data).
  • Ingeniería de requisitos, personalización web, gestión de datos abiertos (open data) y análisis centrado en el usuario. 

PROYECTOS DESTACADOS

 

SIIA

Tecnologías del lenguaje humano para una sociedad inclusiva, igualitaria, y accesible


Actualmente, la sociedad se encuentra en un momento de cambio acelerado desde el punto de vista tecnológico y de la información (no es una época de cambios sino un cambio de época), cambios que producen un aumento exponencial y heterogéneo de la cantidad de información disponible en la nueva sociedad digital. Esta sobreabundancia y heterogeneidad de la información hace imprescindible un procesamiento, comprensión y generación automática de dicha información, además de mostrarla igualitaria, inclusiva y accesible.

En este proceso de cambio, las tecnologías de la información ocupan un papel central, como reto y oportunidad, no sólo como medio de acceso, sino también como garantes de la disponibilidad, la accesibilidad y la asequibilidad de dicha información. Sin embargo, los retos tecnológicos hasta el momento se han centrado mayoritariamente en resolver el “qué” de la información que se necesita y muy poco en el “cómo” se necesita. No todo el mundo consume la información de la misma manera, puesto que no todos tenemos las mismas necesidades.

Por otra parte, este uso masivo de la información genera también un importante riesgo de aumento de los sesgos discriminatorios por razones sociales o de sexo, provocados por un mal uso del lenguaje. De esta manera, con el fin de construir documentos libres de sesgos y accesibles a todos los colectivos, en este proyecto se pretende abordar la aplicación de las Tecnologías del Lenguaje Humano para la creación, transformación, generación e interpretación de documentación inclusiva, igualitaria y accesible (IIA) para modelos de lenguaje universales.

Pagina web del proyecto

  • Grupo de investigación: Procesamiento de lenguage natural y sistemas de información (GPLSI)
  • Financiación: programa PROMETEO de la Generalitat Valenciana (Consellería de Educación, Investigación, Cultura y Deporte. Dirección General de Universidad, Investigación y Ciencia) para la realización  de proyectos de I+D+i para grupos de investigación de excelencia. El presupuesto total es de 291.256€.
  • Duración: De enero 2018 a diciembre 2021.
  • Investigador principal: Manuel Javier Palomar Sanz

gOURMET

Global Under-Resourced Media Translation


La traducción automática (TA) es una tecnología de apoyo a la comunicación cada vez más importante en un mundo globalizado. Aunque la adopción de la TA ha aumentado gradualmente en los últimos diez años, los recientes avances en TA neuronal (TAN) ha suscitado un gran interés en la industria y ha llevado a la adopción muy rápida del nuevo paradigma.

El objetivo de GoURMET es mejorar significativamente la robustez y aplicabilidad de la TAN para pares de idiomas y dominios con pocos recursos.

Para ello se desarrollan métodos que hagan que la traducción sea significativamente más robusta utilizando la intuición de que los textos traducidos contiene mucha redundancia y son una forma ineficiente de aprender a traducir.

Este proyecto combina la investigación fundamental en aprendizaje profundo y rápido, con una investigación de menor riesgo, basada en datos, para desarrollar sistemas útiles para los socios industriales de GoURMET.

Pagina web del proyecto

 
 

Paracrawl 2

Continued Web-Scale Provision of Parallel Corpora for European Languages


Este proyecto tiene por objeto mejorar y ampliar los corpus paralelos compilados en acciones anteriores en las que también participó el grupo Transducens.

Este nuevo proyecto ofrecerá un software de extracción mejorado capaz de procesar eficientemente una porción aún mayor de la web (más de 1 petabyte comprimido). Además, se aplicarán métodos neuronales de última generación para la detección de frases paralelas y el procesamiento de los corpus, haciendo especial hincapié en los pares de idiomas que actualmente carecen de recursos.

Todos los corpus están disponibles a través de un portal de datos que permite a los desarrolladores de sistemas de traducción automática seleccionar los textos que mejor se ajusten a sus necesidades.

Pagina web del proyecto

Noticias