Ciència de dades Institut Universitari d'Investigació Informàtica

Ir a contenido Ir a Estudios, Gobernanza y organización
Logo UA
Realizar búsqueda
Menú
Instituts
Logo Institut Universitari d'Investigació Informàtica   Institut Universitari d'Investigació Informàtica
Institut Universitari d'Investigació Informàtica
CAPACITATS
CIÈNCIA DE DADES I
INTEL·LIGÈNCIA ARTIFICIAL

Ciència de dades

Capacitats

  • Aprenentatge automàtic i profund.
  • Mineria de dades.
  • Big Data.
  • Intel·ligència de negoci.
  • Processament de llenguatge natural
  • Traducció automàtica
  • Publicació i gestió de dades obertes
  • Enginyeria de requisits i personalització web
  • Magatzems de dades i integració de dades complexes sota demanda

 

 

En l'IUII es dissenyen i implementen solucions per a extraure coneixement de les dades en les seues diferents formes, i es processen i analitzen textos per a recuperar informació o generar nous textos. En particular, s'investiga en:

  • Mètodes de recuperació i anàlisi de dades, textos i imatges i representació de la informació de grans volums, com la generada per usuaris en internet. Aplicació de tecnologies del llenguatge humà per a l'anàlisi de xarxes socials, mineria d'opinions, o generació de textos, entre altres.
  • Sistemes de traducció automàtica i traducció assistida per ordinador. Adaptació de sistemes de traducció neuronal, estadística i basats en regles a dominis específics i llengües amb pocs recursos.
  • Intel·ligència de negoci i anàlisi avançada de grans volums de dades (big data).
  • Enginyeria de requisits, personalització web, gestió de dades obertes (dades obertes) i anàlisi centrada en l'usuari. 

PROJECTES DESTACATS

 

SIIA

Tecnologies del llenguatge humà per a una societat inclusiva, igualitària, i accessible


Actualment, la societat es troba en un moment de canvi accelerat des del punt de vista tecnològic i de la informació (no és una època de canvis sinó un canvi d'època), canvis que produeixen un augment exponencial i heterogeni de la quantitat d'informació disponible en la nova societat digital. Aquesta sobreabundància i heterogeneïtat de la informació fa imprescindible un processament, comprensió i generació automàtica d'aquesta informació, a més de mostrar-la igualitària, inclusiva i accessible.

En aquest procés de canvi, les tecnologies de la informació ocupen un paper central, com a repte i oportunitat, no sols com a mitjà d'accés, sinó també com a garants de la disponibilitat, l'accessibilitat i l'assequibilitat d'aquesta informació. No obstant això, els reptes tecnològics fins al moment s'han centrat majoritàriament a resoldre el “quin” de la informació que es necessita i molt poc en el “com” es necessita. No tothom consumeix la informació de la mateixa manera, ja que no tots tenim les mateixes necessitats.

D'altra banda, aquest ús massiu de la informació genera també un important risc d'augment dels biaixos discriminatoris per raons socials o de sexe, provocats per un mal ús del llenguatge. D'aquesta manera, amb la finalitat de construir documents lliures de biaixos i accessibles a tots els col·lectius, en aquest projecte es pretén abordar l'aplicació de les Tecnologies del Llenguatge Humà per a la creació, transformació, generació i interpretació de documentació inclusiva, igualitària i accessible (IIA) per a models de llenguatge universals.

Pàgina web del projecte

  • Grup d'investigació: Processament de lenguage natural i sistemes d'informació (GPLSI)
  • Finançament: programa PROMETEU de la Generalitat Valenciana (Conselleria d'Educació, Investigació, Cultura i Esport. Direcció General d'Universitat, Investigació i Ciència) per a la realització  de projectes d'I+D+i per a grups d'investigació d'excel·lència. El pressupost total és de 291.256 €.
  • Duració: De gener 2018 a desembre 2021.
  • Investigador principal: Manuel Javier Palomar Sanz

gurmet

Global Under-Resourced Mitjana Translation


La traducció automàtica (TA) és una tecnologia de suport a la comunicació cada vegada més important en un món globalitzat. Encara que l'adopció de la TA ha augmentat gradualment en els últims deu anys, els recents avanços en TA neuronal (TAN) ha suscitat un gran interès en la indústria i ha portat a l'adopció molt ràpida del nou paradigma.

L'objectiu de Gurmet és millorar significativament la robustesa i aplicabilitat de la TAN per a parells d'idiomes i dominis amb pocs recursos.

Per a això es desenvolupen mètodes que facen que la traducció siga significativament més robusta utilitzant la intuïció que els textos traduïts conté molta redundància i són una forma ineficient d'aprendre a traduir.

Aquest projecte combina la investigació fonamental en aprenentatge profund i ràpid, amb una investigació de menor risc, basada en dades, per a desenvolupar sistemes útils per als socis industrials de Gurmet.

Pàgina web del projecte

 
 

Paracrawl 2

Continued Web-Scale Provision of Parallel Corpora for European Languages


Aquest projecte té per objecte millorar i ampliar els corpus paral·lels compilats en accions anteriors en les quals també va participar el grup Transducens.

Aquest nou projecte oferirà un programari d'extracció millorat capaç de processar eficientment una porció encara major de la web (més d'1 petabyte comprimit). A més, s'aplicaran mètodes neuronals d'última generació per a la detecció de frases paral·leles i el processament dels corpus, posant l'accent principalment en els parells d'idiomes que actualment manquen de recursos.

Tots els corpus estan disponibles a través d'un portal de dades que permet als desenvolupadors de sistemes de traducció automàtica seleccionar els textos que millor s'ajusten a les seues necessitats.

Pàgina web del projecte

Notícies