Proiect TADARAV

Tehnologii pentru adnotarea automată a datelor audio și pentru realizarea interfețelor de recunoaștere automată a vorbirii


Proiect finanțat de Ministerul Cercetării și Inovării, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

Proiect component al proiectului complex

RETEROM

...
Proiecte paralele

COBILIRO TEPROLIN SINTERO

Descriere

Denumire: Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaştere automată a vorbirii (TADARAV)

Obiectiv general
Proiectul “Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaștere automată a vorbirii” (TADARAV) are ca scop principal proiectarea, implementarea și validarea unor tehnologii de adnotare automată a corpusurilor de vorbire. În cadrul acestui proiect se urmărește în primul rând dezvoltarea unui set de tehnologii avansate pentru generarea de transcrieri corect aliniate la semnalul vocal din corpusul colectat în proiectul component COBILIRO. Ca un efect secundar, proiectul vizează creșterea acurateții sistemului actual de recunoaștere automată a vorbirii (RAV) al laboratorului SpeeD prin reantrenarea modelului acustic pe baza întregului corpus de vorbire colectat și utilizarea unor modele de limbă mai performante generate în proiectul component TEPROLIN.

Motivație
În momentul de faţă, în diversele ţări ale lumii se vorbesc peste 7000 de limbi sau dialecte diferite. În acest context, dacă pentru limbile de circulaţie internaţională sistemele de recunoaştere automată a vorbirii (RAV) sunt foarte performante, pentru o mare parte dintre limbile existente sarcina este destul de dificilă. Motivul este foarte simplu: nu există suficiente resurse acustice şi lingvistice adnotate pentru aceste limbi. De aici şi denumirea de limbi slab-dotate. Pentru dezvoltarea unui sistem de RAV este nevoie de cantităţi uriaşe de date adnotate în vederea antrenării modelelor acustice, lingvistice şi fonetice. Crearea unor sisteme performante de RAV pentru limbile slab-dotate prin parcurgerea etapelor normale de dezvoltare (achiziţie de resurse, antrenare de modele, adaptare de algoritmi) este imposibilă în viitorul apropiat. Acest fapt motivează efortul de identificare de noi metode automate de adnotare a datele acustice şi lingvistice (existente din abundenţă, dar neadnotate) în vederea obţinerii de sisteme de RAV pentru limbi slab-dotate.
Astfel, obiectivele specifice ale proiectului TADARAV sunt:
  • Proiectarea, implementarea și validarea unor metode diverse de filtrare și aliniere a transcrierilor aproximative cu semnalul de vorbire
  • Realizarea unei analize privind diversele moduri de calcul de scoruri de încredere pentru RAV şi apoi proiectarea, implementarea și validarea unor metode diverse de generare de scoruri de încredere bine corelate cu corectitudinea transcrierii
  • Proiectarea, implementarea și validarea unei metode de adnotare automată a semnalului de vorbire utilizând multiple sisteme de RAV complementare

Planul de Lucru
Proiectul este structurat în 3 etape, corespunzătoare etapelor de raportare. Fiecare etapă se bazează atât pe rezultatele etapelor sau a studiilor anterioare din cadrul proiectului, cât și pe rezultatele obținute în proiectele paralele din cadrul proiectului complex, după cum urmează:
  • Etapa 1: Realizarea studiilor state-of-the-art pentru adnotarea automată a corpusurilor de vorbire, prin parcurgerea literaturii de specialitate în domeniu
  • Etapa 2: Proiectarea și implementarea unor soluţii de bază pentru adnotarea automată a corpusurilor de vorbire folosind sisteme de RAV existente
  • Etapa 3: Implementarea unor prototipuri / demonstratoare pentru adnotarea automată a corpusurilor de vorbire folosind sisteme de RAV existente

Rezultate Așteptate
Rezultatele așteptate în cadrul fiecărei etape a proiectului (unele bazându-se și pe rezultatele obținute în proiectele paralele din cadrul proiectului complex), sunt următoarele:

Etapa 1:

  • Studiu state-of-the-art: Metode privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotări
  • Studiu state-of-the-art: Metode pentru alinierea transcrierilor aproximative cu semnalul de vorbire
  • Studiu state-of-the-art: Metode pentru generarea scorurilor de încredere pentru RAV

Etapa 2:

  • Soluţie de bază de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare
  • Soluţie de bază de filtrare şi aliniere a transcrierilor aproximative cu semnalul de vorbire
  • Soluţie de bază pentru generarea de scoruri de încredere pentru RAV
  • Soluţie îmbunătăţită de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare

Etapa 3:

  • Raport de analiză a impactului utilizării de RAV complementare pentru generarea de adnotări în contextul îmbunătăţirii sistemelor de RAV
  • Soluţie îmbunătăţită pentru generarea de scoruri de încredere pentru RAV
  • Sistem de RAV
  • Raport de analiză a impactului utilizării transcrierilor aproximative în vederea reantrenării sistemelor de RAV
  • Raport de analiză a impactului utilizării scorurilor de încredere pentru filtrarea transcrierilor RAV în vederea reantrenării sistemelor RAV

Consorțiu

Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu” București
Universitatea Tehnică din Cluj-Napoca
Universitatea "Politehnica" București
Universitatea "Alexandru Ioan Cuza" Iași

Echipa

Universitatea POLITEHNICA din București

prof. Corneliu Burileanu

prof. Dragoș Burileanu

conf. Horia Cucu

dr. Dan Oneață

drd. Gheorghe Pop

drd. Lucian Georgescu

ing. Cristian Manolache


Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu”, București

acad. Dan Tufiș

dr. Verginica Mititelu

dr. Radu Ion

dr. Elena Irimia


Universitatea Tehnică din Cluj-Napoca

prof. Mircea Giurgiu

dr. Adriana Stan


Universitatea ”Alexandru Ioan Cuza” din Iași

prof. Dan Cristea

dr. Anca Bibiri

dr. Ionuț Pistol

dr. Diana Trandabăț


Rapoarte Științifice

  • Studiu state-of-the-art: Metode privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotări
  • Studiu state-of-the-art: Metode pentru alinierea transcrierilor aproximative cu semnalul de vorbire
  • Studiu state-of-the-art: Studiu state-of-the-art: Metode pentru generarea scorurilor de încredere pentru RAV
  • Raport etapa 1/2018
  • Raport etapa 2/2019
  • Raport etapa 3/2020

Publicații

Contact

corneliu.burileanu@upb.ro

horia.cucu@upb.ro