Denumire: Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaştere automată a vorbirii (TADARAV)
Obiectiv general
Proiectul “Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaștere automată a vorbirii” (TADARAV) are ca scop principal proiectarea, implementarea și validarea unor tehnologii de adnotare automată a corpusurilor de vorbire. În cadrul acestui proiect se urmărește în primul rând dezvoltarea unui set de tehnologii avansate pentru generarea de transcrieri corect aliniate la semnalul vocal din corpusul colectat în proiectul component COBILIRO. Ca un efect secundar, proiectul vizează creșterea acurateții sistemului actual de recunoaștere automată a vorbirii (RAV) al laboratorului SpeeD prin reantrenarea modelului acustic pe baza întregului corpus de vorbire colectat și utilizarea unor modele de limbă mai performante generate în proiectul component TEPROLIN.
Motivație
În momentul de faţă, în diversele ţări ale lumii se vorbesc peste 7000 de limbi sau dialecte diferite. În acest context, dacă pentru limbile de circulaţie internaţională sistemele de recunoaştere automată a vorbirii (RAV) sunt foarte performante, pentru o mare parte dintre limbile existente sarcina este destul de dificilă. Motivul este foarte simplu: nu există suficiente resurse acustice şi lingvistice adnotate pentru aceste limbi. De aici şi denumirea de limbi slab-dotate. Pentru dezvoltarea unui sistem de RAV este nevoie de cantităţi uriaşe de date adnotate în vederea antrenării modelelor acustice, lingvistice şi fonetice.
Crearea unor sisteme performante de RAV pentru limbile slab-dotate prin parcurgerea etapelor normale de dezvoltare (achiziţie de resurse, antrenare de modele, adaptare de algoritmi) este imposibilă în viitorul apropiat. Acest fapt motivează efortul de identificare de noi metode automate de adnotare a datele acustice şi lingvistice (existente din abundenţă, dar neadnotate) în vederea obţinerii de sisteme de RAV pentru limbi slab-dotate.
Astfel, obiectivele specifice ale proiectului TADARAV sunt:
Proiectarea, implementarea și validarea unor metode diverse de filtrare și aliniere a transcrierilor aproximative cu semnalul de vorbire
Realizarea unei analize privind diversele moduri de calcul de scoruri de încredere pentru RAV şi apoi proiectarea, implementarea și validarea unor metode diverse de generare de scoruri de încredere bine corelate cu corectitudinea transcrierii
Proiectarea, implementarea și validarea unei metode de adnotare automată a semnalului de vorbire utilizând multiple sisteme de RAV complementare
Planul de Lucru
Proiectul este structurat în 3 etape, corespunzătoare etapelor de raportare. Fiecare etapă se bazează atât pe rezultatele etapelor sau a studiilor anterioare din cadrul proiectului, cât și pe rezultatele obținute în proiectele paralele din cadrul proiectului complex, după cum urmează:
Etapa 1: Realizarea studiilor state-of-the-art pentru adnotarea automată a corpusurilor de vorbire, prin parcurgerea literaturii de specialitate în domeniu
Etapa 2: Proiectarea și implementarea unor soluţii de bază pentru adnotarea automată a corpusurilor de vorbire folosind sisteme de RAV existente
Etapa 3: Implementarea unor prototipuri / demonstratoare pentru adnotarea automată a corpusurilor de vorbire folosind sisteme de RAV existente
Rezultate Așteptate
Rezultatele așteptate în cadrul fiecărei etape a proiectului (unele bazându-se și pe rezultatele obținute în proiectele paralele din cadrul proiectului complex), sunt următoarele:
Etapa 1:
Studiu state-of-the-art: Metode privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotări
Studiu state-of-the-art: Metode pentru alinierea transcrierilor aproximative cu semnalul de vorbire
Studiu state-of-the-art: Metode pentru generarea scorurilor de încredere pentru RAV
Soluţie de bază de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare
Etapa 2:
Soluţie de bază de filtrare şi aliniere a transcrierilor aproximative cu semnalul de vorbire
Soluţie de bază pentru generarea de scoruri de încredere pentru RAV
Soluţie îmbunătăţită de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare
Etapa 3:
Raport de analiză a impactului utilizării de RAV complementare pentru generarea de adnotări în contextul îmbunătăţirii sistemelor de RAV
Soluţie îmbunătăţită pentru generarea de scoruri de încredere pentru RAV
Sistem de RAV
Raport de analiză a impactului utilizării transcrierilor aproximative în vederea reantrenării sistemelor de RAV
Raport de analiză a impactului utilizării scorurilor de încredere pentru filtrarea transcrierilor RAV în vederea reantrenării sistemelor RAV
Consorțiu
Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu” București
Universitatea Tehnică din Cluj-Napoca
Universitatea "Politehnica" București
Universitatea "Alexandru Ioan Cuza" Iași
Echipa
Universitatea POLITEHNICA din București
prof. Corneliu Burileanu
prof. Dragoș Burileanu
conf. Horia Cucu
dr. Dan Oneață
drd. Gheorghe Pop
drd. Lucian Georgescu
ing. Cristian Manolache
Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu”, București
acad. Dan Tufiș
dr. Verginica Mititelu
dr. Radu Ion
dr. Elena Irimia
Universitatea Tehnică din Cluj-Napoca
prof. Mircea Giurgiu
dr. Adriana Stan
Universitatea ”Alexandru Ioan Cuza” din Iași
prof. Dan Cristea
dr. Anca Bibiri
dr. Ionuț Pistol
dr. Diana Trandabăț
Rapoarte Științifice
Studiu state-of-the-art: Metode privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotări
Studiu state-of-the-art: Metode pentru alinierea transcrierilor aproximative cu semnalul de vorbire
Studiu state-of-the-art: Studiu state-of-the-art: Metode pentru generarea scorurilor de încredere pentru RAV
Raport de analiză a impactului utilizării de RAV complementare pentru generarea de adnotări în contextul îmbunătăţirii sistemelor de RAV
Raport de analiză a impactului utilizării transcrierilor aproximative în vederea reantrenării sistemelor de RAV
Raport de analiză a impactului utilizării scorurilor de încredere pentru filtrarea transcrierilor RAV în vederea reantrenării sistemelor RAV
Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu” (ICIA) a fost înfiinţat în 1994 ca un centru de competenţa şi diseminare activă de cunoştinţe în domeniul Inteligenţei Artificiale (IA). ICIA are un nucleu de personal permanent de cercetare şi un număr restrâns de cercetători consultanţi. Pe lângă aceştia, un număr variabil de colaboratori pe bază de contract, în principal studenţi la doctorat sau la masterat, participă la activităţile de cercetare/dezvoltare ale institutului. În cadrul procedurilor de evaluare anuale ale Academiei Române, în fiecare an, de la înfiinţarea sa, ICIA a fost calificat drept instituţie de excelenţă. În 2001 a câştigat competiţia pentru Centrele de Excelenţă (în Ştiinţa şi Tehnologia Informaţiei) organizată de Ministerul Educaţiei şi Ştiinţei. În 2002 a fost clasat ca fiind cel mai performant institut al Academiei Române (dintre cele 60 de institute şi centre). Din anul 2002, ICIA a obţinut dreptul de organizare de doctorat în sistemul Academiei Române. În 2008 ICIA a fost acreditat ca instituţie şi unitate de cercetare-dezvoltare, unitate componentă a sistemului de cercetare-dezvoltare de interes naţional, conform HG NR. 551/2007.
Invatamantul tehnic s-a afirmat inca de la inceputul secolului XIX pe firmamentul valorilor culturale ale municipiului Cluj-Napoca. Realizarea statului national unitar roman, la 1 decembrie 1918, a deschis perspective noi pentru invatamantul de toate gradele. La 1 februarie 1920 este infiintata Scoala Superioara Industriala, noua institutie scolara trecand apoi printr-o suita de reorganizari si devenind, in 1922, Scoala de Conductori Tehnici. Era unica scoala de acest nivel in tara, cu profil electromecanic, precursoare a Politehnicii clujene.
O alta scoala cu profil tehnic creata in 1920 a fost Scoala de Conductori de Lucrari Publice, cu specific de drumuri si poduri, veritabila precursoare a Facultatii de Constructii. Scoala de conductori tehnici, care s-a bucurat de un important prestigiu in cadrul industriei romanesti, a fost reorganizata in 1937 ca Scoala de Subingineri Electromecanici.
In anul 1947, in urma unui memoriu adresat Ministerului Educatiei Nationale privind infiintarea unei Politehnici la Cluj cu trei facultati: Constructii, Electromecanica si Silvicultura, prin prevederile Legii pentru reforma invatamantului din august 1948, s-a creat Institutul de Mecanica din Cluj , avand o facultate cu doua sectii: Termotehnica si Masini de Lucru. Cresterea nevoii de cadre tehnice a facut ca, in anul 1953, Institutul de Mecanica sa se transforme in Institutul Politehnic din Cluj.
Dupa revolutia din 1989, invatamantul superior romanesc a revenit la traditia romaneasca corelata cu sistemul occidental. Incepand din 1992, Institutul Politehnic si-a schimbat denumirea in Universitatea Tehnica din Cluj-Napoca , iar din cele trei facultati existente la momentul respectiv, prin restructurare s-au constituit sapte facultati: Automatica si Calculatoare, Electronica, Telecomunicatii si Tehnologia Informatiei, Inginerie Electrica, Constructii, Constructii de Masini, Mecanica, Stiinta si Ingineria Materialelor (devenita in anul 2011 Ingineria Materialelor si a Mediului), precum si Colegiul Universitar Tehnic, Economic si de Administratie. In anul 1998, structura Universitatii Tehnice din Cluj-Napoca s-a completat cu Facultatea de Arhitectura si Urbanism iar in anul 2007, cu Facultatea de Instalatii.
Din anul 2012, Universitatea Tehnica din Cluj-Napoca are treisprezece facultati in urma fuziunii cu Universitatea de Nord din Baia-Mare care a devenit Centrul Universitar Nord din Baia-Mare avand in componenta Facultatea de Inginerie, Facultatea de Litere, Facultatea de Resurse Minerale si Mediu si Facultatea de Stiinte. In prezent, Universitatea Tehnica din Cluj-Napoca pregateste specialisti prin studii de licenta, masterat, doctorat si studii postuniversitare, numarul studentilor depasind 20000. Cercetarea stiintifica performanta, fundamentala sau aplicativa, reprezinta o preocupare esentiala a cadrelor didactice si cercetatorilor din UTCN. Potentialul stiintific de care dispune Universitatea a indreptatit-o sa organizeze sau sa fie implicata in organizarea unor manifestari stiintifice de anvergura, cu o larga participare a specialistilor romani si straini.
Universitatea POLITEHNICA din București este cea mai veche și prestigioasă școală de ingineri din România. Tradițiile ei sunt legate de înființarea, în anul 1818, de către Gheorghe Lazăr, a primei Școli tehnice superioare cu predare în limba română, la mănăstirea Sfântul Sava din București. În anul 1832, aceasta este reorganizată în Colegiul de la Sfântul Sava.
.
La 1 octombrie 1864, a fost înființată “Școala de Poduri și Sosele, Mine și Arhitectură”, care la 30 octombrie 1867 devine “Școala de Poduri, Șosele și Mine”, cu durata studiilor de 5 ani. Sub conducerea lui Gheorghe Duca, la 1 aprilie 1881, instituția capătă o nouă structură, sub denumirea de “Școala Națională de Poduri și Șosele”; la 10 iunie 1920 a fost înființată Școala Politehnica din București, având patru secții: Electromecanică, Construcții, Mine și Metalurgie, Secția Industrială..
Din noiembrie 1920 denumirea se schimbă în POLITEHNICA din București.
La data de 3 august 1948 a fost înființat Institutul Politehnic din București, care cuprindea inițial 4 facultăți și în care, din 1950, au apărut majoritatea facultăților actuale. In baza rezoluției Senatului din noiembrie 1992, Institutul Politehnic din București a devenit Universitatea POLITEHNICA din București.
În Universitatea POLITEHNICA din București sunt pregătiți oamenii fără de care societatea, așa cum o cunoaștem astăzi, nu ar putea funcționa – inginerii. Suntem un popor cu abilități tehnice moștenite, cu înclinare nativă pentru inginerie și, de multe ori, inginerii români și-au adăugat numele în panteonul științei mondiale.
Universitatea "Alexandru Ioan Cuza" din Iași (UAIC)
O istorie a Universităţii din Iaşi ne poartă prin lecţiile manualului de istorie a românilor, încă din secolul al XVI-lea. Dacă, în general, existenţa unei universităţi este legată de contextul istoric, în România Universitatea din Iaşi a avut de multe ori rolul de creatoare de istorie. În secolul al XVII-lea, de exemplu, universitatea a fost un adăpost al culturii bizantine; mai târziu a fost unul dintre cei mai importanţi factori ai răspândirii limbii române şi ai culturii autohtone; după înfiinţarea sa ca prima instituţie de învăţământ superior modern a României, universitatea a furnizat statului cei mai importanţi gânditori şi actori în viaţa publică pentru ca, în perioada comunismului, să menţină viu spiritul umanist.