Cum funcționează sinteza vorbirii

versiune de tipărit

Discursul de sinteză astăzi se numește tehnologie care poate converti informații de text în vorbire comună. Odată cu dezvoltarea de mașini „inteligente“, această tehnologie devine din ce în ce mai importantă, și în fiecare zi mai mult și mai cere perfecțiune. De fapt, în acest moment, am dezvoltat o serie de metode de sinteză de vorbire, despre care vom vorbi.

Deci, ia în considerare mai tehnologii și metode de sinteză a vorbirii. După cum sa menționat deja, există mai multe metode de sinteză de vorbire. Astfel, există mai multe abordări de bază:

sinteza parametric;
concatenare (compilare) sinteză;
Sinteza prin norme (în text tipărit);

sinteza Parametric vă permite să-l înregistreze pentru orice limbă, dar nu poate fi utilizat pentru textul de bază non-pre-definite. sinteza vorbirii parametrică este utilizat atunci când un set de mesaje este limitat. Calitatea acestei metode de sinteză poate fi foarte mare.

De fapt, o sinteză de vorbire parametri - este realizarea principiului de funcționare a vocoder. În cazul sintezei semnalului audio parametric prezentat anumit număr de parametri în mod continuu diferite. Pentru formarea vocalelor generatorul de semnal de ton este utilizat pentru consoane - generator de zgomot. Cu toate acestea, această metodă este folosită în mod obișnuit pentru înregistrarea vocii în compozițiile muzicale, și de multe ori nu este nici măcar despre sinteza vocii pure, ci mai degrabă pe modulare.

Sinteza totală a discursului de regulile pot juca pe textul în prealabil necunoscut. Această metodă nu utilizează elemente ale vorbirii umane, și se bazează pe algoritmi pre-programate, lingvistice și acustice.

Aici, de asemenea, există divizarea - există două abordări ale acestei metode de sinteză. Primul - o sinteză de vorbire formant în conformitate cu normele, iar al doilea - sinteza articulatorii. sinteza formant bazată pe formant - rezonante de frecvență ale vocii difuzorului. Algoritmul de sinteză formant simulează funcționarea tractului vocal uman, care funcționează ca un set de rezonatoare. Astăzi, din păcate, majoritatea sintetizatoare. lucrează exclusiv la sinteza formant, fără a înțelege greu de formare, dar, desigur, este o tehnologie versatil și promițătoare. Metoda articulatory încearcă să modifice dezavantajele formant prin adăugarea modelului de turnare particularități fonetice ale sunetelor individuale.

Există, de asemenea, o tehnologie de sinteză vocală în conformitate cu normele, care utilizează segmentele înregistrate de vorbire naturale. Pentru că, după toate metodele de compilare, spun câteva cuvinte despre ele sunt folosite mai des.

În funcție de „fragmente“ cât de mare de vorbire utilizate pentru sinteza, astfel de tipuri de sinteză recuperate:

mikrosegmentny (microunde);
allophonic;
diphones;
poluslogovoy;
silabic;
unități de sinteză de dimensiuni arbitrare.

Cele mai frecvent utilizate metode allophonic și diphones. Pentru metoda de sinteză de vorbire diphone, elementele de bază sunt toate combinațiile posibile foneme binom, alofon pentru o - combinație de context, stânga și dreapta (alofon - foneme exemplu de realizare, care se datorează mediului său specific fonetic). În același timp, diferite tipuri de contexte sunt combinate în clase în funcție de gradul de intimitate acustic.

Avantajul unor astfel de sisteme este că acestea fac posibilă pentru a sintetiza textul nu este setat în prealabil textul, dar dezavantajul - că calitatea vorbirii sintetizate nu este comparabilă cu calitatea vorbirii naturale (la granițele distorsiunea componentelor de reticulare poate să apară). De asemenea, este foarte dificil de controlat caracteristicile intonatie de exprimare, deoarece caracteristicile cuvintelor individuale se pot schimba în funcție de context sau de tipul de expresie.

Cu toate acestea, acest lucru este tot în teorie. În practică, în stadiul actual de dezvoltare, în ciuda promovării active în domeniul dezvoltatori de tehnologie de sinteză de vorbire sunt încă se confruntă cu unele dificultăți, în principal asociat cu vorbire artificială sintetizat, lipsa de culoare emoțională și imunitate scăzută.

Adevărul este că orice discurs sintetizat, de obicei, este percepută de către persoana cu dificultate. Acest lucru se datorează faptului că lacune în textul sintetizat umple creierul uman. care utilizează pentru aceste resurse suplimentare, iar o persoană poate percepe în mod normal, sintetizat de vorbire doar aproximativ 20 de minute.

În percepția de vorbire este, de asemenea, influențată de colorare emoțională. În cazul vorbirii sintetizate este absent. Deși este de remarcat faptul că unii algoritmi permite în continuare într-o anumită măsură, imita discursul emoțional prin schimbarea duratei foneme, pauze și voce modulare, dar atâta timp cât activitatea lor este departe de a fi ideal.

În ceea ce privește a treia problemă menționată - imunitatea la zgomot redus, experimentele arată că percepția textului sintetizat a preveni orice, chiar și cele mai mici zgomote. Acest lucru din nou, se datorează faptului că procesarea vorbirii sintetizate, creierul uman folosește site-uri suplimentare, care nu sunt utilizate în percepția vorbirii naturale.

La sfârșitul acestui articol, aș dori să dau câteva exemple de sintetizatoare de vorbire existente.

Toată lumea este familiarizat cu așa-numita „sala de lectură“ - un program pentru citirea textului usor cu monitor. Multe dintre încercări folosind software-ul de sinteză de vorbire pentru cititoare de ecran, de exemplu, și Balabolka Govorilka.

Pentru ca un astfel de program citește text, trebuie să instalați, de asemenea, SAPI bibliotecă (Speech API) și motoarele de voce. Cele mai frecvente sunt două versiuni ale Speech API: SAPI4 și bibliotecă SAPI5.Obe pot rula pe același computer. Sistemele de operare Windows XP, Windows Vista și Windows 7 instalat deja bibliotecă SAPI5.

În plus față de e-cititori, cititor de ecran comun. Exemple de astfel de programe sunt:

FECIOARA 4. Programul a fost creat pentru operarea confortabilă a utilizatorilor nevăzători și cu deficiențe de vedere pe Windows. Acesta vă permite să alegeți informațiile care se va vorbi de voce și unul care va fi afișat pe afișajul Braille. Pentru utilizatorii cu deficiențe de vedere un sistem de creștere a ecranului „Galileo“.

Cobra Programul 9.1 este, de asemenea, mai ușor de a lucra cu Windows pentru utilizatorii nevăzători și cu deficiențe de vedere. Acest program poate afișa informații de ieșire de pe monitorul calculatorului folosind vorbire, afișaj Braille iar ecranul are o funcție de zoom.

anterior ◈ următoarea

Cum funcționează sinteza vorbirii

Meniu

Tag-uri articol