Prelucrarea Semnalului Vocal si Recunoasterea Vorbirii

Consortiu de cercetare si activitate didactica:
* Laboratorul de Sisteme Inteligente - Universitatea Tehnica "Gh. Asachi" Iasi
* Catedra de Informatica Aplicata - Fac. de Informatica, Universitatea "Al. I. Cuza"
* Laboratorul de Procesarea Semnalelor si Sisteme Fuzzy si Neuro-Fuzzy -
- Institutul de Informatica Teoretica al Academiei Romane

 

MATERIALE SUPLIMENTARE PENTRU LABORATOR, SEMINAR SI CURS

 

1. Organul finator: functionare.
Urmariti animatia de la linkul http://www.humnet.ucla.edu/humnet/linguistics/faciliti/demos/vocalfolds/vocalfolds.htm pentru a vedea corzile vocale in miscare.

Imagini mult mai complete, care includ aproape intregul aparat fonator in miscare, se pot vedea (film) la adresa lab. de lingvistica, Univ. Victoria, CA, la http://web.uvic.ca/ling/research/phonetics/jipa26.htm si http://web.uvic.ca/ling/research/phonetics/lands.htm. La aceeasi adresa se pot asculta si sunetele produse de miscarea respectiva.

2. privitor la rolul prozodiei in vorbire (si in sinteza vorbirii):
Cat de mare este diferenta produsa de prozodie, de accent? Are accentul un rol sintactic, chiar semantic? Iata un exemplu:

Costel spune: Ionel este un mincinos!
/kos*tel_spu*ne ^ i*o*nel_es*te*un*min*ci*nos/

Costel, spune Ionel, este un mincinos!
/kos*tel^_spu*ne_i*o*nel^_es*te*un*min*ci*nos/

Mai sus, pauzele principale s-au figurat prin ^.
Diferenta de sens este totala: mincinosul este fie Ionel, fie Costel, functie de pauzele si accentele frazei.
(Exemplu dupa: Sami Lemmetty, Review of Speech Synthesis Technology, Master Thesis, Master of Science in Espoo, Helsinki University of Technology, Department of Electrical and Communications Engineering, March 30, 1999.)

Construiti / cautati si alte exemple similare.

3. O comparatie intre performantele a peste 30 de sintetizoare de voce, a se vedea pagina Examples of Synthesized Speech http://www.ims.uni-stuttgart.de/~moehler/synthspeech/examples.html#romanian
4. Privitor la circuitele integrate si sistemele de sinteza a vocii existente pe piata, un raport relativ recent este: Advances in Speech Synthesis, http://web.inter.nl.net/hcc/davies/ictadvsp.html.
Pentru un circuit electronic elementar (astabil, filtre pasive si amplificator de iesire) capabil sa genereze un "formant" (sunet cu spectru de tip formant), vezi adresa http://www.silcom.com/~patchell/voicesynth/voicesynth.pdf
5. i) The INTERNATIONAL PHONETIC ASSOCIATION are situl la adresa http://www.arts.gla.ac.uk/IPA/ipa.html. De interes pentru lingvisti (in special) este setul de fonturi standard (international) de la adresa http://www.arts.gla.ac.uk/IPA/ipafonts.html. Codurile ANSI si UNICODE pentru diversele caractere se gasesc la adresa ANSI Character Set and Equivalent Unicode and HTML Characters. Situl Unicode Home Page este http://www.unicode.org/. Pentru utilizarea Unicode and Multilingual Editors and Word Processors for Windows vezi Alan Wood’s Unicode Resources.
ii) Pentru explicatii ample privind folosirea simbolurilor fonetice, a se vedea prezentarea facuta pe situl la adresa http://www.m-w.com/pronguid.htm
6. i) Pentru cei interesati de vocea patologica si de electro-glotografie (EGG), se recomanda http://www.ims.uni-stuttgart.de/phonetik/EGG/page1.htm
ii) Simbolurile pentru pronuntii patologice se pot gasi, in format .pdf, la adresa http://web.uvic.ca/ling/resources/ipa/charts/ExtIPAChart97.pdf.
7. O dovada experimentala ca sonograma contine toata informatia din semnalul vocal se poate face folosind aplicatia "Sound to Graph to Sound" de la adresa http://faculty.washington.edu/dillon/PhonResources/javoice/vowjavoice2.html. Programul transforma informatia din imaginea unei sonograme intr-un sunet, prin sinteza. Imaginea sonografica poate fi modificata de utilizator, selectand un nivel de gri, apoi un pixel din imagine.
8. De retinut ca metoda de sinteza articulatorie este de mare interes pentru medici si fonologi, deoarece explica (modeleaza) direct modificarile de tract vocal in timpul vorbirii. Din acest punct de vedere, sinteza articulatorie este o reproducere la nivel anatomic-functional a tractului vocal si a producerii vocii. Sinteza formantica modeleaza doar la nivel functional mecanismele vorbirii. In acest sens, sinteza formantica este de interes in special pentru lingvisti si acusticieni si partial pentru neurofiziologi. Celelalte metode de sinteza se indeparteaza de functionarea organului fonator (nu au nimic in comun decat rezultatul). Aceasta situatie diferita la nivel de compatibilitate de mecanisme explica de ce unele grupuri, in functie de interes, aleg preferential sinteza articulatorie, cea formantica, sau alte metode.
Pentru sinteza articulatorie, a se accesa situl de la Haskins Labs, sectiunea articulatory synthesis.
9. Numeroase aspecte privind producerea semnalului vocal, cu accent si pe vocea cantata, pot fi gasite, cu explicatii fara formule dar corecte tehnic, pe situl National Institute for Voice and Singing (http://www.ncvs.org/singers/index.html), in special in sectiunea Science for Singers (http://www.ncvs.org/singers/colmenu.html). Majoritatea acestor materiale sunt articole ce provin din The Journal of Singing.
10. Privitor la stadiul actual in sinteza emotional-expresiva, a se vedea (si asculta) situl Emotional & Expressive Synthesized Speech la MIT.
11. Clasificarile si notatiile fonetice acceptate international sunt disponibile gratuit pe situl de la International Phonetic Alphabet ("The International Phonetic Alphabet may be freely copied on condition that acknowledgement is made to the International Phonetic Association (c/o Department of Linguistics, University of Victoria, Victoria, British Columbia, Canada).") Inregistrari audio pentru cuvinte si sunete din numeroase limbi (American-English, Amharic / Revision, Arabic / Revision, Bulgarian, Cantonese / Revision, Catalan, Croatian, Czech, Dutch, French, Galician, German / Notice, Hausa / Revision, Hebrew , Hindi, Hungarian, Igbo, Irish, Japanese / Revision, Korean, Persian, Portuguese, Sindhi, Slovene, Swedish, Taba Notice, Thai, Tukang-Besi Notice, Turkish) pot fi obtinute gratuit la adresa http://web.uvic.ca/ling/resources/ipa/handbook.htm.
12. Manualul pentru VoiceXML, the Voice Extensible Markup Language. VoiceXML este o extindere a limbajului web XML (Extensible Markup Language), extindere destinata sa permita scrierea de aplicatii web care sa includa dialogul verbal utilizand voce sintetica precum si sisteme de recunoastere a semnalului vocal, precum si alte segmente audio (semnal audio digital). Acest limbaj este destinat interactiunii om-masina. Limbajul permite interactiunea cu aplicatii de tip raspuns vocal, precum si aplicatii tipice telefoniei, de tipul transfer de cerere de conexiune si deconectare. Dupa cum indica si numele, o aplicatie vxml constituie o aplicatie xml specifica Pentru limbajul XML a se vedea manualul Annotated XML Specification .

MENIU


- Introducere
Welcome message
- Programa analitica
- Materiale suplimentare pentru laborator, seminar si curs
- Note de curs, lucrari indicate pentru lectura
- Referinte
- Mini-proiecte
- Corpusuri (Baze de date - semnale vocale)
- Exemplu de proiect de materat (disertatie), in curs de realizare
- Alte teme de cercetare curente ale colectivului (aceste teme pot deveni subiecte ale unor teze de disertatie sau diploma)
- Varia - materiale pentru cursuri, laboratoare, mini-proiecte etc.


Aceasta pagina este in continua modificare. Orice sugestii de imbunatatire a continutului sunt bine venite.

Contact: Tf. 21.37.37 - int 115 or 144 (HN Teodorescu) sau hteodor@etc.tuiasi.ro

(C) H.N. Teodorescu

(Pagina este -relativ - frecvent modificata) Ultima modificare: October 17, 2003

Return to mainpage