programa analitica

Prelucrarea Semnalului Vocal si Recunoasterea Vorbirii

Consortiu de cercetare si activitate didactica:
* Laboratorul de Sisteme Inteligente - Universitatea Tehnica "Gh. Asachi" Iasi
* Catedra de Informatica Aplicata - Fac. de Informatica, Universitatea "Al. I. Cuza"
* Laboratorul de Procesarea Semnalelor si Sisteme Fuzzy si Neuro-Fuzzy -
- Institutul de Informatica Teoretica al Academiei Romane

PROGRAMA ANALITICA

Introducere: obiectul disciplinei; situarea disciplinei in contextul altor discipline; cunostinte din alte domenii necesare disciplinei; scurt istoric (2 ore)
Organul fonator si fiziologia fonatiei (1 ora)
Organul auditiv si fiziologia auditiei (1 ora)
Elemente de teoria prelucrarii semnalelor: Metode folosite in prelucrarea primara, analiza si caracterizarea semnalului vocal. Filtrari de zgomot. Separarea pe benzi de frecventa. Analiza in frecventa (analiza Fourier). Filtre digitale. Programarea (implementarea software a) filtrelor digitale. Filtre trece jos. Probleme de faza. Predictori de semnal. Modele de semnal. (4 ore)
Caracterizarea in domeniul frecventa a semnalului vocal: sonograma, analiza formantica si determinarea primara a pitchului. (2 ore)
Analiza si caracterizarea LPC a semnalului vocal. (2 ore)
Metode complexe de determinare a pitch-ului (1 ora)
Sinteza semnalului vocal: metode formantice si LPC. Sintetizoare text-voce (TTS - text-to-speech). Generarea prozodiei. (3 ore)
Recunoasterea semnalului vocal: analiza acustica, alinierea in timp, lanturi Markov ascunse; utilizarea retelelor neuronale, metode sintactice, ierarhii de metode (4 ore)
Aplicatii ale sintezei vocale (1 ora)
Aplicatii ale recunoasterii semnalului vocal (1 ora)
Voice XML - notiuni generale; fisiere vxml, taguri

Laborator

Culegerea semnalului vocal si vizualizarea in domeniul amplitudine timp. Recunoasterea vocalelor, consoanelor si pauzelor. Identificarea segmentelor de inceput si sfarsit a semnalului vocalic, in contextul cuvintelor. Prozodia la nivel de amplitudine.

Analiza in domeniul frecventa. Sonograma. Identificarea vizuala a vocalelor si diverselor tipuri de consoane pe sonograma. Identificarea segmentelor de inceput si sfarsit a semnalului vocalic, in contextul cuvintelor, pe sonograma. Segmentarea fonemelor. Identificarea "oarba" a siflantelor si a altor consoane nevocalice (la nivel de clasa de sunete nesonante). Vizualizarea diverselor sunete, vocalice si nevocalice (cunoscand natura lor)

Trasarea manuala a evolutiei formantilor pe sonograma. Analiza modificarilor de pitch si formanti in diverse contexte de frazare si prozodie.

Implementarea unui filtru trece jos in C. Implementarea de filtre FIR si IIR formantice (trece banda, cu caracteristici ale formantilor)

Echipamente de culegere a semnalului vocal - partea I-a

Echipamente de culegere a semnalului vocal - partea a II-a

Realizarea unei baze de date de semnale vocale.

Analiza variabilitatii pronuntiei la un vorbitor dat. Distinctii intre vorbitori, la nivel de formanti si de frecventa fundamentala (formant F0). Recunoasterea vorbitorului.

Analiza variabilitatii dialectologice a pronuntiei. Atlase lingvistice.

Atlase lingvistice - partea a II-a

Sintetizorul Clatt (Klatt)- partea I-a

Sintetizorul Clatt (Klatt)- partea a II-a. Varianta cu control prin reguli fuzzy

Sinteza TtS - Metode de sinteza bazate pe concatenare- partea I-a. Sintetizoare concatenative (disponibile web: ATT, Bell)

Alte metode de sinteza - partea a II-a

Note.

1. Parte dintre aplicatiii se vor realiza la orele de curs.

2. Parte dintre aplicatii se vor realiza cu programul Human Speech Production Based on a Linear Predictive Vocoder Tutorial de la adresa http://www.kt.tu-cottbus.de/speech-analysis/.

Pentru cursul 1, vezi istoria domeniului la:

Museum of Speech Analysis and Synthesis, http://mambo.ucsc.edu/psl/smus/smus.html

Smithsonian Speech Synthesis History Project (SSSHP) http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm

O prezentare placut scrisa a domeniului TtS (sintezei text->voce) se gaseste in eseul "The Talking Computer" de J. Olive, la http://mitpress.mit.edu/e-books/Hal/chap6/six1.html.

Pentru cursurile privind aplicatiile in realitate virtuala, se recomanda The Encyclopedia of Virtual Environments
Produced by the students of Dr. Ben Shneiderman. Aceasta prezentare este scrisa cu accente spre neuro-lingvistica, de interes pentru deschiderea orizontului.

TOP

MENIU

- Introducere
Welcome message
- Programa analitica
- Materiale suplimentare pentru laborator, seminar si curs
- Note de curs, lucrari indicate pentru lectura
- Referinte
- Mini-proiecte
- Corpusuri (Baze de date - semnale vocale)
- Exemplu de proiect de materat (disertatie), in curs de realizare
- Alte teme de cercetare curente ale colectivului (aceste teme pot deveni subiecte ale unor teze de disertatie sau diploma)
- Varia - materiale pentru cursuri, laboratoare, mini-proiecte etc.

Aceasta pagina este in continua modificare. Orice sugestii de imbunatatire a continutului sunt bine venite.

Contact: Tf. 21.37.37 - int 115 or 144 (HN Teodorescu) sau hteodor@etc.tuiasi.ro

(C) H.N. Teodorescu

(Pagina este -relativ - frecvent modificata) Ultima modificare: October 17, 2003

Return to mainpage