Razpoznavanje govora splošni pojmi, zgodovinski pregled Osnove računalništva za jezikoslovce prof. France Mihelič
Osnovni pojmi Govor Akustični signal, ki ga ljudje uporabljajo za sporazumevanje. Samodejno razpoznavanje govora (automatic speech recognition) Ugotavljanje indentite govorca ali ugotavljanje glasov, besed, fraz, stavkov na podlagi izgovorjenega sporočila. Samodejno razumevanje govora (automatic speech understanding) Smiselno odzivanje samodejnega sistema glede na izgovorjeno sporočilo.
Problematika razpoznavanja govora Samodejni sistem, ki bi razpoznaval in razumel govor brez dodatnih omejitev, ki zadevajo okolje, področje komunikacije, število možnih besed, je še vedno in bo verjetno še dolgo nedosežen cilj.
Variabilnost govora Govor, kot način komunikacije med ljudmi, predstavlja kompleksen vzorec, ki je pod- vržen številnim činiteljem in je zato močno variabilen. Nekateri izmed teh dejavni-kov so: fiziološke karakteristike govorca, karakteristike, ki so posledice okolja v katerem govorec živi, izobrazba govorca, čustveno razpoloženje govorca, okolje v katerem poteka govor, govorčevo znanje o podoročju o laterem poteka komunikacija, neenakomerno spreminjanje hitrosti izgovorjave glasov.
Razumevanje govora Razumevanje govora predstavlja bistveno komponento v celotnem postopku razpoznavanja pri človeku. Zaradi tega tudi človek izredno nezanesljivo razpoznava glasove nekega jezika, ki ga ne razume in ravno tako slabše razpoznava v lastnem jeziku nesmiselne besede (besede, ki ustrezajo akustičnim zakonitostim jezika, ne nosijo pa nobenega pomena).
Interdisciplinarnost področja Obdelava signalov Izločanje relevatne informacije iz govornega signala. Akustika Razumevanje povezav med fizikalnim govornim signalom in fiziološkimi mehanizmi, ki govor oddajajo in sprejemajo. Razpoznavanje vzorcev Postopki za določanje rojev, učenje samodejnega sistema in razvrščanje delov govornega signala. Komunikacijska in informacijska teorija Postopki ocenjevanja parametrov statističnih mode-lov, postopki kodiranja in dekodiranja govornega signala. Jezikoslovje Relacije med glasovi (fonetika) in besedami (slovnica) v jeziku. Pomen izgovorjenih besed (semantika) in smisel sporočila določen iz pomena besed (pragmatika). Postopki slovničnega in jezikovnega razčlenjevanja (parsing). Fiziologija Razumevanje mehanizmov višjega reda v človeškem živčnem sistemu, ki se tičejo tvorjenja in zaznava-nja govora. Računalništvo Študij učinkovitih postopkov za implementacijo različnih metod, ki jih uporabljamo pri realizacijji samodejnih sistemov za razpoznavanje govora. Psihologija Razumevanje in študij činiteljev, ki vplivajo na uporabnost samodejnih sistemov v praksi....
Uporabasistemovza razpoznavanje govora Prednosti: Omogoča komunikacijo s strojem večjemu krogu uporabnikov. Omogoča večjo storilnost in človeku prijaznejše delovno okolje. Za človeka najnaravnejši način komunikacije. Področja: Sistemi za samodejno poizvedovanje preko telefona. Upravljanje s stroji, ko so roke zasedene z drugimi opravili. Komunikacija z računalnikom in drugimi napravami za invalidne, poškodovane ali bolne osebe..... Slabosti: Možnost nezanesljivega delovanja. Potrebno uvajanje uporabnikov na nov način komunikacije. Zmanjšanje števila delovnih mest. Sisteme (razen najpreprostejših) je potrebno vsaj v določeni meri razviti za vsak jezik posebej.
Pomembnost študija sistemov za razpoznavanje govora v lastnem jeziku Sistemov za razpoznavanje slovenščine tujci za nas posebej ne bodo razvili (neznanje Slovenščine, premajhno tržišče). Če bomo želeli v prihodnosti komunicirati s stroji v lastnem jeziku, bo potrebno znanje o tem področju in razvoj sistemov intenzivneje gojiti tudi pri nas! Proučevanje materinega jezika z drugimi do sedaj neobičajnimi postopki. Slovenščina je eden najpomembnejših dejavnikov naše nacionalne identitete.
50-ta leta Začetni poizkusi Zgodovina Področje je staro dobrih 50 let. 1952 Bell Lab.: Davis, Biddulph in Balashek - sistem za od govorca odvisno razpoznavanje ločeno izgovorjenih števk. 1956 RCA Lab.: Olson in Belar - sistem za od govorca odvisno razpoznavanje 10-tih zlogov izgovorjenih kot enozložne besede. Sistema sta temeljila na ločevanju med spektri samoglasniških delov besed. 1959 Uni. College v Londonu: Fry in Denes - sistem za razpoznavanje 4-ih samoglasnikov in 9-ih soglasnikov. Spektralna analiza, za izboljšanje rezultatov razpoznavanja sta uporabila statistike možnih parov glasov v angleščini. 1959 MIT Lincoln Lab.: Forgie in Forgie - sistem za od govorca neodvisno razpoznavanje samoglasnikov v soglasniškem okolju. Poleg spektralne analize sta uporabila še cenilko, ki je merila čas trajanja glasov.
Zgodovina 60-ta leta Prvi hardwarski sistemi in razvoj teorije Japonska - 1961 Radio Res. Lab.: Suzuki in Nakata; 1962 Kyoto Uni.: Sakai in Doshita; 1963 NEC Lab.: Nagata in ost. - hardwarske izvedbe za razpoznavanje samoglasnikov, fonemov, izgovorjenih števk. USA - 1964 RCA Lab.: Martin - postopki za normalizacijo govornih dogodkov po časovni osi. Kasneje ustanovi lastno podjetje Threshold Technology. 1969 Carnegie Mellon Uni. (CMU): Reddy - začetki na področju razponavanja fonemov v tekočem govoru (dinamično sledenje glasov). Začetek uspešnega dela na področju razpoznavanja govora na tej univerzi, ki še traja. USSR - 1968 Vitsyuk - postopki za normalizacijo časovne osi z uporabo dinamičnega programiranja (dynamic time warping). Delo na zahodu ne-poznano in tako postopek ponovno odkrit na japonskem v 70-ih letih.
Zgodovina 70-ta leta Razpoznavanje ločeno izgovorjenih besed 1970 Veličko in Zagoruyko - uporaba postopkov za razpoznavanje vzorcev pri razpoznavanju govora. 1978 Saoke in Chiba - dinamično programiranje pri razpoznavanju ločeno izgovorjenih besed. 1975 Itakura - uporaba linearne predikcije (LPC) pri določanju značilk govora. 1971 Ustanovitev uspešne skupine pri IBM (Dixon, Jelinek, Bahl), ki je definirala študije na področju razpoznavanja govora pri obsežnih slovarjih besed (poizvedbe, patentna besedila, pisarniška korespondenca). 1979 AT&T Bell Lab. (Rabiner in ost.) - začetki študija od govorca neodvisnih sistemov za razpoznavanje.
Zgodovina 80-ta leta Razpoznavanje vezanega govora Postopki za optimalno primerjavo (matching) delov govornih signalov: NEC Lab.: Saoke, JSRU (Joint speech research unit) London: Bridle in Brown, Bell Labs: Mayers in Rabiner, Bell Labs: Lee in Rabiner Modeliranje govora s prikritimi Markovovimi modeli (PMM): IBM, Institute for Defense Analyses (IDA), Dragon Systems.
Zgodovina 80-ta leta Razpoznavanje vezanega govora Uporaba nevronskih mrež pri razpoznavanju govora: 1987 Lipmann, 1988 Kohonen, 1989 Weibel. Sistemi za razpoznavanje tekočega govora: Projekti DARPA (Defense advance research projects) CMU: Lee in sodelavci - sistem SPHINX, BBN Lab.: Schwartz in sodelavci - sistem BYBLOS, MIT: Zue in sodelavci, AT&T Bell Labs: Rabiner in sodelavci.
Zgodovina 90-ta leta Razumevanje in razpoznavanje naravnega govora Sistemi za narekovanje z obsežnim slovarjem besed (fonetični pisalni stroj) Sistemi za dialog Razumevanje govora Razpoznavanje spontanega govora Izven slovarske besede Negovorni deli zvočnega signala (vdih - izdih, vzdih, smeh, negovorni medmeti EEE...,... ) Neslovnično izražanje (prekinitve, ponovno začeti stavki)
Zgodovina Novo tisočletje Novi izzivi Robustnost Zvočno ozadje, dialekti, način govora, vhodne enote,... Porazdeljeni sistemi za razpoznavanje govora Mobilna telefonija Večjezičnost Sistemi za govorna poizvedovanja, učenje,.... Obdelava zočno heterogenih vsebin Informativne oddaje, iskanje izbranih vsebin (browsing) Večmodalno razpoznavanje govora Vključitev vidne informacije (branje iz ustnic, usmerjenost pogleda, kretnje telesa,... ) in ostalih modalnosti (tipkovnica, miška,... )
Sistem za razpoznavanje vzorcev Razpoznavanje vzorcev Vzemimo, da je celotna populacija vzorcev, ki jo obravnavamo razdeljena na več skupin (podmnožic). Vsak vzorec v populaciji naj pripada vsaj eni izmed teh skupin. Razpoznavanje vzorcev je samodejni postopek, ki za neznan vzorec ugotovi njegovo pripadnost (ime). Učenje predstavlja nujen sestavni del postopka samodejnega razpoznavanja Neznan vzorec Sistem za razpoznavanje vzorcev Ime vzorca
Učenje razpoznavalnika Samodejni postopek, ki na podlagi vzorcev, pri katerih je podana tudi njihova pripadnost (ime), določi značilnosti skupin vzorcev (nadzorovano učenje). Te značilnosti kasneje uporabimo pri razpoznavanju. Vzorec Ime vzorca Sistem za učenje razpoznavalnika vzorcev Podatki o karakteristikah vzorcev s posameznim imenom
Splošna shema sistema za razpoznavanje govora Govorni signal Vzorčenje, kvantizacija Določanje značilk Razrščanje (glasovi, besede, povedi,... ) Niz razpoznanih enot Leksikon, Znanje o področju Pomenska analiza Akustični modeli osnovnih enot, Slovar izgovarjav, Sintaksa jezika
Načini delovanja sistema za razpoznavanje govora Razpoznavanje govorca: Tekstovno ovisno, Tekstovno neodvisno. Potrjevanje govorca (speaker verification), Ugotavljanje govorca (speaker classification). Razpoznavanje oziroma razumevanje besedila: Razpoznavanje, ki je od govorca odvisno (speaker dependant recognition) Razpoznavanje ločeno izgovorjenih besed (isolated words), Razpoznavanja vezananega govora (connected speech), Razpoznavanje tekočega govora (continuous speech), Razpoznavanje spontanega govora (natural speech). Od govorca neodvisno razpoznavanje (speaker independant recognition) Razpoznavanje ločeno izgovorjenih besed (isolated words),.........