Dossier

Macchine che parlano, macchine che ascoltano: le tecnologie vocali

Il riconoscimento fonetico e il riconoscimento delle parole

Il primo passo del riconoscimento vocale parte dall’analisi dei fonemi, i suoni che vengono emessi dall’apparato fonatorio di chi parla e che vengono associati ai suoni tipici dell’alfabeto. È il cosiddetto riconoscimento fonetico, ovvero una trascrizione di livello acustico che riporta quanto il sistema ha estratto dall’espressione pronunciata da chi parla.

L’identificazione di un fonema (e quindi l’identificazione di una particolare lettera o sequenza di lettere) non è quasi mai un evento certo, ma piuttosto un evento più o meno probabile. Per aumentare le probabilità che l’identificazione sia esatta, occorre analizzare anche i fonemi precedenti e seguenti e verificare che l’insieme di identificazioni probabili sia essa stessa probabile.

Dal punto di vista informatico il sistema esplora un albero di soluzioni possibili, calcolando un punteggio che esprime la probabilità che la soluzione sia quella giusta. Partendo dall’analisi dell’onda sonora, lo stadio di riconoscimento fonetico ipotizza alcune possibili soluzioni, attribuendo a ciascuna un proprio valore: il primo fonema pronunciato sarà una "m" o una "n" ?

Il vocabolario aiuta a restringere il numero delle possibili combinazioni, in quanto il successivo fonema si deve combinare in modo opportuno con i precedenti per costruire una parola valida.

Questo meccanismo si ripete ad ogni analisi dei fonemi successivi. Progressivamente si prosegue nell’albero delle soluzioni, un passo dopo l’altro, fino a quando l’intera stringa fonetica di ingresso non si è esaurita. A questo punto possono essere rimaste in lizza ipotesi diverse. Ad ogni ipotesi ottenuta si associa un punteggio di plausibilità, sommando tutti i valori di probabilità che erano stati attribuiti ai fonemi che la compongono. Un confronto fra i valori attribuiti alle varie ipotesi di parola permette di selezionare quella che ha ottenuto il punteggio più alto, ed accettarla come riconosciuta.

In altre parole, se riconosco con una certa probabilità la lettera "a" e questa si trova in una sequenza di identificazione che propone "m-a-r-e", dato che la parola "mare" esiste nel vocabolario, la probabilità di riconoscimento corretto aumenta. Peraltro se nel contesto della frase la parola "mare" non ha senso, ma lo avrebbe la parola "more" allora è possibile che il riconoscimento corretto non sia "a", ma "o". Dobbiamo, però, anche considerare il caso in cui "a" potrebbe essere correttamente riconosciuta e che non lo sia il riconoscimento di "r" (ad es. la parola potrebbe essere "male").

Questo è il riconoscimento delle parole, il secondo stadio della catena che utilizza un vocabolario dei termini utilizzati dal parlatore, e tale informazione gioca un ruolo fondamentale per migliorare il risultato finale. Si possono costruire così numerose ipotesi alternative, che vengono via via valutate sulla base della loro coerenza con le parole presenti nel vocabolario. Le ipotesi che non hanno attinenza alcuna con le parole del vocabolario vengono eliminate, anche se sono il risultato di una composizione di fonemi che avevano ottenuto un punteggio singolo molto alto nel primo stadio del processo.

Suggerimenti