Dossier

Macchine che parlano, macchine che ascoltano: le tecnologie vocali

Come un computer capisce ciò che diciamo

Il riconoscimento vocale automatico è la tecnologia che consente ad una macchina di identificare una o più parole appartenenti ad un vocabolario prefissato, all'interno di un segnale acustico normalmente costituito da voce e rumore.

I primi sistemi di riconoscimento vocale sono stati sviluppati negli anni Settanta da centri di ricerca universitari e indipendenti statunitensi, quali il MIT (Massachusetts Institute of Technology) e la CMU (Carnegie Mellon University), oppure da centri di ricerca di società di telecomunicazione negli Stati Uniti (Bell Labs) ed in Europa (CSELT di Telecom Italia, CNET di France Telecom).

Per capire come può funzionare un computer che sia in grado di riconoscere, ed eventualmente comprendere, quanto gli viene detto a voce è importante prima di tutto fare delle distinzioni.

Vogliamo un sistema che sia capace di comprendere una sola voce, la voce del padrone per così dire (riconoscitore dipendente dal parlatore, ovvero speaker-dependent), o vogliamo un sistema capace di ascoltare qualunque persona gli rivolga la parola (riconoscitore indipendente dal parlatore, ovvero speaker-independent)?

Vogliamo un sistema che riconosca solo parole isolate (riconoscitore a parlato isolato, word spotting) oppure un sistema che sia in grado di riconoscere frasi intere (riconoscitore a parlato continuo/linguaggio naturale), anche se lunghe e complesse?

Infine vogliamo un sistema capace di comprendere qualunque tipo di domanda o di richiesta (riconoscitore indipendente dal contesto) o ci è sufficiente un sistema che sappia interpretare le nostre richieste in un contesto definito (riconoscitore dipendente dal contesto), ad esempio una richiesta di informazioni sulle previsioni del tempo di domani?

Da quest’elenco di possibilità capiamo che lo stato della ricerca e le possibilità della tecnologia non consentono ancora di realizzare sistemi di riconoscimento capaci di operare con successo in un mondo senza confini. Non siamo ancora arrivati a costruire un sistema che riconosca tutte le voci, in qualsiasi situazione e indipendentemente dall’argomento. Possiamo però scegliere tra sistemi in grado di riconoscere qualunque parola e frase pronunciata da una voce, purché questa abbia addestrato opportunamente in una fase preliminare il sistema, oppure sistemi che sono in grado di comprendere una frase pronunciata da qualsiasi parlatore, purché relativa ad un contesto ben definito.

Suggerimenti