Dossier

Macchine che parlano, macchine che ascoltano: le tecnologie vocali

Le prospettive future: da un sistema che comprende ad un sistema che coopera

Il processo appena descritto, a prima vista molto complicato, è in realtà abbastanza simile a quello adottato nel nostro cervello che tende a riconoscere le cose sentite in termini di probabilità. La strategia del riconoscimento si basa proprio su questa constatazione: man mano che si riconosce un elemento si va ad escludere tutte le altre alternative possibili e così via fino al riconoscimento completo della frase. Ma, proprio come avviene tra due interlocutori umani, la comprensione non sempre è un evento certo: nel caso di due o più "riconoscimenti plausibili" per accertare la correttezza del più probabile, occorre attivare un’interazione con il parlatore, solitamente ripetendo la frase e chiedendo conferma. La differenza sonora tra un "sì" e un "no", infatti, è tale per cui il sistema è sempre in grado di riconoscere la risposta e, quindi, avere conferma del riconoscimento oppure procedere con una nuova domanda per valutare una nuova ipotesi.

Il grande salto qualitativo raggiunto dalla ricerca è stato quello di passare da sistemi in grado di riconoscere/comprendere quello che l’utente dice a sistemi cooperativi, in grado di gestire un dialogo uomo-macchina.

I primi sistemi artificiali "intelligenti" utilizzavano soprattutto conoscenze sintattiche e logiche enunciative, ovvero andavano a verificare la veridicità delle frasi.

Nella frase Voglio partire da Torino per andare a Roma devo verificare la "verità" della richiesta, capire realmente e avere la conferma che l’utente debba partire da Torino per andare a Roma (e non viceversa…).

Il compito è abbastanza semplice per le frasi assertive che sono in qualche modo univoche.

E’ evidente, però, che un dialogo non è costituito solo di frasi assertive, ma di domande, esclamazioni, inferenze, sospensioni, frasi incomplete…e qui cominciano le difficoltà!

Il compito più arduo consiste nel passare da un "linguaggio ideale" fatto di frasi lineari, coerenti e strutturate al "linguaggio naturale", fatto di frasi interrotte, di silenzi, di "errori sintattici", di inferenze.

Il dialogo naturale, inoltre, si situa ad un livello più profondo: è la relazione che si instaura tra due agenti (umani o artificiali) che sono in grado di riconoscere un’intenzione nelle azioni linguistiche dell’agente interlocutore.

Il vero traguardo della ricerca, su cui si sta lavorando da alcuni anni, è rappresentato dai sistemi di dialogo cooperativo capaci di comprendere anche le intenzioni e le credenze dell’utente e di cooperare per il raggiungimento di un obiettivo comune.

Per fare questo i sistemi di dialogo cooperativo oggi allo studio non trattano solo frasi assertive (vere o false), ma sono in grado di gestire la complessità di un dialogo reale fatto di domande, esclamazioni, comandi, frasi incomplete, interiezioni, inferenze di senso comune (interpretare silenzi come assensi, preferenze come comandi…)

Affinché ci sia dialogo entrambi gli agenti in gioco (uomo e macchina) devono essere capaci di:

- condurre un dialogo coerente

- compiere inferenze del senso comune, cioè interpretare l’assenza di correzione come una conferma, le domande come asserzione (ad es. la domanda Scusi, a che ora partono i treni per Milano? implica l’intenzione di partire in treno)

- fare domande per ottenere informazioni su ciò che non è stato ancora espresso (ad es. l’agente può rispondere alla domanda precedente con un’altra domanda come Da dove vuole partire?)

Quelle ora descritte, che diamo per scontato in un dialogo tra esseri umani, sono in realtà operazioni molto complesse per una macchina!

Suggerimenti