sabato 4 febbraio 2012

Il computer che legge le nostre emozioni dal tono di voce.

Fonte: Corriere.it

Un programma di ricercatori messicani interpreta la voce di chi è depresso. E La visione influenza la percezione della voce.

Dieci anni dopo la data fissata da Arthur Clarke per il suo romanzo 2001 Odissea nello Spazio da cui Stanley Kubrick ricavò l’omonimo kolossal cinematografico, la capacità di leggere le parole degli umani posseduta dal supercomputer HAL 9000 dell'astronave Discovery One in rotta per Giove diventa realtà, addirittura migliorata al punto da interpretarne il nostro tono emotivo. Quando i piloti devono decidere come disconnetterlo per sospetto malfunzionamento si isolano in una cabina per non farsi sentire, ma HAL segue con le sue telecamere il loro labiale e, avendo il comando assoluto dell’astronave, decide di sopprimerli.

VIDAS CAPISCE LA DEPRESSIONE -Adesso è arrivato VIDAS (acronimo di voice integrated digital analyses system) che è in grado di interpretare lo stato d’animo di soggetti madre lingua anglosassone e spagnola (le due lingue più parlate negli Usa) con una precisone del 79% circa, presentando soltanto qualche difficoltà con i soggetti bilingue. Lo presentano in uno studio pubblicato su Voice & Emotion i ricercatori dell’Istituto Mexicano del Seguro Social di Guadalajara descrivendo questo sistema computerizzano di riconoscimento vocale da loro messo a punto per velocizzare lo screening dei pazienti depressi rispetto a quelli non depressi quando arrivano in ospedale in modo da avviarli direttamente dall’accettazione al giusto specialista.

EFFETTO MCGURK - E’ sorprendente scoprire che se analizziamo la situazione opposta, cioè l’uomo che ascolta la voce di un computer, le nostre capacità di interpretare la voce sintetica sono molto più labili perché soffriamo del cosiddetto effetto McGurk dal nome del ricercatore inglese Harry McGurk della Surrey University che lo descrisse per primo su Nature insieme al collega John MacDonald in uno studio provocatoriamente intitolato «Sentire le labbra e vedere la voce». Lo studio dimostra come la visione influenzi la percezione della voce: se vediamo in primo piano il labiale di una donna che pronuncia la sillaba «BA» ma viene doppiata come «GA», tutti le sentono dire «DA». Facendo il contrario la maggior parte della gente sente «BAGBA» o «GABA», perché stimolo visivo e acustico vanno in conflitto. Se ascoltano solo la traccia sonora senza guardare il film sentono correttamente «GA», mentre se guardano solo il filmato senza sonoro interpretano correttamente il suono «BA».

PERSONAGGI FAMOSI - Uno studio dell’Università di Nottingham pubblicato su Perception Psychopysiology indica però che quando osserviamo un personaggio noto presentato con una voce che non è la sua, le persone a cui è più familiare sono meno soggette all’effetto McGurk rispetto a quelli che non lo conoscono. Identità facciale e identità vocale non sono quindi del tutto separate cosicché vedere un videotape con Sarkozy doppiato con la voce di Berlusconi ci disorienta ma probabilmente non fino al punto di farcelo sentir dire “Mi consenta” con un improbabile accento francese.

IL VOCODING - Quando invece dobbiamo interpretare una voce sintetica generata da un computer, funzione che in termini tecnici si chiama vocoding, non basta solo la comprensione delle caratteristiche vocali, una cosa che possiede ad esempio pure la voce di un pappagallo, ma occorre anche riconoscere un costrutto intelligibile. Uno studio pubblicato su BioMedCentral Neuroscience da un gruppo internazionale di ricercatori fra cui anche il neurologo partenopeo Paolo Barone dell’Univerità Federico II° di Napoli ha dimostrato come l’area del nostro cervello che ha sviluppato la capacità di discernere fra linguaggio intelligibile, non intelligibile e rumori ambientali è quella temporale che, di fronte alla voce sintetica dei computer, si attiva in misura proporzionale alla comprensibilità del messaggio ascoltato. Se la frase è intelleggibile si attivano solo le aree temporali posteriori di entrambi i lati del cervello che non vengono invece coinvolte quando il messaggio ha un costrutto incomprensibile (ad esempio è in una lingua a noi sconosciuta), situazione in cui ad attivarsi sono le aree anteriori oppure quando vengono ascoltati suoni complessi che non hanno palesemente le caratteristiche di un messaggio verbale.

SPETTRO DEI SUONI - Il recentissimo studio dell’Università del Canada pubblicato su PlosONE Biology ha messo ancora più a fuoco le modalità con cui il nostro sistema uditivo riesce ad estrarre le caratteristiche uditive del parlato importanti da un punto di vista percettivo rivelando quanto sia importante l’andamento temporale dell’alternarsi delle sillabe nell’ambito di un determinato spettro di suoni, cioè il pacchetto di ampiezze racchiuse in una determinata frequenza. In sostanza è più facile che un bresciano capisca un bergamasco oppure che un calabrese capisca un siciliano perché, viste le simili ampiezze dei due dialetti, lo spettro dei suoni che gli sono intelleggibili resta all’interno di frequenze simili. I ricercatori canadesi sono riusciti a recuperare i suoni del linguaggio là dove vengono originati prima di essere convertiti in segnali uditivi: in altre parole ci sembra sempre di sentire quello che pensiamo perché le parole pensate vengono automaticamente ricostruite nella corteccia uditiva e se si recuperano prima di questo passaggio gli impulsi elettrici che le compongono si può inviarli a un computer con cui dare una voce sintetica a chi non può più parlare per una malattia, ma può solo pensare di farlo.

COMPONENTE EMOTIVA - Ciò che comunque manca alla voce di un computer è la componente emotiva, fondamentale nella trasmissione del messaggio e che infatti Stanley Kubrick non aveva trascurato di impartire ad HAL 9000 nella finzione filmica quando il supercomputer sembrava supplicare gli astronauti del Discovery One di non disattivarlo, mentre prima aveva sempre avuto una voce monocorde come Crozza quando imita Mario Monti. I disabili come i soggetti colpiti da SLA che fanno uso di sistemi di comunicazione a voce sintetica hanno infatti problemi ad accettarla perché ascoltandola non vi riconoscono la loro impronta emotiva, nonostante sia perfettamente comprensibile. Una delle soluzioni migliori a questo problema che crea ulteriori disagi psicologici a questi pazienti è stata il cosiddetto EDVOX, un sistema in cui si può variare con facilità la voce entro una gamma di oltre una trentina di possibili personalità vocali diverse per età, sesso, timbro, ecc. I ricercatori scozzesi Iain Murray and John Arnott della Computing University di Dundee, fra i primi ad occuparsi di questi problemi, hanno pubblicato sul Journal of Acoustical Society of America uno studio sulle correlazioni fra il tipo di voce e il nostro stato d’animo (vedi schema), caratteristiche che ognuno di noi percepisce in misura variabile ogni volta che ascoltiamo parlare qualcuno. Non ci si pensa mai, ma tutte queste informazioni noi le abbiamo già nel nostro archivio cognitivo: tutti siamo grandi esperti di voce, la produciamo e la comprendiamo, ma sappiamo anche estrarne tutta una serie di informazioni socialmente rilevanti con un contenuto più profondo e probabilmente più universale che costituiscono la componente non linguistica della comunicazione. E ciò ci rende una specie unica che nemmeno HAL 9000 avrebbe mai potuto eguagliare.

INFORMAZIONI PSICOSOCIALI DEL LINGUAGGIO - Pensate al passeggero di un aereo che sente parlare in un’altra lingua le persone sedute dietro di lui. Anche se non capisce ciò che dicono quelli che gli stanno seduti dietro e non li vede in faccia coglierà ugualmente moltissime informazioni: potrà intuirne età e sesso, farsi un’idea del loro stato d’animo e percepire i loro ruoli di dominanza e subalternità psicologica. Ad esempio un padre che rimprovera un figlio o una figlia che conforta una madre. Uno studio dell’Università di Glasgow pubblicato sull’ultimo British Journal of Psychology dice che la voce veicola numerose e importanti informazioni psicosociali organizzate secondo parametri strettamente connessi fra loro ma funzionalmente dissociabili in tre principali ambiti: eloquio, identità e affettività. Tutti aspetti che il nostro passeggero potrà sempre confermare con un fugace sguardo all’indietro che spesso lo lascerà sorpreso della sua arguta capacità di deduzione.

KINECTC 2 - La Microsoft ha annunciato una nuova versione della play station Xbox che si chiamerà Kinect 2 e che dovrebbe essere dotata di una tecnologia a fibre ottiche capace di leggere il labiale del giocatore e addirittura interpretare l’espressione del suo volto e le sue emozioni in base al timbro della voce in modo da capire se è calmo o arrabbiato così da organizzare le sue mosse di conseguenza. Se mai questo gioco sarà realizzato sussistono forti dubbi che possa eguagliare le nostre capacità, la partita giocata con HAL 9000 insegna.

Cesare Peccarisi

Nessun commento: