Un modello basato sull’intelligenza artificiale per leggere il parlato dal cervello delle persone
La ricerca, sviluppata da Meta, potrebbe portare a nuovi modi di comunicare e aiutare le persone che hanno subito lesioni neurologiche traumatiche
Quando le persone parlano, pensano a come le parole che formeranno con la loro bocca – e in effetti, non è affatto necessario parlare affinché il cervello formi l’attività coinvolta nel discorso. Questo è importante perché le parti del cervello che controllano la bocca e le parti che coinvolgono la comprensione e la formazione del linguaggio sono separate.
I ricercatori dei laboratori di ricerca sull’intelligenza artificiale di Facebook di Meta Platform Inc. hanno messo insieme le conoscenze su come opera il cervello umano con modelli avanzati basati sull’intelligenza artificiale per assistere le persone che hanno subito lesioni neurologiche traumatiche rimaste senza poter comunicare attraverso la parola, la digitazione e i gesti.
“Abbiamo sviluppato un modello di intelligenza artificiale in grado di decodificare il parlato da registrazioni non invasive dell’attività cerebrale”, ha affermato Jean Remi King, ricercatore presso FAIR Labs. “Decodificare il discorso dall’attività cerebrale è stato un obiettivo di lunga data di neuroscienziati e clinici, ma la maggior parte dei progressi era basata finora su tecniche invasive di registrazione cerebrale”.
La maggior parte delle persone può avere familiarità con i tipi comuni di scansioni cerebrali come la risonanza magnetica o la risonanza magnetica e la tomografia computerizzata o TC, che producono entrambe immagini dettagliate del cervello. Tuttavia questi strumenti sono in grado di mostrare strutture piuttosto che attività. I modi migliori fino ad oggi per chiarire l’attività in corso sono stati invasivi, il che significa aprire il cranio e posizionare gli elettrodi direttamente sul cervello stesso.
Tuttavia, tecniche non invasive come elettroencefalogrammi, EEG e magnetoencefalografia, MEG, possono scansionare il cervello dall’esterno e osservare l’attività senza alcun intervento chirurgico. Sia l’EEG che il MEG possono scattare istantanee dell’attività cerebrale a livello di millisecondi, il che li rende perfetti per una visione continua di ciò che sta accadendo nel cervello di una persona mentre sta ascoltando. Il problema è che non ottengono un quadro molto chiaro di ciò che sta accadendo, poiché le registrazioni delle sessioni EEG e MEG possono essere estremamente rumorose. Sebbene siano utili per la diagnosi delle lesioni, ciò li rende problematici per determinare attività cerebrali specifiche e sfumate, come se la persona stesse pensando di pronunciare la parola “gatto”.
Per affrontare questo problema, i ricercatori di FAIR hanno utilizzato algoritmi di apprendimento automatico per aiutare a “ripulire” il rumore. Il modello utilizzato si chiama wave2vec 2.0, uno strumento di intelligenza artificiale open source sviluppato dal team FAIR nel 2020 che può essere utilizzato per identificare il parlato corretto dall’audio rumoroso.
È solo un primo passo, tuttavia, ha avvertito King, poiché si è concentrato solo sulla decodifica del parlato percepito, sebbene l’obiettivo finale dello studio sia quello di consentire ai pazienti di comunicare consentendo la produzione del parlato. Potrebbe anche portare a ulteriori progressi tecnologici come nuovi modi per controllare i computer semplicemente pensando alle parole o al compito da svolgere.
“Più in generale, il nostro lavoro fa parte del più ampio sforzo della comunità scientifica per utilizzare l’IA per comprendere meglio il cervello umano”, ha affermato King.
Sebastiano Catte, com.unica, 13 settembre 2022
Fonte https://siliconangle.com/