Engineers translate brain signals directly into speech

Ερευνητές “μεταφράζουν” τα σήματα του εγκεφάλου σε ομιλία

Ο καθένας που έχει χάσει την ικανότητα να μιλάει, είτε λόγω τραυματισμού είτε λόγω ασθένειας, θα έχει ξανά την ευκαιρία να έλθει σε επαφή με τον κόσμο γύρω του.

ThoughtSpeach_ful

Advance marks critical step toward brain-computer interfaces that hold immense promise for those with limited or no ability to speak

 

In a scientific first, Columbia neuroengineers have created a system that translates thought into intelligible, recognizable speech. By monitoring someone’s brain activity, the technology can reconstruct the words a person hears with unprecedented clarity.

This breakthrough, which harnesses the power of speech synthesizers and artificial intelligence, could lead to new ways for computers to communicate directly with the brain. It also lays the groundwork for helping people who cannot speak, such as those living with as amyotrophic lateral sclerosis (ALS) or recovering from stroke, regain their ability to communicate with the outside world.

These findings were published today in Scientific Reports.

“Our voices help connect us to our friends, family and the world around us, which is why losing the power of one’s voice due to injury or disease is so devastating,” said Nima Mesgarani, PhD, the paper’s senior author and a principal investigator at Columbia University’s Mortimer B. Zuckerman Mind Brain Behavior Institute. “With today’s study, we have a potential way to restore that power. We’ve shown that, with the right technology, these people’s thoughts could be decoded and understood by any listener.”

Decades of research has shown that when people speak — or even imagine speaking — telltale patterns of activity appear in their brain. Distinct (but recognizable) pattern of signals also emerge when we listen to someone speak, or imagine listening. Experts, trying to record and decode these patterns, see a future in which thoughts need not remain hidden inside the brain — but instead could be translated into verbal speech at will.

But accomplishing this feat has proven challenging. Early efforts to decode brain signals by Dr. Mesgarani and others focused on simple computer models that analyzed spectrograms, which are visual representations of sound frequencies.

But because this approach has failed to produce anything resembling intelligible speech, Dr. Mesgarani’s team turned instead to a vocoder, a computer algorithm that can synthesize speech after being trained on recordings of people talking.

“This is the same technology used by Amazon Echo and Apple Siri to give verbal responses to our questions,” said Dr. Mesgarani, who is also an associate professor of electrical engineering at Columbia’s Fu Foundation School of Engineering and Applied Science.

To teach the vocoder to interpret to brain activity, Dr. Mesgarani teamed up with Ashesh Dinesh Mehta, MD, PhD, a neurosurgeon at Northwell Health Physician Partners Neuroscience Institute and co-author of today’s paper. Dr. Mehta treats epilepsy patients, some of whom must undergo regular surgeries.

“Working with Dr. Mehta, we asked epilepsy patients already undergoing brain surgery to listen to sentences spoken by different people, while we measured patterns of brain activity,” said Dr. Mesgarani. “These neural patterns trained the vocoder.”

Next, the researchers asked those same patients to listen to speakers reciting digits between 0 to 9, while recording brain signals that could then be run through the vocoder. The sound produced by the vocoder in response to those signals was analyzed and cleaned up by neural networks, a type of artificial intelligence that mimics the structure of neurons in the biological brain.

The end result was a robotic-sounding voice reciting a sequence of numbers. To test the accuracy of the recording, Dr. Mesgarani and his team tasked individuals to listen to the recording and report what they heard.

“We found that people could understand and repeat the sounds about 75% of the time, which is well above and beyond any previous attempts,” said Dr. Mesgarani. The improvement in intelligibility was especially evident when comparing the new recordings to the earlier, spectrogram-based attempts. “The sensitive vocoder and powerful neural networks represented the sounds the patients had originally listened to with surprising accuracy.”

Dr. Mesgarani and his team plan to test more complicated words and sentences next, and they want to run the same tests on brain signals emitted when a person speaks or imagines speaking. Ultimately, they hope their system could be part of an implant, similar to those worn by some epilepsy patients, that translates the wearer’s thoughts directly into words.

“In this scenario, if the wearer thinks ‘I need a glass of water,’ our system could take the brain signals generated by that thought, and turn them into synthesized, verbal speech,” said Dr. Mesgarani. “This would be a game changer. It would give anyone who has lost their ability to speak, whether through injury or disease, the renewed chance to connect to the world around them.


190129081919_1_540x360
Credit: © adragan / Fotolia

Το επίτευγμα ανήκει σε ερευνητές του Ινστιτούτου Zuckerman στη Νέα Υόρκη.

Το Ινστιτούτο Νευροεπιστήμης Zuckerman στη Νέα Υόρκη φαίνεται πως έκανε πράξη έναν από τους μεγαλύτερους «φόβους» μας ή κατ’ άλλους ένα από τα μεγαλύτερα όνειρα της επιστήμης. Δημιούργησε το πρώτο σύστημα που μπορεί να μεταφράσει τα εγκεφαλικά σήματα της σκέψης απευθείας σε καθαρή και κατανοητή συνθετική ομιλία από υπολογιστή.

Έτσι ανοίγει ο δρόμος ώστε μια μέρα οι υπολογιστές να επικοινωνούν απευθείας με τον εγκέφαλο, αναφέρει το ινστιτούτο και στο σχετικό tweet του!

Τι ακριβώς κατάφεραν οι επιστήμονες;

Οι μηχανικοί και νευροεπιστήμονες του Ινστιτούτου Zuckerman του Πανεπιστημίου Κολούμπια της Νέας Υόρκης, με επικεφαλής τον αναπληρωτή καθηγητή Νίμα Μεσγκαρανί, ανέπτυξαν ένα σύστημα τεχνητής νοημοσύνης που, αφού παρακολουθήσει τη δραστηριότητα στον ακουστικό φλοιό του εγκεφάλου, είναι σε θέση στη συνέχεια να ανακατασκευάσει ορισμένες από τις λέξεις που ο άνθρωπος ακούει.

Οι ερευνητές ανέπτυξαν ένα νέο αλγόριθμο που μπορεί να συνθέσει την ομιλία, έχοντας προηγουμένως εκπαιδευθεί αναλύοντας ηχογραφήσεις ομιλιών πολλών ανθρώπων, καθώς και την εγκεφαλική δραστηριότητα εθελοντών (επιληπτικών ασθενών που έκαναν νευροχειρουργική επέμβαση), οι οποίοι άκουγαν τις φωνές άλλων.

Η ακρόαση των φωνών δημιουργεί ηλεκτρικά μοτίβα στον ακουστικό φλοιό του εγκεφάλου, τα οποία αντανακλούν την ομιλία που ο άνθρωπος ακούει. Ο αλγόριθμος (vocoder) μαθαίνει να συσχετίζει την ακουστική εγκεφαλική δραστηριότητα με την ομιλία και μετά να παράγει συνθετική φωνή. Στη συνέχεια, ένα νευρωνικό δίκτυο τεχνητής νοημοσύνης αναλαμβάνει να κάνει πιο καθαρή και κατανοητή τη συνθετική ομιλία.

«Ουσιαστικά είναι η ίδια τεχνολογία που χρησιμοποιούν τα Amazon Echo και η Siri της Apple για να απαντάνε στις ερωτήσεις μας», είπε ο Μεσγκαρανί.

Με τη βοήθεια του νευρωνικού δικτύου τεχνητής νοημοσύνης, που μιμείται τη δομή των νευρώνων στον ανθρώπινο εγκέφαλο, παράγεται τελικά μια ρομποτική φωνή, η οποία γίνεται κατανοητή στο 75% των περιπτώσεων, ποσοστό μεγαλύτερο από ανάλογες προσπάθειες στο παρελθόν.

Οι ερευνητές τώρα θέλουν να βελτιώσουν το σύστημα ώστε να «ακούει» και να συνθέτει πιο πολύπλοκες λέξεις και προτάσεις.

Θα «διαβάζουν» τη σκέψη μας;

Το επίτευγμα αποτελεί σημαντικό βήμα προόδου για τη δημιουργία τεχνολογίας που θα «διαβάζει» το μυαλό των ανθρώπων. Εκ πρώτης όψεως αυτό φαντάζει τρομακτικό.

Από την άλλη όμως, το συγκεκριμένο επίτευγμα θα βοηθήσει στην ανάπτυξη νευροπροσθετικών συσκευών διεπαφής εγκεφάλου-υπολογιστή, που θα επιτρέψουν σε ανθρώπους με περιορισμένη ή χωρίς καθόλου ικανότητα ομιλίας (εξαιτίας ασθένειας ή εγκεφαλικού), να επικοινωνήσουν με άλλους μέσω τεχνητής φωνής.

Κάτι σαν αυτό, δηλαδή, που έκανε ο μεγάλος Στίβεν Χόκινγκ, ο οποίος έπασχε από αμυοτροφική πλευρική σκλήρυνση.

Ο τελικός στόχος των επιστημόνων είναι η δημιουργία ενός εγκεφαλικού εμφυτεύματος, όπως αυτά που έχουν ορισμένοι ασθενείς με επιληψία, το οποίο θα μεταφράζει τις σκέψεις απευθείας σε λέξεις. Αν, για παράδειγμα, ο άνθρωπος σκέφτεται «θέλω ένα ποτήρι νερό», αλλά δεν μπορεί να μιλήσει, το εμφύτευμα θα είναι σε θέση να το πει με τη συνθετική φωνή του.

«Θα πρόκειται για επανάσταση», είπε ο Μεσγκαρανί. «Ο καθένας που έχει χάσει την ικανότητα να μιλάει, είτε λόγω τραυματισμού είτε λόγω ασθένειας, θα έχει ξανά την ευκαιρία να έλθει σε επαφή με τον κόσμο γύρω του».

«Με τη νέα μελέτη δείξαμε ότι, με την κατάλληλη τεχνολογία, οι σκέψεις των ανθρώπων είναι δυνατό να αποκωδικοποιηθούν και να κατανοηθούν από οποιονδήποτε ακροατή», δήλωσε ο Μεσγκαρανί. Με άλλα λόγια, όπως είπε, οι σκέψεις δεν είναι ανάγκη να παραμένουν κρυμμένες μέσα στο κεφάλι μας.

Το θέμα, βέβαια, είναι, ποιος θα τις διαβάζει, ποιος θα τις ακούει και γιατί!

https://www.sciencedaily.com/releases/2019/01/190129081919.htm

https://www.psychologynow.gr/arthra-psyxikis-ygeias/egkefalos/skepsi/6459-erevnites-metafrazoun-ta-simata-tou-egkefalou-se-omilia.html

4 comments on “Engineers translate brain signals directly into speech

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s