哥伦比亚神经发动机创造了一个系统,将思想转化为可理解的,可识别的语音。通过监控某人的大脑活动,该技术以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和人工智能的强大功能,可以为计算机直接与大脑通信提供新的途径。它还能帮助不能说话的人(例如那些生活在肌萎缩侧索硬化症(ALS)或从中风中恢复过来的人)重新获得与外界沟通的能力奠定了基础。
这些研究结果发表于今天的科学报告。
“我们的声音有助于将我们与我们的朋友,家人和我们周围的世界联系起来,这就是为什么因伤害或疾病而失去一个人声音的力量是如此具有破坏性。”该论文的资深作者和首席研究员Nima Mesgarani博士说。“通过今天的研究,我们有了恢复这种力量的潜在方法。我们已经证明,通过正确的技术,这些人的想法可以被任何听众解读和理解。”
几十年的研究表明,当人们说话,甚至想象说话时,大脑中会出现明显的活动模式。当我们倾听某人说话或想象聆听时,也会出现明显(但可识别)的信号模式。专家们试图记录和解码这些模式,看到未来的思想不需要隐藏在大脑内,而是可以随意翻译成口头语言。
但实现这一壮举已经证明具有挑战性。Mesgarani博士及其他人早期解决脑部信号的工作主要集中在分析频谱图的简单计算机模型上,这些频谱图是声音频率的视觉表示。
但由于这种方法未能产生任何类似于可理解语音的东西,Mesgarani博士的团队转而使用声码器,这是一种计算机算法,可以在人们说话的录音训练后合成语音。
“这与亚马逊Echo和Apple Siri用来对我们的问题作出口头回应的技术相同。”Mesgarani博士说,他也是哥伦比亚大学福建基金会工程与应用科学学院电气工程副教授。
“与Mehta博士合作,我们询问已经接受脑部手术的癫痫患者听取不同人说的句子,同时我们测量了大脑活动的模式,”Mesgarani博士说。“这些神经模式训练了声码器。”
接下来,研究人员要求那些同样的患者听到讲述0到9之间数字的发言者,同时记录可以通过声码器运行的大脑信号。声码器响应这些信号所产生的声音被神经网络分析和清理,神经网络是一种模仿生物大脑中神经元结构的人工智能。
最终结果是一个机器人发出的声音背诵一系列数字。为了测试录音的准确性,Mesgarani博士和他的团队要求个人听取录音并报告他们听到的内容。
“我们发现人们可以在75%的时间内理解并重复这些声音,这远远超过以往任何尝试,”Mesgarani博士说。在将新记录与早期基于频谱图的尝试进行比较时,可懂度的提高尤为明显。“敏感的声码器和强大的神经网络代表了患者最初听到的声音,具有惊人的准确性。”
Mesgarani博士和他的团队计划接下来测试更复杂的单词和句子,他们希望对一个人讲话或想象说话时发出的大脑信号进行相同的测试。最终,他们希望他们的系统可以成为植入物的一部分,类似于一些癫痫患者所使用的植入物,将佩戴者的思想直接转化为文字。
“在这种情况下,如果佩戴者认为'我需要一杯水',我们的系统可以接受这种想法产生的大脑信号,并将它们转化为合成的口头语言。”Mesgarani博士说。“这将改变游戏规则。它会让任何失去讲话能力的人,无论是受伤还是疾病,重新获得与周围世界联系的机会。”
原文地址:http://www.imrobotic.com/news/detail/9081
|