跳到主要内容

话题

神经工程

神经工程

大声思考:将思想直接转化为言语

语音重建示意图

翻译一个人的能力’将思想直接转化为语音可以为计算机与大脑直接交流提供新的方式。可以从神经活动中重建语音的神经修复设备可以帮助无法讲话的人—例如瘫痪的患者或中风后康复的患者—恢复与外界沟通的能力。

先前的研究证明了从大脑信号重建语音的可行性。然而,结果语音的低质量目前是语音神经假体发展中的主要障碍。为了解决这一局限性,哥伦比亚大学领导的研究团队结合了深度学习和语音合成技术的最新进展,创建了一个可以将思想转换为可理解的,可识别的语音的系统(科学报告书 10.1038 / s41598-018-37359-z)。

“我们的声音有助于将我们与我们的朋友,家人和周围的世界联系起来,这就是为什么失去一个人的力量的原因’由于受伤或疾病而发出的声音令人震惊,” says senior author 尼玛(Nima Mesgarani)来自哥伦比亚大学’的祖克曼研究所(Zuckerman Institute)曾与 哈桑·阿克巴里(Hassan Akbari) and colleagues. “With today’在研究中,我们有一种恢复这种力量的潜在方法。我们’ve证明,有了正确的技术,这些人’的想法可以被任何听众解码和理解。”

模型比较

请讲—甚至想像演讲—在大脑内产生特定的活动模式。在听(或想象听)某人讲话时,也会出现不同的信号模式。 Mesgarani和同事比较了各种技术对这些模式进行解码并将其转换为语音的能力。

为了从记录的神经信号中重建声学刺激,研究人员采用了线性回归(LR)和非线性深度神经网络(DNN)回归模型。他们还检查了两种声学表示:以前的研究中使用的听觉声谱图;以及和声码器—一种计算机算法,可以在对说话人的录音进行训练后合成语音。

与神经外科医生合作 Ashesh Dinesh Mehta,研究人员使用脑皮质描记法测量了五名已经接受脑部手术的癫痫患者的神经活动模式,他们正在听四个演员讲的连续故事。每个患者记录的诱发的神经活动’然后使用听觉皮层训练LR和DNN模型。

接下来,患者听了8个重复的句子,使团队能够客观地评估模型的质量。比较回归模型和声学表示的每种组合重建的听觉频谱图,结果表明,与LR模型相比,DNN可以更好地保留语音的整体频率分布。浊音的频率曲线表明,只有使用DNN才能恢复谐波结构–vocoder combination.

数清

接下来,患者听取两位男性和两位女性说话者所讲的十个数字(从零到九)。研究人员使用每种模型来重建40种声音。然后,十一名听力正常的人以随机顺序收听重建的数字,并对每个数字的质量和清晰度进行评估。

 使用DNN-声码器重建语音

DNN–声码器组合表现出最好的清晰度,准确度达75%。这表示使用LR重建听觉频谱图的基线方法的性能提高了67%。在所有情况下,DNN模型的性能均明显优于LR模型。听众还认为DNN的语音质量明显更高–声码器系统比其他三个模型要少,这意味着它听起来最接近自然语音。

“我们发现人们可以大约75%的时间理解并重复声音,这远远超出了以往的尝试,” says Mesgarani. “灵敏的声码器和强大的神经网络以惊人的准确度代表患者最初听的声音。”

接下来,Mesgarani和他的团队计划测试更复杂的单词和句子。他们还希望对一个人讲话或幻想讲话时发出的大脑信号进行相同的测试。最终,他们希望他们的系统可以成为植入物的一部分,类似于某些癫痫患者所佩戴的植入物,从而使佩戴者感到满意’的思想直接转化为语言。

“在这种情况下,如果穿戴者认为‘我要一杯水’,我们的系统可以吸收由该想法产生的大脑信号,并将其转换为合成的口头言语,”Mesgarani解释。“这将改变游戏规则。这将给任何因语言能力受损或受伤而失去发言能力的人重新提供与周围世界联系的机会。”

相关事件

版权©2020年由IOP 出版 Ltd和个人贡献者