一位渐冻症患者通过植入大脑的电极阵列,成功用意念"说出"了他失去发声能力后的第一句话。这一突破性成果标志着脑机接口技术在语音重建领域取得了历史性进展,...
2025-07-22 2
一位渐冻症患者通过植入大脑的电极阵列,成功用意念"说出"了他失去发声能力后的第一句话。这一突破性成果标志着脑机接口技术在语音重建领域取得了历史性进展,为全球数百万失语患者重新获得交流能力开辟了崭新道路。
加州大学戴维斯分校联合布朗大学、哈佛医学院附属马萨诸塞总医院及美国退伍军人事务部神经恢复中心的研究团队,在《自然》杂志发表的最新研究中,首次实现了将大脑神经信号实时转换为带有个人音色特征的自然语音。这项技术不仅能够识别患者想要表达的词汇内容,还能准确捕捉语调、情感和个性化表达方式,使合成语音具备了真实人类对话的丰富特征。
图1:脑—语音接口系统的工作原理示意图。
实验中的渐冻症患者在系统帮助下成功表达了"你好""今天感觉很好"等句子,甚至能够调控语调语气,尝试哼唱旋律。更重要的是,合成的语音保留了患者原有的音色特征,让他重新拥有了属于自己的声音。这种个性化的语音重建技术在脑机接口领域尚属首次,为失语者的身份认同和社交重建提供了重要支撑。
技术创新突破传统限制
传统的脑机接口系统主要依赖文字拼写或按钮输入方式进行交流,即使能够合成语音,往往也显得机械单调,缺乏自然语言的韵律和情感表达。这种局限性严重影响了失语患者的交流体验和生活质量。
新系统采用了革命性的"双路径解码"机制,通过在患者大脑左侧前中央回腹部植入256通道微电极阵列,实时监测控制面部和喉部运动的神经活动。即使患者已无法实际发声,但在"试图说话"时,大脑仍会产生可被精确记录的电信号模式。
图2:语言相关脑区的神经信号采集与放电波形图。左侧图显示了研究中电极阵列的植入区域,包括中前中央回(Middleprecentral gyrus,55b)、腹侧前运动皮层(ventral premotorcortex,6v)、初级运动皮层(primary motorcortex,M1)以及相关子区(d6v、v6v)。黄色虚线标示中央沟(central sulcus)作为解剖参照。右侧图为从每个脑区采集到的神经放电波形(spike waveforms),展示了不同皮层区域中神经元的典型放电模式。这些信号构成了接口系统语音解码的神经基础。
系统将这些神经信号输入两套并行的深度神经网络模型:第一套模型负责预测语音内容,识别"说了什么";第二套模型专门提取语调和情绪等副语言信息,判断语句是否为疑问句、是否强调特定词汇等。这种设计使得系统不仅能还原语义信息,还能呈现语言中的情感色彩和个性表达。
研究团队面临的一个关键挑战是如何在缺乏"真实语音"训练数据的情况下构建有效的解码模型。他们开发了创新的间接训练算法:通过屏幕提示引导患者进行"尝试说话",实时记录神经活动,然后利用语音合成技术生成对应的目标语音,并将合成语音与神经信号在时间上精确对齐,从而构建出神经-语音配对数据。
图3:脑—语⾳接⼝系统的表达⼒与语调控制能⼒。本图展示系统在语速调控(a–b)、词语重读(c)、语调识别(d–e)、强调重建(f–g)和⾳⾼合成(h–k)⽅⾯的多维解码能⼒。a–b:系统可区分快速与缓慢语速的神经意图,并合成相应节奏语⾳;c:在不同⽪层(M1、v6v、d6v、55b)中检测到与词语强调相关的神经调制;d–e:区分疑问句与陈述句语调,并实现⾼准确率的语调解码(90.5%);f–g:成功识别并再现句中不同词语的强调位置(如“Where” vs “You”);h–k:合成不同⾳⾼(Low,Mid,High)的旋律语⾳,并达到了与⽬标语调一致的频率分布(合成精度>73%)。
毫秒级响应实现实时对话
系统的核心是基于Transformer架构的深度学习模型,每10毫秒预测一次语音的频谱与音高特征,实现了真正的"因果解码"能力。这种高频率的预测机制确保了从神经信号产生到声音输出的延迟控制在毫秒级别,几乎可以实现实时对话。
为了最大程度保留个体特征,研究团队还开发了个性化声码器系统。该系统通过融入患者早期的语音录音进行训练,使合成语音在音色、语调上更贴近患者原有的嗓音特征,具有高度的个体化识别度。
实验结果显示,系统在语音识别和表达控制方面表现出色。对疑问语调的识别准确率达到90.5%,词语重读的识别准确率为95.7%。在自由表达任务中,合成语音的音频质量与提示语条件下的生成结果高度相关,相关系数约为0.79。
系统还展现出了令人印象深刻的表达灵活性。患者能够控制语速快慢、调节音高变化,甚至可以在不同词汇上施加强调,使表达更加生动自然。这些功能的实现表明,即使在失去发声能力的情况下,大脑中负责语言表达的神经网络仍然保持着丰富的活动模式。
开源推动全球协作发展
认识到这项技术的巨大潜力和社会价值,研究团队已将完整的数据与代码在GitHub平台开源,邀请全球研究者共同优化算法、拓展功能。这种开放合作的模式有望加速脑语音接口技术的发展进程。
目前,该技术主要面向渐冻症、中风、脑瘫、喉癌术后等失语人群。未来的发展方向包括与非侵入式脑电技术结合,降低使用门槛;融合AI语义理解系统,构建新一代自然语言交互平台;扩大临床试验规模,验证技术的通用性和稳定性。
尽管取得了突破性进展,该技术仍面临一些挑战。目前的表达主要依赖外部提示引导,尚未实现完全自主的自由交流。系统生成的语音虽然具备个性化特征,但在语调灵活性和情感表现方面仍有改进空间。此外,技术的侵入性和长期稳定性也是需要解决的实际问题。
研究团队表示,下一步将重点解决从"提示驱动"向"自由表达"的转换,并探索减少设备侵入性的技术路径。随着人工智能和神经工程技术的不断进步,真正实用化的脑语音接口系统有望在未来几年内走出实验室,为失语患者带来交流自由。
这项研究不仅代表了神经工程技术的重大突破,更重要的是为失语者重建语言能力、恢复社会参与提供了新的希望。它提醒我们,语言不仅是交流工具,更是人类尊严和身份认同的重要组成部分。
相关文章
一位渐冻症患者通过植入大脑的电极阵列,成功用意念"说出"了他失去发声能力后的第一句话。这一突破性成果标志着脑机接口技术在语音重建领域取得了历史性进展,...
2025-07-22 2
2025年7月22日14:00,全球智能眼镜头部品牌XREAL正式发布全新旗舰产品——XREAL One Pro,并同步在京东、天猫平台开启预售。发布...
2025-07-22 0
【CNMO科技消息】7月22日,CNMO注意到,数码闲聊站透露,下一代中端智能手机将迎来显著配置升级,在性能、质感与防护能力上全面向旗舰机型看齐。国产...
2025-07-22 0
苹果于 7 月 21 日向开发者和公测用户推送了 iOS 18.6 RC(内部版本号 22G84),标志着 iOS 18 系列最后收官节奏正式开启,预...
2025-07-22 1
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-07-22 8
沙特阿拉伯的顾客现在可以直接从该国新的Apple Store Online 购买 iPhone、iPad、Mac 和其他 Apple 设备。这家在线商...
2025-07-22 4
新眸原创·作者 | 知秋没有天价外援和商业代言,苏超靠着“市队死磕”的热血,成为今夏最野最顶流的足球IP。7月20日,徐州队对阵常州队的焦点战正式开赛...
2025-07-22 4
雅鲁藏布江,这条发源于青藏高原的大河,自西向东奔腾而过,在我国境内流经多个地区后,进入印度、孟加拉国等国,最终注入印度洋。雅鲁藏布江不仅是我国重要的水...
2025-07-22 4
发表评论