麻省理工的研究人员开发出一种AI计算机界面,可以抄录用户想表达但没说出声音的话,该系统由可穿戴设备和相关计算系统组成,设备中的电极会捕捉下颚和脸部的神经肌肉信号,这些信号是由内部言语触发的,人眼无法察觉,信号会被送到机器学习系统,该机器学习系统已经被训练成将特定信号与特定字相关联,因此执行抄录。
该装置还包括一对骨传导头戴式耳机,其通过脸部的骨骼,振动传递到内耳,由于它们不会阻塞耳道,因此耳机可以使系统在不中断对话或以其他方式干扰用户的听觉,向用户传达信息。
所以该设备是一个完整的静音计算系统,可以让用户无法察觉的摆出姿势,并接受一些难以计算问题的答案。
例如:“ 在研究人员的一项实验中,受试者使用该系统默默报告对手在国际象棋游戏中的动作,并同样会默默接受计算机推荐的回应”。
微妙的信号
自19世纪以来,内部言语表达与身体相关的观点一直存在,并在20世纪50年代进行了严格的调查。
但是,作为计算机系统的subvocalization,在很大程度上是难以测验的,研究人员的第一步是确定脸上哪些位置是最可靠的神经肌肉信号的来源。所以他们进行了一些实验,在这些实验中,要求相同的受试者将同一系列的单词四次次定位,每次在不同的面部位置上有一组16个电极。
研究人员编写代码来分析结果数据,发现来自七个特定电极位置的信号始终能够区分次定位字,在会议论文中,研究人员报告了一种可穿戴无声语音界面的原型,该界面像电话耳机一样缠绕在脖子后部,并且具有触手状弯曲的附属物,其在嘴部两侧的七个位置处接触脸部并沿着下巴。
但是在目前的实验中,研究人员使用一个颚上只有四个电极的方法获得了可比较的结果,这应该导致一个不那么突出的可穿戴设备。
一旦他们选择了电极位置,研究人员就开始收集数据,内容包括一些有限词汇表的计算任务,每个约20字,一种是算术运算,其中用户将重点定位大的加法或乘法问题,另一个是国际象棋应用程序,用户使用标准的国际象棋编号系统报告移动。
然后,对于每个应用程序,他们使用神经网络来查找特定神经肌肉信号和特定词之间的相关性,像大多数神经网络一样,研究人员使用的网络被安排成简单处理节点的层次,每个层次都连接到上下层中的几个节点,数据被送入底层,其节点处理它并将它们传递给下一层,节点处理它并将它们传递到下一层,依此类推,最终图层产量的输出是一些分类任务的结果。
研究人员系统的基本配置包括一个神经网络,训练来识别来自神经肌肉信号的未定位词语,但它可以通过只重新训练最后两层的过程为特定用户定制。
实际问题
研究人员利用原型可穿戴接口进行了一项可用性研究,其中10名受试者花费了大约15分钟时间,将算术定制为他们自己的神经生理学,然后花费了90分钟用于执行计算,在该研究中,该系统的平均转录准确度约为92%。
但是,卡普尔说,系统的性能应该会随着更多的培训数据而改善,这些培训数据可以在日常使用中收集,尽管他没有揣测数字,但他估计他用于示范的训练有素的系统的准确率高于可用性研究报告的准确率。
在正在进行的工作中,研究人员正在收集大量关于更精细对话的数据,希望能够用更广泛的词汇来构建应用程序,我们正在收集数据,结果看起来不错,卡普尔说:“ 我认为我们有一天会实现全面对话”。
乔治亚理工学院计算学院教授Thad Starner说:“ 我认为他们目前有点不足,但非常有潜力,这个产品是非常好的”。
比如说,在机场的飞机停机坪上控制飞机,那时候因为你身边都有喷气噪音,通常无法与人沟通,甚至是拥有大量机器的地方,例如发电厂或印刷机等。
这是一个有意义的系统,特别是因为这些类型或情况中的人们经常会穿着防护装备,说话很不方便,有了这套装置后会容易许多,或者对某部分说话有障碍的残疾人士,会有帮助与贡献。
!评论内容需包含中文