来源:量子位
你是否也有过这样的时候。
厨具清洁正水声大作,手机突然响了起来。这时你满手泡沫水渍,大脑瞬间空白:
sad。
那,语音控制?
Siri 表示周围水声太大我好像不明白你在说什么。
至于手势控制……我手要空着还会有这个问题吗!
那有没有更 nice 的一种方式呢?
这个可以有——牙齿控制了解一下。
通过牙齿动作 *(teeth gestures)* 来代替常规输入方式。
这就是来自康奈尔大学 SciFi 实验室的一项新研究——TeethTap。
效果展示
TeethTap 是一种可穿戴系统,主要由耳后佩戴的 IMU 和接触式麦克风组成。
已经可以通过捕捉并识别耳朵周围不同的牙齿动作来实现一些简单功能。
而在最终的用户测试阶段里,TeethTap 成功识别了 11 位参与者的 1382 个牙齿动作中的 1256 个,平均准确度达 90.9%。
如果能将这套系统集成到相关设备,那么既不用动手,也不用顾忌环境噪音的设备控制方式,或许就真的未来可期了。
那么,它到底是怎么实现的呢?
13 种基础牙齿动作
好,现在,先咬个牙。
注意到了吗,你在活动牙齿时,你的舌头、下颌骨,以及口腔肌肉都会随之运动。
而研究人员在设计基本牙齿动作时,便是受此启发。
对于牙齿接触的范围,以舌头朝向(引申到下颌方向)为 y 轴,以侧面运动方向为 x 轴,这里 x-y 平面的四个极限点就可以描述为现实动作里的前、后、左、右。
对于牙齿接触的方式,则类比鼠标动作:单击(快速咬合并释放)、双击(两次快速咬合并释放)、长按(保持咬合,延迟释放)。
通过以上两个维度,共设计了 13 种基础的 " 牙齿动作 "(teeth gestures)。
就像 26 个英语字母可以组成无数单词一样,这 13 个 " 基本动作 " 也可以组合成为各种生活中的常用指令。
" 动声结合 " 的硬件设备
在动作(语音)与指令交互时,现有手段大多通过人体特定部位的复杂传感器(如眼动仪)来识别手势,主要有运动感测(如 IMU)和声音感测(如麦克风)两个方向。
而 TeethTap 则采用运动感测与声音感测相结合的硬件设备,来探索面部手势识别的可能性。
TeethTap 主要由两个接触式麦克风(BU-30179-000)和两个惯性测量单元(IMU)组成。看外形有点像造型奇怪,设备繁多的运动耳机。
自然弯曲的 PLA 灯丝将 IMU 传感器压在耳朵下方的下颌骨处,并将麦克风固定到耳后的颞骨上,而麦克风则连接到可以放大和过滤声音信号的定制 PCB 板上。
在运动时,来自麦克风(声传感器)的滤波数据和来自 IMU 的陀螺仪数据,分别通过板载 12 位的 ADC 和 I2C 通信发送到微控制器(HUZZAH32)。
最后,HUZZAH32 将数据发送到计算机以使用 WiFi 进行处理。
从去躁到识别
那么上述的数据分析及传输算法具体是怎么实现的呢?
流程图是这样:
首先从连续数据流中划分一个以 2s 为单位的滑动窗口,随着数据不断流入流出,滑动窗口也进行 20 次 /s 的移动。
当检查到音频数据出现足够的尖峰时,再检查陀螺仪的 y 轴绝对最大值是否超过预定的能量阈值,以此来判定是否有动作发生。
而对于咀嚼或说话等可行为能产生的噪声干扰,研究人员也实现了带有线性核的 SVM 模型分类器,对接收数据里的噪声段和动作段进行了区分。
在对数据进行分割并过滤掉噪声之后,再使用 K 近邻算法(k = 1)对手势进行分类。
再使用 DTW 距离函数在每次迭代中输出一个值,最终将具有最小距离值的手势确定为预测动作。
团队介绍
SciFi 是位于康奈尔大学计算机与信息科学系的跨学科实验室。
目前已在活动识别,健康感测和自然用户界面等多个领域上进行了新应用的开发。
而对于现在的这款 TeethTap,作者也坦然承认只是概念性的展示,所以不管是在外表美观程度还是功能性上都还有所欠缺。
而未来的整体思路是以足够小的电子元件,将整个系统集成在耳机、听筒,甚至是一副眼镜框架上。
等等?