美国西部时间25日,在国际信息安全界顶级会议“网络与分布式系统安全会议(NDSS 2020)”上,将发布一项来自浙江大学网络空间安全学院任奎团队、加拿大麦吉尔大学、多伦多大学学者团队的最新研究成果——
当前智能手机App可在用户不知情、无需系统授权的情况下,利用手机内置加速度传感器采集手机扬声器所发出声音的震动信号,实现对用户语音的窃听。
也就是说,用户很可能在毫无感知的情况下泄露隐私,而攻击者并不违法。
手机内置加速度传感器,俗称“加速度计”,是一种探测手机自身移动的传感器,常用于任何跟手机运动相关的测量,比如计步、测速、手机姿态测量等等。
在人们的普遍认知里,手机加速度计无法像麦克风、摄像头、地理位置一样,轻易获得或推断敏感的个人信息,因此App调用手机加速度计读数或是获取相应权限几乎不会遇到任何阻力。
也正因为这样,通过手机加速度计发起的攻击不仅隐蔽,而且“合法”。
研究团队发现,由于手机中的扬声器和加速度计被安装在同一块主板上,且距离十分接近,扬声器在播放声音时所产生的震动可以显著地影响加速度计的读数。加速度计收集到震动信号后,可进而识别甚至还原手机所播放的声音信号。
他们将这种攻击方式命名为“AccelEve”(加速度计窃听)——一种基于深度学习加速度传感器信号的新型“侧信道”智能手机窃听攻击。
“无论手机开不开免提,一方的人声都是先转换为电信号,通过网络传输到另一方,再通过扬声器发出来,引发主板震动,而加速度计能够感知这种震动”,研究团队成员、浙江大学网络空间安全学院院长任奎告诉南都记者。
通过深度学习算法,研究团队实现了语音识别与语音还原两大类窃听攻击。
攻击者可以识别出智能手机播放过的不同用户语音中包含的所有数字、字母和敏感词信息,准确率均接近90%,即使环境嘈杂,也可以达到80%。这样一来,如果用户语音中涉及密码、身份证号、银行卡号、省份、城市,都可能被窃取。
此外,该技术还可以通过学习加速度计数据与音频数据之间的映射和关联,将加速度计采集到的震动信号还原为原始的音频信号。
尽管囿于加速度计采样率的限制,目前的语音重构模型仅能重构1500Hz以下的音频数据,但重构出的音频已经包含了成人语音中的所有元音信息,进而被人工轻易识别出来。
和其他深度学习模型一样,语音还原模型监测同一个人说的话越多,准确率就越高。不过,任奎指出,在大多数情况下,80%以上的准确率已经足够用了。
“从犯罪分子的角度来说,他的目标并不是100%还原人声”,他强调,“只要里边的敏感信息能被攻击者提取出来,就足以产生潜在效益,对吧?可以说,攻击者监控用户是没有成本的。”
比如用户下载了一款伪装成棋牌游戏的间谍App,只要接通电话,攻击者无需任何授权就能拿到对方的语音数据,并传送到自己的后台。接下来,攻击者只需要把数据加入机器学习模型,就可以识别或还原语音。整个过程不冒任何违法风险。
事实上,目前监管部门出台的App相关法律法规更多针对的是摄像头、麦克风、短信等敏感权限,App需要详细说明获取上述权限的目的和用途,否则涉嫌违规。加速度计这类“低端”权限则处于灰色地带。
南都记者梳理发现,从2013年开始,就陆续有与手机加速度计窃取隐私相关的研究。
2014年,有研究发现,手机陀螺仪可以捕获同一张桌子上扬声器播放语音引起的震动,从而识别语音信息,但可行性和识别精度都较差。
2018年,有研究发现,在所有测试的音频源和媒介中,只有放在桌子上的扬声器才具有足够的功率和传播路径将振动传递给运动传感器。
“可以说,我们的研究结果是目前已发表的论文中,使用深度学习算法唯一在现实场景中切实可行的基于加速度计数据语音准确识别和重建的窃听攻击技术。”任奎说。
他希望,这一新攻击路径与技术的发现,可以让更多人关注移动端传感器安全,研究排查软硬件两方面的手机安全漏洞,减少信息泄露所导致的国家安全与社会经济损失。
采写:南都记者蒋琳