匿名终结者：为什么说声音识别是所有隐私入侵手段中最为可怕的一种？

IYP
Jun 27, 2018
4 min read

我们在发布这篇《提醒注意大规模监视新途径》后，得到了很多反馈，看起来有不少朋友非常关心这一问题。不过从回复上看，也有读者不甚理解它的危害性。究竟为什么我们称之为“匿名终结者”，为什么说声音识别是所有隐私入侵手段中最为可怕的一种？

可以说所有生物识别方式都是非常可怕的，因为生物特征是每个人独有的、且无法更改的东西。你可以更改姓名，可以采取任何在线隐私保护的匿名手段（这里有一个工具箱，可以从各方面保护隐私的工具），但是你的虹膜是无法改变的、掌形是无法改变的，静脉是无法改变的，如果你想去掉指纹，你知道会有多痛苦（《七宗罪》）。

印度的生物身份识别系统 Aadhar 使用的是指纹和眼球识别，这就是为什么称之为全球最可怕的大规模监视计划。它收录 11 亿人的生物识别数据，一生都无法更改的东西。

没错，我们身上长满了“活密码”，这些独一无二的信息就是每个人的身份，监视者最喜欢的东西。在现代技术更加倾向于生物识别解锁的大趋势下，我们将失去一切隐私。

其中相比下，最为可怕的就是声音。

声纹是指人类语音中携带言语信息的声波频谱，它同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。声音信号是一维连续信号，将它进行离散化后，就可以得到我们现在常见的计算机可以处理的声音信号。

每个人都具有独一无二的声纹，这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似，声纹都具有非常明显的区别。

就算你感冒了，嗓子哑了，从远处打来电话，你的熟人也能知道“是你”嗓子哑了，而不是别人；你的家人在听到一个字“喂”后就知道那是你打来的电话，而不是别人。这就是声音的特殊性，人类早已以此作为识别同胞的关键信息，而现在，这一识别权已经被掌握在政府情报机构和警方的手里，那些有权因为你的一句话就把你扔进监狱的人。

虽然目前计算机还做不到通过一个字就判断出人的身份，但是利用大量的训练语音数据，系统可以学习到智能的“声纹”大脑，在你说出 8-10 个字的情况下可以判断你的身份，或者在你说1分钟以上的话后，就可以准确地判断出你的真实身份。这里面其实包含了大部分生物识别系统都适用的重要概念：1:1 和 1:N，同时也包含了只有在声纹识别技术中存在的独特的概念：内容相关和内容无关。

对于声纹识别系统而言，如果从用户所说语音内容的角度出发，则可以分为内容相关和内容无关两大类技术：“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容，而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以，由于内容大致类似，只需要考虑声音本身的差异，难度相对较小；而后者由于不限定内容，识别系统不仅需要考虑用户声音之间的特定差异，还需要处理内容不同而引起的语音差异，难度较大。

目前有一种介于两者之间的技术，可以称之为“有限内容相关”，系统会随机搭配一些数字或符号，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异，这种特性正好与互联网上广泛存在的短随机数字串（如数字验证码）相契合，可以用来校验身份，或者和其他人脸等生物特征结合起来组成多因子认证手段。

隐私保护组织 Big Brother Watch 揭示，自去年年初以来已经有 510 万名拨打热线电话的用户不得不说出’我的声音是我的密码’这句话。这里使用的就是“有限内容相关”。

声纹识别算法的技术细节

在特征层面，经典的梅尔倒谱系数 MFCC，感知线性预测系数 PLP、深度特征 Deep Feature、以及能量规整谱系数 PNCC 等，都可以作为优秀的声学特征用于模型学习的输入，但使用最多的还是 MFCC 特征，也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面，目前还是 N.Dehak 在 2009 年提出的 iVector 框架一统天下，虽然在深度学习大红大紫的今天，声纹领域也难免被影响，在传统的 UBM-iVector 框架下衍化出了 DNN-iVector，也仅仅是使用 DNN（或者 BN）提取特征代替 MFCC 或者作为 MFCC 的补充，后端学习框架依然是 iVector。

下面是一个完整的声纹识别系统的训练和测试流程，可以看到在其中 iVector 模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段，可以使用 BottleNeck 特征取代或者补充 MFCC 特征，输入到 iVector 框架中训练模型。

这就是覆盖全球的声音识别数据库为什么可怕。

如果你的电话通话被窃听，就算你使用的是不是自己的手机、手机卡没有实名认证、或者干脆拨打的是公共电话，窃听者也能准确识别你的身份；就算你化名接受采访，只要记者保留了采访录音，掌握那个 SiiP 数据库的人只要拿到这一录音的人都能认出接受采访的人是谁；如果你通过加密应用使用音频和朋友交流一件非常重要的事，就算你没有使用手机号注册、没有使用真实姓名做 ID，没有用私人照片做头像，掌握那个 SiiP 数据库的人只要可以入侵对话双方某一方的设备，就可以识别对方是谁。（例如入侵 WhatsApp 的方法）

⚠️ 再次提醒：任何关键对话内容，切勿使用语音通讯。

匿名终结者：为什么说声音识别是所有隐私入侵手段中最为可怕的一种？

Recent Posts

Comments