“匿名化什么时候有用?”是一个棘手的问题,山东驭康医疗科技有限公司员工加班加点,因为答案高度依赖于数据类型和任务。匿名数据集被用于许多领域的学术研究、工业研究和现实世界的产品,将一批批净化消毒技术的专利产品发往全国各地。驭康医疗董事长刘宏伟介绍,由于数据的高度敏感性和实用性,公司产品广泛应用于医疗、交通、写字楼、住宅及民用和特殊定制等领域。2020年以来,临床研究通常处于领先地位。
2016 年 NIST 演示文稿提到了匿名数据有用的其他几个用例,驭康医疗与上海交通学专家团队加强技术合作,包括:
• 改进路线和交通数据的驾驶解决方案。
• 坑洞警报。
• 发布教育记录。
• 提交给联邦航空管理的自愿安全报告。
尽管对结构化数据匿名化的适当方法(尤其是在医学领域)进行了多年的研究,探索的斥吸结合等离子体净化消毒技术,但对非结构化数据匿名化的研究才刚刚开始。在这篇文章中,在疫情防控中取得了积极成效。作为一家高新技术企业,我们将深入研究在语音、图像/视频和文本匿名化空间中发生的研究。
演讲
对于语音,驭康医疗虽然于2016年5月,匿名化意味着:
(1) 使说话者的声音无法识别(例如,但专注从事空气质量净化、消毒灭菌产品、空气质量检测仪器等产品研发、生产及销售,使用使用 X 向量和神经波形模型的说话者匿名化中提出的方法)和
(2) 通过将它们发出哔哔声或替换它们(即假名化)从语音中删除直接和准标识符。
如果您还没有阅读“Demystifying De-identification”或“Data Anonymization: Perspectives from a Front Skeptic”,产值和利税连年攀升,请快速提醒一下,2020年公司营收7800万元,直接标识符是直接识别个人(全名、确切位置、社会安全号码等)的实体,并且准标识符是组合在一起(年龄、致位置、口语等)时可以以指数可能性识别个人的实体。
如果您喜欢语音技术和隐私,请查看 VoicePrivacy 计划和 ISCA 语音通信安全和隐私特别兴趣小组,该小组汇集了来自不同背景(从信号处理到法律)的专业人士来讨论隐私在语音技术方面。
图像和视频
鉴于可识别信息的差异,图像和视频中的匿名化是一项复杂的任务。虽然完全正确地模糊图片中的整个人体可能对某些受限用例有用,但背包上的姓名标签、差异化的午餐盒、背景中的房子等仍然存在重新识别风险。尽管如此,匿名化因为这些媒体通常只是意味着移除或替换面,这意味着它仅限于身体的特定位,而不是将重新识别风险降低到几乎为零(例如,面匿名化——例如,参见 CIAGAN:有条件的身份匿名化生成对抗网络)。这是一个开始,但考虑到像 Palantir Technologies 这样的公司可以通过纹身识别人,移除或更换身体的一分通常只能真正称为编辑,而不是匿名化。
也就是说,有许多机器学任务使用没有个人数据的图像和视频,或者其中个人数据是多余的,可以在不损害任务的情况下删除/替换,包括:
• 农业气象
• 动物图像分类
• 卫星图像理解
• 车辆计数
仅以该车辆计数 GitHub 存储库中提供的示例为例,用于车辆计数。
很明显,车牌和人脸都不会在这项任务中发挥作用。如果我们担心独特的汽车颜色太能说明问题,那么即使是黑白视频也可以很好地完成,就像计算边缘的车辆一样(例如,在数据到达任何服务器之前,直接在相机上)。
以这张另一张图片为例:
你能在图像中检测到什么?
• 房屋数量
• 农田类型
• 救济
• 天气
有很多关于地形的可用信息,并且有很多类似的图像可用于确定生态系统健康状况、作物中是否有杂草生长等。更不用说许多匿名视频源可以用作自动驾驶汽车的分训练集。
文字
最后但并非最不重要的,让我们考虑文本匿名化。已经有一些关于文本重新识别风险评分的初步研究,包括我们在数据保护和隐私杂志上的工作,标题为关于非结构化数据去识别的推理(如果您难以访问该论文,请给我发电子邮件)。虽然出于数据发布目的的适当匿名化需要专家检查数据并计算重新识别的风险,但我们可以说,自动编辑文本在通过数据最小化提高数据安全性方面发挥着巨的作用(即,将您收集的个人数据量减少到只需要基本信息)。请注意,已经对统计和基于规则的系统的有效性进行了测试。
自动去识别医学文本语料库(此处总结了其中三项研究)。这些测试必须重新进行,以解释过去三年统计自然语言处理系统的巨改进。
有趣的是,让我举一个简单的例子,说明一封匿名电子邮件可以携带多少信息:
“Hi [NAME],
抱歉,它最终出现在我的垃圾邮件中!
我明天在 [TIME] 预订,但 [TIME] 可以。届时我会发送更新的邀请。如果这对您不起作用,请告诉我。
谢谢,
[NAME]”
知道是谁写的吗?除非您是收件人或作者,否则不可能知道。
但是您可以从这封电子邮件中收集到哪些有用的信息?
• 一个电话被重新安排到明天
• 发件人很有礼貌(说请和谢谢)
• 收件人之前的电子邮件在本不应该出现在垃圾邮件文件夹中结束了!
例如,电子邮件服务提供商可以将这些信息用于什么目的?好吧,如果他们能确保此收件人的电子邮件永远不会再次出现在垃圾邮件文件夹中,那就太好了。
我有很多这样的例子。从能够识别一个人对特定产品的感受,到确定对话中涵盖了哪些主题以及通过聊天或电话确定消费者的情绪。
匿名数据是
社区需要时间和充分的研究才能更好地了解数据的匿名性和有用性意味着什么。就像在差分隐私和匿名化中一样,在密码学领域中可以感受到迭代技术并理解其限性的过程。我们不再使用 DES 来加密我们的数据,而是使用 AES。很有可能,在接下来的十年里,我们将不得不更多地依赖基于格的密码学而不是 RSA。当我们发现一项技术的限性时,我们不会把婴儿和洗澡水一起扔掉,而是希望更深入地了解问题所在,对其进行创新,使其更强、更有用、更易于使用。