当隐私计算的齿轮转到“可算不可识”

2021-12-03 15:47

近年来，相关法律法规的不断完善让一众互联网公司从对算法和数据使用的狂热中清醒过来，开始逐渐重视个人隐私保护和消费者数据安全的问题。刚刚发布的三季报，很多互联网公司都调整了自己发展的规划，并对一些之前高谈阔论的未来技术研发目标做了不同程度的“遮掩”。

从2015年之后，不管是字节系的崛起，还是美团在外卖业务上深耕，亦或是滴滴在出行领域的布局，包括国外的互联网企业在内，绝大多数解决用户数据安全的技术，都是从数据的发生端入手，试图通过隐藏用户最关键的信息来达到保证用户信息安全，同时还能继续实现互联网企业算法加大数据的运营优势。

发展过程中，企业对用户个人的隐私保护绝不是当下才被唤醒的意识。曾经有几家国际互联网巨头公布过脱敏后的用户数据，希望行业能对这样的用户数据安全技术进行标准化认定，以此来确认个人隐私保护可以用技术的手段予以解决。遗憾的是，这些信息无一例外都让媒体或者行业专家找到了可以逐一对应到用户本身的特征，开放的高维关联之下，绝对的匿名化宣告失败，相关平台“收获”了一波市场质疑：企业的算法机制或者技术手段到底会加剧隐私保护的风险，还是会反哺数据安全，按照法律要求保护个人隐私？

某种意义上说，这已经变成当下困扰中国乃至世界互联网平台型公司的问题。在满足匿名化要求的同时，来提升数据要素应用的能力，最终实现隐私保护和数据要素行业发展的平衡点，难题的“正解”在哪里？

01丨数据和算法是命门

先了解一下“题面”。

随着移动互联网的普及以及头条系的崛起，以人工编辑为核心的传统信息分发模式逐渐衰落，以算法为核心的智能分发模式兴盛崛起。

当前的各大平台，基于算法的传播呈现出可计算的特质，后台将每个用户内容消费的行为数据，比如用户浏览时长、转发、评论等，个体属性数据以及社交关系数据进行大数据的统计和分析，进而挖掘用户的爱好习惯和社交兴趣网络，最终生成精准的用户画像，向用户推送最具个性化需求的信息、商品或者服务。

而平台可以依据这样的能力，获取在精准广告、产品销售以及服务推荐中的利益，从而建立自己的业务圈层。

一定程度上来说，算法推荐让编辑筛选模式下的“人找信息”变为“信息找人”，用户成为了算法架构或程序编码的价值落点。

通过算法和大数据的挖掘，很多互联网平台在最近两年诞生了一系列新的商业模式，他们不光在满足用户信息需求上向前跨出了一大步，同时还能利用各种碎片化的服务和工具，帮助用户实现以前所不能想象的互联网服务。

尤其在互联网信息超载时代，以大数据驱动的智能算法推荐系统逐渐应用到社会生活的各个领域。面对海量信息，智能算法会根据用户的在线行为计算分析出个人的兴趣爱好和行为趋向，从而帮助用户做出自动化决策。大量无序的、杂乱的数据存储进数据库，积累、沉淀之后成为企业的信息资产和核心驱动力。

然而，风险也如影随形。从抖音侵犯用户信息权，到旷视科技等人脸识别公司被推至舆论焦点，到智联招聘用户简历流向黑市，到知乎4天获取3w＋用户信息，再到美团被质疑差异化定价“杀熟”客户．．．．．．经济利益的驱动下，用户个人信息在被各类主体竞相挖掘和利用的同时，因信息泄露引发的欺诈事件司空见惯、侵犯个人隐私的现象在多领域多平台泛滥。

“善治病者必医其受病之处，善救弊者，必塞其起弊之原”。在大数据应用逐渐深入社会生产生活每一个“毛细血管”的今天，相关法律法规和监管政策对个人隐私保护筑起安全墙，企业也应积极采取相关措施，设置合规机制，注重技术安全升级，从根本上避开那些不该触碰的“雷”。

02丨“可用不可见”的失效

很长一段时间，各大互联网公司都在积极探讨合理合法，保护用户隐私的数据使用方式。

隐私计算或者说是隐私保护计算，此前被视为从技术角度实现了数据流通与隐私保护之间的平衡的最优解，即做到了数据的“可用不可见”，既实现了数据价值的流通与共享，又实现了数据的隐私保护。

很长一段时间，“可用不可见”被视为隐私计算的精髓。“不可见”指的从技术角度屏蔽了敏感信息和隐私数据，为不可分享或者不能的数据加上一层安全的“防护罩”，以实现事实上对隐私数据的保护，也就是不明文泄露、不直接明示。

从这一角度来说，“隐私计算”让数据开放、共享、流通成为一种可能。但需要注意的是，“隐私计算”只解决了流通过程中的安全问题，在数据流通之前和之后的权属和收益问题仍不明确，另外“隐私计算”技术产品的安全分级标准与行业信任共识也有待建立。

尤其是，通过密码学或者是分布式机器学习加密码的方式，来对于信息加密传输到中心再进行解密，解密过程和加密过程全部在计算机系统内完成，确实可以实现可用不可见，但实际处理过程中仍存在大量安全隐患，比如有的密文可以被反推出明文。

西方世界知名的网络视频平台奈飞曾经就保护用户隐私做过一次算法的印证和比赛。当时奈飞公布了一部分做了去标识脱敏处理的用户评分，结果被UTAustin的两位研究者关联到了相应用户的ID，并识别出了其中一些用户身份。2010年 Netflix为此被罚款900万美金。此前的2006年，为了学术研究，“是美国在线”（AOL）公开了一些做了去标识和脱敏处理的匿名化的搜索记录。但是《纽约时报》通过这些记录，找到了真实世界中对应的一个人。后来AOL遭到起诉，为此赔偿了大概总额高达500万美金的罚款。

这一过程中“可用不可见”带来的匿名化实现主要表现在个人身份识别信息（PII）的泄露，和个人的属性行为数据导致的个人身份泄露。由于某些个人属性行为数据的独特性，可以间接识别出特定自然人的身份。

也就是说，在此案例中，数据还是要从用户自己持有的终端，例如手机上传到网站或者机构的服务器再进行后续计算的操作，这一过程数据会在一个开放空间中存在，那么只要掌握足够多的数据，就可以跟脱敏后的数据进行关联来查找相关性，最终可能会通过各种算法找到真正能对应的人。

如此看来，只要数据脱离了消费者本身持有终端的掌控，就存在被泄露的风险，而这点是可用不可见的理论无法弥补的。

03丨“可算不可识”更进一步

那么有没有真的能解决个人隐私安全，同时还能保证互联网企业算法为基础的业务模式继续推行的方法？

11月26日，蚂蚁集团副总裁、蚂蚁集团安全隐私科技委员会主席韦韬在第七届中国互联网法治大会上提出，可以通过隐私计算技术达到“可算不可识”，这是实现个人隐私保护和数据要素行业发展平衡的关键。

根据他的想法，与“可用不可见”相比，“可算不可识”更进一步。“首先要满足匿名化的要求，不能够识别到特定的自然人。另外，要可算，假如说数据完全没有办法计算，没有办法产生数据价值，那么这个数据要素行业也无法发展。”

因为“可用不可见”还是要把数据利用加密方式通过个人的终端传递到互联网平台，再进行后续的数据挖掘和算法处理，整个过程确实存在信息泄露的问题和风险。而“可算不可识”，整个过程并不传输数据，只是通过加密性的算法调整，同时对符合标准的个人数据进行分散式的计算，最终将计算结果传递到平台，而不是传导隐私数据本身。

总体而言，“可用不可见”是关于数据如何处理的维度，而“可算不可识”则集中在数据无授权的情况下如何来保障个人信息隐私权益。

韦滔表示，在未来的实践中，数据要素价值要实现“可算不可识”强依赖于安全的受控环境。这一环境中下，“可算不可识”要对数据的过程，结果和生命周期进行掌控。这就要对所有可能产生数据关联的通道进行强管控：包括研发过程的中间数据，可以通过如动态匿名等方法防止重识别；另外在结果输出的时候，要防止输出结果由于精度过高，有机会导致原始属性行为数据通过数据信息传导导致个人身份的间接泄露。

安全的受控环境对“可算不可识”过程中数据的处理和输出是否能够严格按照规范或者共识来做管控提出了更高的要求。

而可信计算技术的成熟，给了实现“可算不可识”的底气。这是隐私计算技术中的底层技术，最初是由可信计算组（TCG）推动和开发的技术，可以在计算机启动时刻就开始进行安全度量，而且有硬件可信模块TPM／TCM以及软硬件协同保障的完整的验证链。在国内已得到了广泛推广，并成为等保四级的关键支撑技术。

在韦滔看来，将可信计算技术应用在相对匿名化领域，是一个非常好的契合：它能够提供运行环境隔离，能够把数据的存储、传输和处理有效的和外部隔离，能够支撑技术保障的远程验证能力，能够使得数据的处理输出管控机制可以远程验证和审计，而且支持后期上链等操作。

可以说，可信技术加持下，“可算不可识”确实在个人隐私保护与平台数据和算法发展之间找到了一个动态的平衡。

而这很可能成为打动国内各家互联网平台未来积极转型的关键。

毕竟只有保证安全与合规，平台发展才能健康可持续。