中央政法委机关报法治日报社主办

您所在的位置:首页  > 文学副刊

当隐私计算用于三亿人的信息

2022-09-29 09:30:00 来源:法治日报·法治周末

智道  栏目主持人:於兴中

□  朱悦 陈曦宇

个人信息保护与技术的实践结合愈发紧密,隐私计算是其中代表。常见的隐私计算技术包括:减少信息主体被区分出来的风险的差分隐私、在避免共享原始个人信息的前提下合作处理相应信息的安全多方计算以及合成“假”数据来替代真实个人信息处理的合成数据,等等。这些技术是否足以实现个人信息的匿名化、去标识化或者其他法律效果,当前都属于前沿的法律议题。

2020年时,美国联邦人口普查局“大胆”地将差分隐私这一隐私计算技术用于保护三亿人的普查信息。这一大规模实践本身及其后续引起的争议和诉讼,对相关的学理和实践都有借鉴意义。

为什么是差分隐私

美国人口普查始终饱受包括再识别攻击(即对匿名处理过的数据记录,通过某种方法重新确定其身份的攻击方式)在内的个人信息保护问题的困扰,难以充分满足相关的法律要求。从技术原理出发,差分隐私能够较好地满足相应要求。这便是在三亿人的个人信息上应用隐私计算技术的背景。

美国从1910年联邦层面通过《普查法》起已经开始限制普查信息的披露。1954年的修正更加严格:不仅对信息实施访问控制、并且限制出于统计之外的目的而使用信息,还明确限制“任何可能使得个体被识别的公开披露”。根据这一限制,不仅不能披露任何个体的普查信息,还要防范从其他公开披露的信息,比如,各类人口特征统计中再识别个体身份的可能性。

随着大数据发展和数据交易商兴起,遵从这一规定越来越难。2010年时,风险终于暴露。由于各类人口特征统计公布到了街区一级,又因为大部分街区不过只有几十数百人,通过“解方程”即可反解出这些人的特征,比如,性别、年龄、族裔等。然后把求解结果和数据交易商已有的大量个人信息交叉验证,就可以知道解算是否准确。人口普查局发现准确率达到了约40%。也就是说,有约40%的人口,身份可以从普查信息里识别出来,然后和交易商处繁多的个人信息建立关联、实施推断。由此可见,合规任重而道远。

差分隐私至少具备两方面对合规有用的特性。首先,如果一个数据集符合差分隐私的定义,这意味着单个数据的变化对公开披露的人口统计特征的影响很小。换个角度看,这意味着利用人口特征来反向求解单个数据非常困难、难言准确。其次,差分隐私技术从数学原理上包含一个清晰刻画信息保护强度的参数,一般也叫“隐私预算”。这意味着信息保护的效果可以度量、阐明,还可以通过增减隐私预算的方式权衡信息保护和其他的价值。

尽管如此,世间从来没有万全的信息保护之法,差分隐私也不例外。一是差分隐私通常借助添加“噪音”的方式来实现。显然,信息的质量会因此受损。由于普查信息将被用于划分选区、疫情统计等用途,其质量受损不是小事。二是在具体实现中,可度量、可阐明、可权衡的承诺不会自然而然地实现。做到这一点需要繁杂的工程上的努力,还需要在实现技术的过程中澄清许多误区。

总之,美国人口普查局在2020年普查中运用了差分隐私,目的是确保个体身份不会再被识别出来。具体的加噪音的方法比较复杂,但基本原理和隐私预算都已公布。简单来说,实践选择了一个保护水平比较弱的隐私预算,以寻求信息保护和使用间的平衡。接下来就是很自然的两个问题:一是个体信息究竟有没有得到合规的保护,二是所选平衡是否妥当。而这二者都仍然面临激烈争议。

差分隐私的保护效果

衡量保护水平,最直观的思路就是前后比较:既然之前的再识别攻击对于约40%的个体可以成功,实施差分隐私之后的数字是否显著地小于之前的情况?如果确实如此,差分隐私就成功防止了个体身份的披露、达到了合规的效果;反之,则合规效果成疑。前后比较这一思路可行、可靠的前提,是技术实施前后的攻击成功率都具备可比、可靠的数字。否则,前后比较难以开展。

争议之一正是围绕着两个比率展开。一方面,实施差分隐私前的40%很可能是个高估的数字。如果选择不同的交叉验证方法——具体选择哪种又是相当主观的,这个数字会明显降低。忽略这一点,过高认可实施差分隐私前的再识别成功率,就会高估保护的效果。另一方面,由于实施以后的攻击成功率一直以来缺乏可比、可靠的数字,比较因此成了“无源之水”。实施前的数据不可靠,实施后的数据不知道。两方面加在一起,导致保护的效果始终无法论定。

平衡是更加严峻的问题。普查信息质量至少在三个层面上出现了恶化:一是信息内部的彼此不一致,二是统计特征的系统性失准,三是统计特征失准牵连个体权益受损。即使保护水平依然不清晰,现状也难以称为令人满意的平衡点。

信息不一致是质量恶化最基础的体现,也最动摇各方对隐私计算的信心。概言之,既然是人口普查,信息就要满足一些最基本的约束条件,比如,人口数总是会大于零,分开来的统计量加起来要等于总数,等等。然而,因为在不同的层面加了噪声,这些基本条件都有可能被违反。美国人口普查局勉力“维修”,但只能是确保不会出现人口数为负这个级别的错误,难以完全避免其他的不合理之处。

底层信息的不一致,自然引起上层统计特征的失准。群体的人数越少,对应的统计特征失准就越严重。大致原理是尽管数据都加噪,群体的规模更大,噪声也就更能相互抵消;如果本来只有百十人或更少,无法抵消的噪音就相当突出。由此,小村镇、少数族裔和其他人少的群体的各类统计特征,包括人口数、公共卫生和经济财政的统计数据,失准普遍更为严重。

这些数据的准确性直接牵涉个体权益。在美国各级法律下,人口数低估的村镇相应地只享有更少的政治代表和政治权益,新冠肺炎疫情和死亡率的错估可能扭曲公共卫生决策、进而有偏向地损害特定群体的生存权利,经济财政统计的变动则是直接影响拨款和其他资源,影响生活中方方面面的权益。在人口普查的场景中,在平衡中实现公平总是复杂、尖锐的问题。

权益既已受损,诉争接踵而来。比如,美国阿拉巴马州便起诉人口普查局,称其实施差分隐私缺乏告知、导致信息不准、缺乏事前告知,等等,进而称其违反《普查法》、行政法律和联邦宪法正当程序条款法律。本案最终因原告缺乏诉权被驳回,几乎没有进入实体审理程序。当然,这不是仅有的案子,如“公平划线基金会”等也在其他地区起诉了人口普查局,诉请大致相同。其他的同类案件也仍在审理过程中。如果得以进入实体阶段,这些都是法律充分评价隐私计算的契机。

启示和展望

以上简介了美国人口普查实施隐私计算的背景、考量和后续影响。除美国外,欧盟、加拿大、英格兰和苏格兰等国家和地区的普查机构同样尝试运用各种隐私计算技术保护当地的普查信息,既有差分隐私,又包括合成数据等其他技术。联合国欧洲经济委员会正在牵头总结其间经验。

笔者认为,对差分隐私和更广泛的隐私计算,相应有三点启示和展望。

一是尽管谈了许多问题,隐私计算开始系统用于多国多地数亿人的信息,本身就说明其达到了一定的成熟性。风险大部分还是预期之外的风险。二是虽然如此,但这些风险可以非常“恼人”,甚至损害基本的权益。为了应对这些风险,就必须做很多“法律工程师”的工作。认真分析细节,探求可靠数字,然后涵摄事实进行扎实法律分析。

这就引出了最重要的第三点:抽象的理论现时或已过剩。无论是差分隐私,还是稍微广泛的隐私计算,抑或是更广泛的科技治理,都正在也应该更加深入地“格物”以“致知”。正在展开的实践已经提供了丰厚的原料,不应忽视。

责编:王硕

联系我们 | 诚聘英才 | 广告征订 | 本站公告 | 法律声明 | 报纸订阅

版权所有 Copyrights © 2014-2022 www.legalweekly.cn ALL RIGHTS Reserved 《法治周末》

京ICP备10019071号-1 京报出证字第0143号

京公网安备 11010502038778号