DP-DP在企业的应用

本篇文章简要列举了DP在企业界实际的使用情况(及其对应的隐私参数设置)。也许有一天,我们可能有一个DP下的隐私预算法规,但当前,道路还很长~

介绍具体内容前,以下几点需要说明:

  • 本文主要列举了记录了隐私参数的项目,包含了什么是隐私单元(privacy unit)。没有公开资料显示参数信息的未被包含;
  • 大多数案例使用了中心化 DP;
  • 开源项目按照组织首字母进行排序;
  • 若一个项目采用了开源工具,本文有附带链接;
  • 本文主要参考了A list of real-world uses of differential privacy中的内容

苹果

image-20220205182726383

Apple 使用 Local DP 从运行iOS或macOS的终端用户设备收集一些数据,该详细在论文《Differential Privacy》《Learning with Privacy at Scale》中有描述。均采用了 $\epsilon$-DP,隐私单元为用户日,隐私参数的设置如下:

  • QuickType Suggestions: 从大量用户学习单词推荐,提供 $\epsilon=16$ 的隐私保护等级;
  • Emoji Suggestions: 计算人群中 emojis 的使用频率,提供 $\epsilon=4$ 的隐私保护等级;
  • Lookup Hints: 提供 $\epsilon=8$ 的隐私保护等级;
  • Health Type Usage: 计算 HealthKit 软件中哪个 health types 是被最多使用的,提供 $\epsilon=2$ 的隐私保护等级;
  • Safari Energy Draining DomainsSafari Crashing Domains: 收集网页域名数据,收集哪些域名会导致高电量消耗或引发崩溃,二者均提供 $\epsilon=8$ 的隐私保护等级;
  • Safari Autoplay Intent Detection: 收集自动播放带声音的视频的网页数据,提供 $\epsilon=16$ 的隐私保护等级;

Facebook

  • Full URLS Data Set 提供了 Facebook 上分享的用户和网页的交互,隐私单元是每一次用户的行动,比如:Alice 分享了 foo.com,或者 Bob看了一个包含 bar.org 的推文。对于每一个用户行动类型,隐私参数保证99%的用户被保护,$(\epsilon,\delta)$-DP中的参数为:$\epsilon=0.45, \delta=10^{-5}$;在所有的指标中,96.6%的用户被保护,隐私参数为:$\epsilon=1.453,\delta=10^{-5}$。

stay-put-map-fb

  • Movement Raange Maps 量化了 Facebook 用户在COVID-19流行期间的移动性变化,其中有两个指标:用户每天移动多少以及有多少人通常呆在家里。每个指标都用 $\epsilon=1$进行保护,因此总的预算是 $\epsilon=2$,采用的隐私单元是用户天。

谷歌

谷歌的技术都在Google’s open-source libraries当中。

  • Community Mobility Reports 量化了COVID-19期间用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。每个方面保护程度是每天 $\epsilon=0.55$,每个用户最多贡献了6天的数据,因此总的隐私保护程度是 $\epsilon=2.64$,隐私保护单元是用户日。

google-sst-map

  • Search Trends Symptoms Dataset 衡量与各种症状相关的 Google 搜索量,隐私单元为用户日,采用的隐私参数为:$\epsilon=1.68$。
  • Vaccination Search Insights 量化了与 COVID-19相关的疫苗检索趋势,隐私单元为用户日,提供了$(\epsilon,\delta)$-DP,其中 $\epsilon=2.19, \delta=10^{-5}$​。
  • RAPPOR采用了LDP在谷歌浏览器中采集用户的浏览信息,当前好像已经弃用了
  • 谷歌提到了在谷歌地图中采用DP(链接),一方面量化了整天当中那些不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。这其中并未明确隐私参数的大小,也没有介绍用了什么方法生成数据。
  • 谷歌向科研人员开放了 mobility data,这当中采用了DP做匿名处理。此论文 提到的隐私保护程度为 $(\epsilon,\delta)=0.66,2.1\cdot10^{-29}$,然而其中没有明确隐私单元是什么。

LinkedIn

  • Labor Market Insights 衡量了用户在LinkedIn上改变职业的趋势,有三类报告:
    • Who is hiring? 列举了招聘最多的公司,保护了每个招聘时间,隐私参数为:$\epsilon=14.4, \delta=1.2\times10^{-9}$。
    • What jobs are available? 列举了大多数人被聘用的职位,保护每个招聘活动,隐私参数为:$\epsilon=14.4, \delta=1.2\times10^{-9}$。
    • What skills are needed? 列举了工作中最受欢迎的技能,保护单个月中用户的技能信息,使用的隐私参数为:$\epsilon=0.3, \delta=3\times10^{-10}$。

image-20220206102507495

  • Audience Engagements API 是本文提及的唯一一个交互式查询系统,它允许营销人员获取有关 LinkedIn 用户与其内容互动的信息。每个查询提供 $(\epsilon=0.15,\delta=10^{-10})$-DP 的保护,每个查询可以备查很多次,但是月度的总预算是$\epsilon=34.9,\delta=7\times 10^{-9}$。

微软

  • Telemetry Data Collection in Windows: 微软在Windows系统中收集 telemetry data。此过程采用了LDP,其中 $\epsilon=1.672$,隐私单元是用户的6小时。
  • U.S. Broadband Coverage Dataset: 此数据集量化了美国可使用高速网络的用户比例,采用了 $\epsilon=0.2$ 的DP,隐私单元为为用户,此处聚集采用了 OpenDP SmartNoise 进行匿名化。
  • 微软的AI助手自动建议Office工具中的回复,其提供了 $(\epsilon,\delta)$-DP ,$\epsilon=4, \delta<10^{-7}$​,但是并没有明确隐私单元。微软的另一份独立的博客建议 $\epsilon=4$​在DP的机器学习中是一个相对通用的规范,并将其用在保护6个月的用户数据中。
  • 微软也提到在 Workplace Analytics中采用DP,这使得管理员可以看到其组内成员和工作区间工具的交互,然而没有给出更详细的隐私参数信息。

OhmConnect

美国人口普查局

美国人口普查局(United States Census Bureau)也参与了一些数据发布的事情:

image-20220206103142763

  • 美国人口普查局在2008年发布了OnTheMap,这是第一个DP在实际生活中的部署应用。其提供了美国民众关于求职和生活地点的统计结果。其用DP保护的过程可以参看这篇论文,而可惜的是目前我没有找到公开的隐私参数。

Others

此列表还有待完善,如有补充,也欢迎联系作者。

  • 苹果和谷歌的 Exposure Notification framework 包含采用 shuffled DP分析组件。改论文提到了LDP下的$\epsilon=8$,以及中心化模型下的隐私参数取决于参与的用户量。然而,文章中并没有明确提到隐私单元是什么以及最少需要参与的用户量有多大等。
  • Cuebiq 的移动仪表盘(移动指数和疏散率)展示了DP下的数据分析此展示提到了每一次聚合中采用的隐私保护程度为 $\epsilon=1,\delta=10^{-10}$,但是没有详细说明隐私保护单元是什么,也没有说多少轮聚合。此项目采用了OpenDP SmartNoise.
  • Internal Revenue ServiceU.S. Department of EducationTumult Labs 的帮助下,采用DP对毕业生收入信息进行发布。数据集发布在 College Scorecard 网站上。此项目的概要参考此篇博文),然而文章中没有明确详细的隐私参数。

也有一些其他厂商采用DP的案例,待后续补充。当然也有很多科研论文研究了真是数据集上DP的实验结果,但是并没有给出现实的部署系统,本文也没有收录。


本篇内容到这里就结束了,欢迎关注公众号《差分隐私》,获取更多前沿技术。

《差分隐私》

Thanks for rewarding