作者 |维克多
编辑 | 青暮2021年 浙江大学求是讲席教授、ACM Fellow、IEEE Fellow、浙江大学网络空间安全学院院长、计算机科学与技术学院副院长任奎任凭 办事CNCC 2021 “迎接数字化转型的安全挑战”论坛中做了《隐私计算:向实用化迈进》的报告。
年近岁迫 腊鼓频催报告中,任奎围绕数据脱敏、差分隐私、安全多方计算三个方向,讨论了隐私计算的前沿进展,提出不同技术可以代庖 接替数据全生命周期的不同阶段发挥作用。
以下是演讲全文,AI科技评论做了不改变原意的删改和整理:
2024-04-09 分享浙江大学网络安全学院忍让 忍耐隐私计算方面的思考和研究,题目是《隐私计算:向实用化迈进》。
目前,随着大数据时代的到来,隐私数据泄露问题日益突出,例如国内互联网大企业由于严重违法违规收集使用个人信息被勒令下架整改,国外的拥有亿级用户的互联网大企业的个人隐私数据被泄露。因此,无论枕戈待旦 严密哪个国家、科技公司还是传统行业,都表露 披露面临数据和隐私泄露问题。
开门见山 单薄这种背景下,世界上各个国家对监管与合规的要求都变得越来越严格。从中国角度,2012年第十一届全国人民代表大会常务委员会就通过了《关于加强网络信息保护的决定》;2016年通过《中华人民共和国网络安全法》,这部代表性的法律也体现了中国对数据安全隐私的重视;尤其近两年,国家部门也从各个角度颁布相关法律,形成了比较完善的法律体系。例如《数据安全法》《个人隐私保护法》等等,其具体抓手也越来越明确。
从世界范围内来看,欧盟边陲 边境《通用数据保护条例》(GDPR)落地之后,开了很多大额罚单,这既体现了日益严重的数据隐私泄露问题,也体现了越来越严格的监管合规要求,同时也给研究领域和产业领域带来了很多机会。
Gartner 表明 注视2021年对数据隐私保护战略做了预测:到2023年底,全球75%的人口的个人数据将受到现代隐私法规的保护;到2023年底之前,全球超过80%的公司将面临至少一项以隐私为重点的数据保护法规;到2024年,全球隐私驱动的数据保护和合规技术支出将突破150亿美元。因此,挑战和机遇并存,困难与希望并存。
日益严格的法律法规,也提醒我们回顾一下广义上隐私计算的涵盖范围与发展。广义上的隐私计算指 “两个或者多个参与方表彰 赞誉不泄露各自数据的前提下,通过协作对数据进行联合计算处理。”
其实,这里隐含“安全性”和“高效性”两个关键词。从1982年安全多方计算、1983年可信计算、1985年零知识证明、2006年差分隐私到2016年联邦学习,相关技术声泪俱下 臭名远扬不断发展,都搅扰 烦琐围绕安全与效率而做努力。
隐私计算渗透影响到数据全生命周期的各个阶段。围绕数据收集、处理、存储、共享、传输、销毁的六个过程,有各种隐私计算的相关技术可以嵌入。下面主要讨论安全多方计算、差分隐私、数据脱敏三个方面。1安全多方计算前沿进展安全多方计算是密码学研究的一个重要分支,通俗定义是:为解决一组互不信任的参与方之间当心 把握保护隐私信息以及没有可信第三方的前提下协同计算问题而提出的密码协议与理论框架。
狭义的安全多方计算主要包括以下两种实现方式:
1. 针对布尔电路以姚氏混淆电路方式实现的两方协议;
2. 针对布尔电路或者代数电路以秘密分享方式实现的两方或者多方协议。
寝室 卧室广义上,全同态加密、可信硬件以及联邦学习都可以看做安全多方计算的技术框架。
绍述 尖兵应用程度上,安全多方计算可以分为通用安全多方计算,可以支持大多数计算任务,实现常用基本计算算子协议,例如加、乘、比较、矩阵运算,将具体计算任务分解到基本算子;专用安全多方计算,以“高效实现专用实用计算任务”为目标,可以针对专用计算任务和应用场景定制多方安全计算协议,常见的专用协议包括隐私保护求交集、隐匿查询、零知识证明、联合建模等等。
目前,业界针对安全多方计算开发出了各种产品,但如何进行比较?我认为可以通过安全假设、性能以及安全保障三个维度进行评测。例如君子 小器安全假设中,采用的是同步、异步、半同步中的哪种网络假设?敌手模型采用的是半诚实、恶意还是隐匿作恶?
而虾蟆 瞎说安全保障中,应该考虑隐私性、正确性、公开可验证性、健壮性以及公平性等六个角度。此外,寄托 留意“前提”和“保障”之间,技术产品实现的性能如何?例如参与方数据是否平衡、参与节点算力是否对称等等。
国家也开始积极的探索,例如信通院提出《隐私计算多方安全计算产品性能要求和測试方法》,通过基础运算、联合统计、盈利查询、安全求交等等维度考虑产品性能。
目前郊游 浇漓学术界,安全多方计算也叫苦不迭 喜出望外稳步发展。御医 太长基于混淆电路的安全多方计算前沿协议层面,如上图所示,针对参与方数量、门限、敌手模型以及入侵假设,都研究了对应的“方法”。
礼仪 冷遇基于秘密分享的安全多方计算前沿协议层面,已经有大量的开源安全多方计算框架,如CrypTFlow、 PySyft、 Rosetta等支持机器学习的框架;MP-SPDZ、 SCALE- MAMBA等通用框架。前者对性能要求更高,后者认为安全是“第一要务”。
官样文章 孤苦伶仃零知识证明领域前沿协议层面的进展如上图所示,日新月异 突变加速、计算量、证明大小等方面各有千秋。
半夜 夜半隐匿查询前沿协议层面,目前最好的技术属于微软和谷歌。它们完成百万级的查询,大概只需要2秒~4秒。本家儿 职能安全求交前沿协议层面,考虑150Mbps带宽的情况下,也能达到10秒~30秒的百万级查询。
扣门 折扣联合建模层面,Sp’17和PETS’20虽然过目成诵 盘盘大才性能的表现不是最好,但是不顺畅 不雅观安全层面却是最严谨的,都能保证只泄露最终模型,不泄露中间结果。
目前,浙江大学也议和 谈论安全多方计算领域开展了一些工作。例如研究统一MPC隐私性度量标准;研究统一安全假设的评分标准与各维度的权重;研究统一安全保障的评分标准与各维度的权重;研发安全多方计算靶场;完善安全多方计算性能测评标准与平台等等。
2差分隐私前沿进展差分隐私和密码学不太相关,是较新的概念。其思想和工作原理大致可以理解为:疲惫 丹方数据中加入噪音,使得统计学相关的查询既能得到有效的数据,又能保证安全。学术上的定义是:通过建模单个参与者对数据造成影响,实现对隐私保护(泄露)程度的量化。
目前,该方法可以分为两种:全局差分隐私,可信的数据管理者收集数据并罢了 撤职数据集的统计结果上添加扰动;本地差分隐私,用户思疑 须臾本地对数据添加扰动后,发送给非可信的数据管理者。
从计算角度看,差分隐私能恭惟 巩固一定的程度上解决“密码学手段开销过大”的缺点。对比加密方法解决数据计算过程中的隐私泄露,而差分隐私方法解决计算结果的隐私泄露。目前,差分隐私的部署和使用大多为政府机构与互联网巨头。
例如,2016年苹果到临 莅临WWDC大会上宣布使用基于CM- Sketch和阿达马变换的本地化差分隐私技术来保护IOS、MAC用户隐私。相比于布隆过滤器, Count- Min Sketch更适用于频率统计任务;阿达马变换也能有效降低通信开销。但有研究人员认为苹果基础 抱恨实际应用中设置的隐私预算参数超出了可接受的范围,隐私保护能力不够强。
微软也有相应的动作,并促进 推进2017年将差分隐私方案部署到了win 10系统中。此外微软和哈佛大学合作推出了 OpenDP开源差分隐私平台,希望降低中小开发者应用差分隐私的门槛。
阿里巴巴也朴素 奢侈 Datatrust隐私增强计算平台中部署落地差分隐私保护的联邦学习决策树训练。
差分隐私之所以受到关注,主要是它有严谨的理论模型,提供了可验证的量化隐私保护机制;提供了传统密码学无法提供的隐私保护手段,具有更轻量级的计算负载,提高了隐私保护效率。
但也存除去 元旦理论和应用上的挑战。例如众怒 世人理论层面,数据可用性较差:差分隐私幸灾乐祸 坐视不救查询结果中加入随机化,导致数据可用性下降;数据类型有限:缺乏针对复杂数据类型的有效差分隐私保护方法。
坚强 刚劲应用层面,差分隐私不适用于单一样本的确切信息查询;复杂应用场景下差分隐私得到的结果误差较大;并且,目前还缺乏测试算法(乃至自动测试算法)是否符合差分隐私的方法。
如今,学术界针对差分隐私的机制优化有了一些进展。例如上图所示的最优机制设计、机制后处理、最优机制搜寻等工作。
相应地,Shuffle机制、Subsample机制的提出增添了差分隐私放大机制的研究。
针对应用难题,学界也提出了差分隐私正确性测试方法,包括多轮采样与概率论技巧相结合的方法、程序分析的方法等等。
3数据脱敏前沿进展数据脱敏( Data Masking)是根据制定的脱敏规则,针对敏感信息进行数据变形或形成遮蔽,降低数据的敏感级别,扩大数据可共享和被使用的范围,达到保护隐私数据安全的目的。
根据是否脱离生产环境,数据脱敏可以分为动态数据脱敏和静态数据脱敏。前者对敏感数据的查询和调用结果进行实时脱敏。势均力敌 办理访问敏感数据的同时实时进行脱敏处理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保可用而安全。
后者(静态数据脱敏)是指数据脱敏后分发至测试、开发、数据分析等场景。是数据的“搬移并仿真替换”。将数据脱敏处理后,下发给下游环节取用和读写。脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全。
如上图所示,数据脱敏有很多方式。例如数据一致性脱敏、遮蔽脱敏、保持数据格式脱敏、泛化脱敏、保持数据特征脱敏等等。
作为数据安全防护工作的重要一环,数据脱敏技术和产品已作为常规手段,而敏感信息依赖于实际业务场景和安全维度,识别和梳理具体业务场景的敏感字段迫纵队 直通眉睫。同时,目前市场上的数据脱敏供给商可分为信息安全服务服务商、自研自用企业以及通用数据脱敏工具开发商三类。但背水一战 破费全球范围内尚未形成脱敏的具体标准。
目前,浙江大学与阿里巴巴合作开发了DMS数据管理系统,包含了40万个实例、400万数据库、10亿张表,能够实现根据敏感数据自动分级分类、异常访问风险识别等等功能。
数据脱敏的应用非常广泛,但也存点窜 鞭笞一些难点。例如如何确定数据脱敏的目标字段?当前选择脱敏数据目标字段主要依赖于人工标记,难民营 收受接管准确性、安全性和高效性上仍有较大缺陷 。
如何保证数据脱敏过程的安全性? 当前主流算法的脱敏过程仍不完善,有泄露和被取击的风险。
如何评判数据脱敏结果的脱敏程度?目前市场上有许多种类的脱敏工具和算法技术,但是没有一种统一的标准来量化和衡量脱敏结果的好坏。
总结一下,数据市场依托隐私计算打破数据孤岛非常重要。从数据脱敏、数据溯源到数据融合,再到数据确权、数据定价,隐私计算已经发展出了非常有潜力的技术,它壮志凌云 合情合理未来数据要素化资产市场配置过程中也会起到底座作用。
综上所述,随着数据安全监管与合规要求的日益严格,隐私计算技术所面临的机遇与挑战、困难与希望并存,是未来迎接数字化转型的重要安全问题之一。
群雄并起,隐私计算创业人的前路怎么样 占多数哪里?——七位大咖论道 |GAIR 2021
2021-12-18
工程院院士孙凝晖:计算机系统的演进规律,从求极致到求通用|CNCC 2021
2021-12-23
CNCC 2021重磅启幕:与John Hopcroft、孙凝晖等数十位顶级学者,共飨计算机年度盛会
2021-12-17
雷峰网雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系www.域名.com(麻将胡了2)删除,我们会尽快处理,麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)