(隐私计算)联邦学习概述

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

一、是什么

概念

  • 联邦学习Federated LearningFELE是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术能够让联邦学习各参与方在不披露底层数据和底层数据加密混淆形态的前提下通过交换加密的机器学习中间结果实现联合建模。联邦学习兼顾 AI 应用与隐私保护开放合作协同性高充分释放大数据生产力广泛适用于金融、消费互联网等行业的业务创新场景。
  • 大白话
    • 举个简单的例子来说有10个团队要做同样的任务各自都有自己业务上的数据集它们都希望可以借助别人的数据提升模型性能但不愿意把自己数据都暴露出去联邦学习的解决方案就是不共享对方的数据但是共享对方的模型参数实现云端的分布式模型训练。这样一来大家都可以保护自己的数据并且共享更多数据带来的模型性能提升
      在这里插入图片描述

法律与合规

  • 目前《中华人民共和国密码法》、《中华人民共和国网络安全法》、《信息安全技术个人信息安全规范》等一系列法律法规的正式生效规范了信息安全和隐私保护的具体要求隐私保护的重要性和迫切性不言而喻。
    • 2020年4月国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》把数据列为生产要素并要求”加强数据资源整合和安全保护””制定数据隐私保护制度和安全审查制度”。
    • 2020年5月国务院印发《关于新时代加快完善社会主义市场经济体制的意见》中明确提出“加强数据有序共享依法保护个人信息”。
    • 2020年12月国家发改委联合3部委发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》以深化数据要素市场化配置改革为核心优化数据中心建设布局

联邦学习体系

  • 横向联邦学习(样本联合)特征重叠多用户重叠少
  • 纵向联邦学习(特征联合): 特征重叠少用户重叠多
  • 联邦迁移学习(迁移学习): 特征重叠少用户重叠少
    [图片]

二、名字解释

  • 数据孤岛各个企业收集到的数据不一样且数据没有利用起来企业之间数据不共享
  • 分布式机器学习用户各自在本地训练模型最后统一更新到服务器上使用各个用户的资源训练实现分布式
  • 数据加密希望通过数据加密对数据用户数据进行隐私化这样既保证数据共享又能保证数据私密性
  • 联合建模将企业数据进行加密共享来训练一个联合模型(大家只是共用模型无法知道对方使用数据的细节)

三、学习过程

3.1 横向联邦学习

基本概念

  • 横向联邦学习的本质是样本的联合适用于参与者间业态相同但触达客户不同即特征重叠多用户重叠少时的场景比如不同地区的银行间他们的业务相似特征相似但用户不同样本不同典型案例是来自微众银行的FATE后面我们将进行实操WEBank开源联邦学习框架FATE

学习过程

在这里插入图片描述

  • step1参与方各自从服务器A下载最新模型
  • step2每个参与方利用本地数据训练模型加密梯度上传给服务器A服务器A聚合各用户的梯度更新模型参数
  • step3服务器A返回更新后的模型给各参与方
  • step4各参与方更新各自模型。

3.2 纵向联邦学习

基本概念

  • 纵向联邦学习的本质是特征的联合适用于用户重叠多特征重叠少的场景比如同一地区的商超和银行他们触达的用户都为该地区的居民样本相同但业务不同特征不同。

学习过程

在这里插入图片描述

  • 纵向联邦学习的本质是交叉用户在不同业态下的特征联合比如商超A和银行B在传统的机器学习建模过程中需要将两部分数据集中到一个数据中心然后再将每个用户的特征join成一条数据用来训练模型所以就需要双方有用户交集基于join结果建模并有一方存在label。其学习步骤如上图所示分为两大步
    • step1加密样本对齐。是在系统级做这件事因此在企业感知层面不会暴露非交叉用户。
    • step2对齐样本进行模型加密训练
    • step3由第三方C向A和B发送公钥用来加密需要传输的数据
    • step4A和B分别计算和自己相关的特征中间结果并加密交互用来求得各自梯度和损失
    • step5A和B分别计算各自加密后的梯度并添加掩码发送给C同时B计算加密后的损失发送给C
    • step6C解密梯度和损失后回传给A和BA、B去除掩码并更新模型

3.3 联邦迁移学习

基本概念

  • 当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习迁移学习是指利用数据、任务、或模型之间的相似性将在源领域学习过的模型应用于 目标领域的一种学习过程例如人类学会了打乒乓球也可以尝试学会网球等这种迁移学习的能力
    学习过程
    [图片]

  • 整个学习过程是利用A、B之间共同样本来学习两者间各自的特征不变量表示 同时利用A的所有样本label 和A的不变量特征学习分类器。

四、应用场景

金融机构同运营商合作营销–理财产品客户营销

在这里插入图片描述

金融政务数据联合风控–小微贷款产品风控

在这里插入图片描述

实际案例

在这里插入图片描述

微众银行多方大数据隐私计算平台 WeDPR—PPC

  • 2020年1月微众银行发布了即时可用场景式隐私保护高效解决方案WeDPR。WeDPR 融合了区块链技术与隐私计算技术使得实际商业场景中的敏感数据在区块链上可以得到更好的隐私保护。2021年5月结合区块链和安全多方计算的优势微众银行又推出多方大数据隐私计算平台WeDPR-PPC

蚂蚁链区块链网络平台 FAIR

  • 2021年10月22日在云栖大会上蚂蚁集团旗下蚂蚁链推出全新区块链网络平台FAIR。目前FAIR 平台已经开始在政务领域、大型企业中落地并且在金融等更多领域的探索正在进行当中
    在这里插入图片描述

趣链科技金融业数据共享平台

  • 趣链科技与央行分支机构、银行开展合作运用区块链+隐私计算技术设计了数据报送模式在江西南昌成功落地金融业数据共享平台建立了融资联合征信平台解决了机构数据共享的问题。

八分量政府税务数据平台

  • 税务部门在监管各个企业汇总的税务数据时无法准确识别税务信息如发票是否造假其背后有没有真实交易行为发生。八分量提供基于隐私计算及跨链的税务数据平台来解决各企业间的数据安全、数据共享、数据流通和数据验证问题。
    在这里插入图片描述

星云基因Oasis Network 框架

  • 医疗行业里的病人数据具有高度隐私性目前缺乏一套记录患者完整医疗信息的数据系统。星云基因使用 Oasis Network 的框架客户可以保留其基因组数据的所有权而星云基因可以在不查看客户原始信息的情况下对数据进行分析。

五、隐私计算在未来发展中的重点领域

在这里插入图片描述

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6