当前位置 : 主页 > 编程语言 > 其它开发 >

边缘学习

来源:互联网 收集:自由互联 发布时间:2022-06-16
借助白皮书,了解学习“边缘学习”。 白皮书地址: https://pan.baidu.com/s/1lOvVwKUs5lSLZSLjNiF2GQ?pwd=95c1 提取码: 95c1 前沿 (1)个人信息保护技术 同态加密 秘密共享 茫然传输(OT) 混淆电路

借助白皮书,了解学习“边缘学习”。

白皮书地址: https://pan.baidu.com/s/1lOvVwKUs5lSLZSLjNiF2GQ?pwd=95c1 提取码: 95c1

前沿

(1)个人信息保护技术

  • 同态加密
  • 秘密共享
  • 茫然传输(OT)
  • 混淆电路
  • 零知识证明
  • 差分隐私
  • 群 / 盲签名
  • 远程证明

(2)基于以上技术,可以形成当前隐私计算的三大方向

  • 联邦学习
  • 安全多方计算
  • 可信执行环境

(3)基于云的中心化机器学习
应用广泛,发展火热。但面临计算延迟大、可扩展性不足、数据隐私保护能力差等多重挑战

(4)边缘学习
定义:是一种基于“云 - 边 - 端”层次化、分布式的计算架构使得数据在数据源本地或者最近的边缘服务器上得到处理,用于训练本地的机器学习模型和进行模型推理,只需要和云中心通信必要的模型参数,大大减少了对云中心的依赖,降低了模型计算延迟,提高了可扩展性,保护了数据的隐私性。

分类:根据分布式架构不同
image

  • 终端设备学习:直接在终端设备上执行模型的训练与聚合;
  • 边缘服务器学习:将模型的训练与聚合都放到边缘服务器上,终端设备仅需发送数据与接收学习的结果, 改善了终端设备算力不足的约束;
  • 云边端协同学习:通过将终端设备、边缘服务器和云中心智能地联合起来共同参与模型训练

(4)边缘学习和隐私计算的关系
边缘学习采取数据在就近边缘服务器/终端设备本地进行处理的方式,本质上就是隐私计算的一种实现方式。

分类场景:对隐私保护的需求不同

  • 边端协同
  • 云边协同
  • 边边协同
  • 云边端协同

每种场景下的边缘学习都会出现隐私泄露风险,所以加入隐私计算保护数据隐私,但会降低最终模型的精度、影响模型的收敛速度和学习过程的公平性和可持续性。

如何达成一个平衡呢?既能在边缘学习中利用隐私保护保护数据,又能实现高效性。

边缘学习 概念 边缘计算

定义:它是指在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的分布式开放平台(架构),它可以就近提供边缘智能服务,满足行业数字化在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。它可以作为联接物理和数字世界的桥梁,主要包括三类落地形态, 云边缘、边缘云和边缘网关。边缘计算的技术体系涉及边缘原生、边云协同、边缘智能、边缘连接等独特技术能力,并涉及计算、存储、连接、云、视觉、人工智能 等通用技术能力的应用。

隐私计算

定义:它旨在确保处理和分析计算数据的过程中能保持数据透明、不泄露、无法被计算方以及其他非授权方获取,即在提供隐私保护的前提下实现数据价值挖掘的技术体系,包括差分隐私、同态加密、安全多方计算、 零知识证明等技术。根据功能不同主要分为三类:联邦学习、安全多方计算和可信执行环境。

联邦学习

它是隐私计算的一种主要实现技术,旨在建立一个基于分布数据集的联邦学习模型。联邦学习包括两个过程,分别是模型训练和模型推理
在模型训练的过程中,各方的模型相关信息(如模型参数)能够(以明文、加干扰或加密等形式)互相交换,但参与训练的 数据不能直接交换,以保护各方数据的隐私性。已训练好的联邦学习模型可以部署在联邦学习系统的各参与方,也可以部署在多方之间实现协同共享。
当模型推理时, 各方模型可以应用于同一数据实例(如不同医院对同一病历的诊断),各方将协作进行预测。联邦学习需要有一个公平的价值分配机制来分配协作所获得的收益,即设计有效的激励机制来保证联邦学习过程的可持续性。 根据联邦学习的网络架构,它分为需要协调方的分布式联邦学习无需协调方的对等联邦学习两种方式,前者是各参与方使用各自的数据训练本地模型,再由协调方将收到的各方模型进行聚合,后者则是各参与方在本地训练之后无须借助第三方便可以直接与其他参与方通信以进行模型的更新和聚合。

边缘学习

在边缘层进行模型训练与模型推理的过程,如图 1-1 所示。一方面,它可以使得数据能够在数据源本地(如:边缘服务器或者终端设备)得到处理, 用于训练本地的机器学习模型,从而保护数据的隐私性。
image
另一方面,边缘服务器也可以通过将本地模型相关的信息(如模型参数)与云计算中心或者直接与其他边缘服务器(以明文、加干扰或加密等形式)相互交换,进行模型更新和聚合,最终得到一个全局模型,并使得云计算中心和其他边缘服务器都不能够猜测到其本地的隐私数据内容。已训练好的模型可以部署在边缘服务器,为终端设备和用户提供模型推理的智能服务。
如图 1-2 所示,边缘学习是边缘计算实现边缘智能服务的核心内容。其中云边端协同(云边协同、边端协同、边边 协同)计算模式下的边缘学习可以实现基于层次化/对等分布数据集的隐私计算,包括基于联邦学习、安全多方计算和基于可信执行环境的隐私计算;同时,边缘学习采取数据在就近边缘服务器/终端设备本地进行处理的方式,为实现基于联邦学习的隐私计算提供了基础保障。
image

特征与优势 特征

(1)数据
数据异构性:场景不同,数据(类型、规模等)不同
非独立同分布:非同源数据往往具有不同的分布特征
(2)设备
计算资源差异大:云中心、边缘服务器和终端设备的计算资源不一样
计算环境异构性:适配性要强
(3)模型
学习时间差异大:训练/预测时间差异大
模型精度差异大:精度差异大
通信/同步开销大:传输多,量大

优势

(1)高效学习
基于多数据源的边缘分布式学习比基于云的中心化学习更加高效
(2)隐私保护
(3)多方协同
(4)差异学习

分类 终端设备学习

是指直接在终端设备上执行神经网络模型学习过程,目的是减少终端设备与边缘服务器之间的运行延迟、并减少终端设备上隐私数据的泄露风险。这类 边缘学习架构需要提供资源受限的终端设备上的模型设计、模型压缩和硬件加速三种技术。

终端进行计算,终究是会受限于计算力和存储量不够的问题。

边缘服务器学习

在边缘服务器上执行神经网络模型学习,终端设备仅需发送数据和接受学习结果。解决终端设备无法支持要求高的计算,而在云端计算又无法支持低延迟的需求问题。
这类边缘学习需要增加数据预处理多任务资源管理两种技术。

云边缘协同学习

联合参与计算,实现云边端协同优化学习效率增强隐私性。 这类边缘学习架构需要提供计算迁移、模型分离、云边协同和边边计算四种技术。

隐私计算需求和应用 法律法规与标准 法律法规

(1)国际
image

(2)国内
image

标准

(1)国际
image

(2)国内
image

(3)行业和团体
image

隐私计算的需求

边缘学习与传统的集中式云计算相比的特点就是分布式学习,即将计算和处理能力从云端数据中心下沉到网络边缘,并通过智能实体(如边缘网关)执行数据的计算和分析任务。

边缘学习的数据通常来自边缘的终端和设备,如手机,传感器等,这些往往都是敏感数据,传统是将数据上传至云计算中心的方法会有隐私泄露的风险,所以隐私计算能解决该问题。

隐私计算的应用场景

根据实际应用需要,结合边缘计算“云 - 边 - 端”结构,可以将面向边缘学习的隐私计算框架分为主从式部署和对等部署,主从式部署包括边 - 端协同、云 - 边协同和云 - 边 - 端协同等部署,对等部署主要指边 - 边协同或者端 - 端协同部署方式
image

边端协同部署

对于终端节点的数据不能离开本地,所以需要在用户和服务方之间增加边缘节点,这样在终端收集信息,在边缘节点进行任务分配,边缘节点和终端联合建模,并将模型上传至云端。
image

云边协同部署

之前的方式是终端采集数据,传输给边缘节点,由边缘节点根据云端发布的模型和规则进行数据处理、识别分类、决策及生成处理方案。发布给终端节点。
为了数据安全,需要数据不出采样园区,但这样存在通信负荷较大的问题,联邦学习是解决该问题的有效途径。

可以在园区的边缘节点采集本地数据,作为建模节点,云端作为协调节点和模型应用管理节点,与边缘节点一起构建联邦模型,云端将构建好的模型发布给边缘节点,由边缘节点负责处理终端节点上传的数据,并声称处理方案,发送给终端节点。
image

这里的终端节点负责上传数据。

云边端协同部署

image
首先由终端和边侧联合完成本地模型训练,然后由云端进行参数聚合,端侧完成本地模型训练,边侧作为中继,接收其下辖的终端上传的本地模型参数,作初步的聚合,在边缘侧做若干轮的迭代后,各边缘节点将迭代的结果上传给云端,再做聚合,生成整体模型。

对等部署

上面的三种模式,没有去中心,需要中心云服务器。

对等部署就是没有中心节点进行参数聚合,各用户终端或边缘节点利用本地数据训练模型,通过一定的交互协议使得参与建模的用户的模型收敛到统一的参数。
优点:去中心化,提高隐私性
缺点:计算量变大,模型收敛速度变慢或精度变低
image

隐私计算风险和技术挑战 风险

(1)数据风险

  • 数据采集、传输风险
  • 边缘侧数据存储风险、云端侧数据存储风险。

(2)网络风险

  • DDoS攻击
  • 注入欺骗分组攻击
  • 路由攻击
  • 通信协议漏洞风险

(3)计算风险

  • 窃听攻击
  • 未授权对话攻击
  • 应答攻击
  • 恶意终端设备攻击
  • 硬件木马攻击
  • 物理攻击
  • RFID标签攻击
  • 侧信道攻击

(4)模型风险

挑战

(1)模型精度
为了保证安全,就需要加入噪音/干扰等,就会损失收敛速度和模型精度

(2)学习效率
为了保证安全,就需要加入噪音/干扰等,会增加计算和通信,降低模型训练效率
解决方向:

  • 减少通信轮数
  • 压缩传输数据大小
  • 计算资源优化
  • 动态网络条件优化

(3)激励机制

隐私计算架构和关键技术

image

主要学习密码学相关的,其他请参考白皮书。

密码学算法与协议

(1)基本运算

  • 四则运算
  • 比较运算
  • 逻辑运算
  • 矩阵运算

(2)密码学工具

  • 同态加密
  • 秘密共享
  • 茫然传输
  • 混淆电路
  • 零知识证明
  • 群签名
  • 盲签名
  • 差分隐私
  • 远程证明
关键技术 联邦学习

为了打破数据孤岛的壁垒,提高数据的流通性,联邦学习提出将训练计算过程分配给各个数据所有者,使其在本地环境执行训练,再将训练模型参数提交给中央服务器进行聚集。 经过多次迭代训练,中央服务器便可以获取到高质量的全局模型。由于整个训练过程中,数据并没有离开数据所有者, 因而联邦学习计算模型很好地保护了数据拥有者的隐私。

然而,参与者的本地训练过程对联邦学习的中央服务器来说是黑盒的,这导致其无法像集中式训练过程一样, 完全控制训练任务的进行。事实上,联邦学习网络中很容易出现行为不端的参与者不按预期执行训练任务,例如发起模型污染攻击和后门攻击,从而降低模型准确性或模型收敛速度;并且在基于联邦学习的数据市场中, 训练参与者可能会偷懒,在较少训练的情况下骗取奖励, 从而给其他用户造成严重的经济损失。因此,如何实现鲁棒可信的联邦学习是一个重要问题。

针对联邦学习中不可信的边缘节点,目前主要的应对技术可分为两大类:基于鲁棒聚合机制的被动防御基于可信执行环境的主动防御
(1)基于鲁棒聚合机制的被动防御
此类技术通常基于机器学习算法的固有特性,通过重新设计梯度集合机制来防御边缘节点恶意的梯度更新,其特点是无需改变边缘节点的工作流程,方便部署。
(2)基于可信执行环境的主动防御
此类技术将可信执行环境与机器学习结合,通过部署在边缘节点的可信执行环境保护训练过程,其特点是可验证边缘节点的计算完整性,并能提供可证明的安全保证。

安全多方计算

安全多方计算(Secure Multi-party Computation,MPC) 是一种无需可信第三方的分布式计算协议与机制。即在一个分布式的环境中,各参与方在互不信任的情况下进行协同计算,输出计算结果,并保证任何一方均无法得到除应得的计算结果之外的其他任何信息(包括输入和计算 过程的状态等信息)。

实现多方安全计算协议主要有:
(1)基于混淆电路(Garbled Circuit,GC)、
(2)秘密分享(Secret Sharing,SS)
(3)同态加密(Homomorphic Encryption, HE)
根据支持的计算任务 MPC 可分为专用场景和通用场景两类:
(1)专用场景 MPC 支持特定计算任务 的 MPC,比如比较数值大小、隐私求交集(Private Set Intersection,PSI)计算协议等
(2)通用场景 MPC 理论上可支持任何计算任务,MPC 具有完备性。

MPC 分布式架构非常适合应用于面向边缘学习的多个节点和传感器网络的计算场景中,它可应用于多方的联合统计、查询、计算以及机器学习等场景。比如在人脸识别的边缘学习场景,各个边缘节点将采集的人脸隐私数据在边缘侧对人脸信息进行 MPC 的安全处理,并与云端或中心服务器协同计算和匹配识别最终的人脸识别结果,这保证了云端或服务器无法获取各个节点的明文的人脸信息。 MPC 技术实现边缘侧节点“隐私数据不出本地”的联合计算,一方面从源头上降低了数据泄露风险,另一方面在满足隐私合规的同时实现隐私数据的采集、利用和开发。

可信执行环境

可信执行环境(trusted execution environment, TEE)是 在基于硬件隔离机制构建的一个安全区域里保护数据传输、存储、处理的机密性和完整性。它的原理是将系统的软件和硬件资源划分为两个执行环境——可信执行环境普通执行环境(rich execution environment, REE)。 TEE 为数据和代码运行提供了一个安全隔离环境,有独立的计算资源,REE 的应用程序无法访问 TEE。当外部应用程序想要进入 TEE,需要对该用户或应用程序进行验证, 只有通过验证的应用程序才能进入,从而为 TEE 内部的 代码和数据提供了机密性和完整性保护。即使在 TEE 内部, 多个应用程序的运行也是相互独立的,不能在未授权的情 况下相互访问。TEE 基本逻辑架构如图所示。
image

可信硬件平台为可信执行环境提供硬件资源的隔离机制,当前业界主流的可信硬件的技术路线有:ARM TrustZone、Intel SGX、AMD SEV、RISC-V keystone等。
当前国内鲲鹏处理器支持可信执行环境,可以提供资助可控、安全可靠的国产TEE 芯片,为 AI 模型保护提供可 信的基础设施。TEE OS 部署在TEE 侧,是专属的操作系统,为可信应用提供硬件能力和系统服务。当前业界主要包括有开源 TEE OS(如 OpenTEE)和厂商自研的 TEE OS(如 iTrustee)。REE OS 作为普通 OS,无法访问TEE侧。
image

支撑技术 查分隐私

差分隐私(Differential Privacy, DP)是一种基于噪声机制(加噪)的隐私保护技术。通过 DP 技术可以确保数据库被插入或删除一条记录而不会对查询的结果造成显著性影响。其主要实现思路通过在查询结果中加入噪声,比如拉普拉斯类型的噪声,使得查询结果在一定范围内失真,并且保持两个相邻数据库概率分布几乎相同。参数通常被称为差分隐私的隐私预算(Privacy budget),参数越小,两次查询的结果越接近,即隐私保护程度越高。实际应用中需通 过调节参数,以平衡隐私保护效果与数据可用性。

差分隐私有两类应用模式,包括**中心差分隐私模型 (Centralized Differential Privacy,CDP) **和 本 地 差 分 隐 私(Local Differential Privacy, LDP)。其中在 CDP 模式中, 数据已经被收集到服务器中,实际应用中一般是通过提供具有差分隐私功能的查询接口给查询者使用;而在 LDP 模 式下,每一个终端设备都在采集隐私数据,为了保护隐私, 每一个终端设备都将运行一个差分算法并将采集的数据加入噪声,然后将其上传给边缘服务器 / 云中心服务器,这些服务器虽然无法获得某一个用户的精确数据,但通过聚合与转换可以挖掘出用户群体的行为趋势。这种 LDP 模 式非常适合应用于面向边缘学习和 IoT 网络的隐私保护场景,它可应用于隐私保护的大规模终端设备数据采集的统计聚合场景。比如苹果公司(iCloud)通过差分隐私技术采集 iPhone 群体用户的输入信息频率分布(如使用不同表情的频率分布),通过 DP 技术保护每一位 iPhone 用户的确切隐私, 但可以获得用户敏感的数据分布与趋势。DP 通过对隐私数据加噪处理,一方面保护了单个节点产生的隐私数据, 另一方面实现了边缘侧的敏感数据的利用与开发。

同态加密

由于边缘终端设备侧计算资源和存储资源受限问题,目前应用较多的是加法同态加密、乘法同态加密。而在实际场景中,HE 技术一般结合基于安全多方计算或联邦学习的隐私计算方案进行应用。比如在跨银行的联合风控建模场景中(联邦学习方案),为了获得高性能 AI 模型, 各个银行在边缘侧节点训练本地模型,并协作将子模型上传服务器进行聚合,为了防止模型梯度信息泄露,可对梯度进行同态加密,服务器可对加密过的子模型进行聚合处理(同态计算),这实现隐私保护的联合 AI 建模。HE 技术, 实现敏感数据的“可用不可见”,在保护隐私前提下实现数据的安全处理与流转。

隐私计算实践和案例分析 参考

1、《边缘学习:隐私计算白皮书》正式发布,附下载


上一篇:论文阅读 Real
下一篇:没有了
网友评论