FL-LLM综述

Towards Federated Large Language Models: Motivations, Methods, and Future Directions

全文结构

联邦学习分类

根据客户端之间数据分布的性质，联邦学习通常分为三个不同的类别，包括Horizontal Federated Learning (HFL), Vertical Federated Learning (VFL), and Transfer Federated Learning (TFL)。

HFL：各客户端之间特征重叠多，节点重叠少。常规的FL。
VFL：在拥有一组通用样本但具有不同功能集的客户端网络之间协作学习共享 AI 模型。它采用实体对齐方法来合并来自这些客户的交叉样本，然后使用这些样本集体训练统一的 AI 模型。使用加密协议可以增强此过程的安全性。
TFL：是节点之间特征和样本重叠很少的情况下的首选策略。它涉及将异构特征空间的特征转换为统一格式，从而能够使用从众多客户端编译的数据来训练模型。然后，负责聚合的服务器根据从参与者的学习过程中收到的权重来更新模型。主要目标是开发对特定用例有效的定制模型，尤其是在数据可用性有限的情况下，从而代表 FL 策略中数据组织的另一个关键方面。

背景-FL-LLM

LLM 训练数据的海量和分布式性质
- LLM 通常使用大量高质量的数据进行预训练，以实现惊人的性能。预计这种高质量的数据将在五年内耗尽。此外，使用这些公共数据还可能涉及法律和版权相关的复杂性。使用公共数据集训练性能更好的 LLM 将变得越来越困难。
- 相反，大量数据仍然可以在私有域中访问，涵盖广泛的个人和公司来源。然而，聚合这些分布式私有数据集进行集中训练不仅需要复杂的数据集成工作，而且还会带来潜在的隐私风险。考虑到模型性能和效率，FL 是一个很有前途的解决方案。通过直接利用私有数据进行模型训练，它解决了隐私和跨各个域的数据分发带来的挑战。此外，通过使用 FL 进行训练，LLM 可以访问更广泛的数据以执行优化任务，例如微调、提示调整和预训练。增强的数据访问有助于创建更准确、更高效的 AI 系统，更好地满足用户在各种应用场景中的需求。
数据隐私
- 鉴于使用的大量分布式数据，数据隐私是 LLM 培训和应用中的一个关键问题。在 FL 中，服务器不需要原始数据进行训练。服务器和客户端仅在模型训练中交换中间信息。这一核心思想确保敏感数据保存在本地并且不会泄露。因此，FL 降低了将敏感用户信息暴露给外部第三方的风险，并增强了 LLM 培训和应用程序中的数据隐私。
通过更新数据持续改进性能
- 另一个与数据相关的挑战是必须让 LLM 保持最新知识的更新。即使在很短的时间内，实际场景中的数据也会不断增长。例如，无人机和移动机器人等常见应用会随着时间的推移不断生成新数据。保持 LLM 的相关性和及时性变得具有挑战性，尤其是在处理分布式数据时。
- 各种来源的信息的动态性质需要不断调整和更新，以确保 LLM 保持准确和有效。FL 通过利用分布式和异构数据源实现模型的持续适应和增强，从而提供了一种解决方案。例如，LLM 可以以联合方式部署，其中本地模型根据特定于该位置的数据进行额外的微调。不传输本地数据，而是仅将模型的更新传输回中央服务器。这允许根据用户数据逐步增强全局模型，而无需直接访问该数据。
LLM 训练的高计算需求
- 训练大规模 LLM 需要大量的计算资源。这给缺乏独立进行 LLM 培训的必要框架或能力的独立实体带来了挑战。联邦学习促进了一种集体训练方法，允许实体结合他们的计算能力，这反过来又分散了训练工作量并减轻了任何单个实体的负担。另一方面，联邦学习在整个生命周期过程中通常涉及多个具有异构计算资源的本地客户端，它可以根据节点的计算能力调整原始模型，这样即使是计算能力较低的客户端也可以加入 LLM 训练和微调过程。
模型个性化和适应
- 随着 LLM 的快速发展，越来越多的大型模型正在向特定领域发展。这些应用场景不仅涉及不同的特定领域知识，而且对客户端的计算能力和硬件要求也有一定的约束。因此，由于 FL 的去中心化性质，它可以通过对用户生成的多样化数据进行训练，为用户提供个性化和自适应的 LLM 服务。另一个重要问题是 LLM 培训中的偏见。在 FL 中，模型从不同的用户那里学习，这使得 LLM 使用的数据和知识多样化。这有助于模型更好地理解现实世界场景的细微差别和复杂性，并为不同的任务和领域做出更明智、更少偏见的决策，从而有助于减少 LLM 系统中的偏差。

面临的挑战：

计算和通信资源问题：为了应对这些资源挑战，可以采取多种策略。剪枝，量化和知识蒸馏等技术可以用来减少LLMs的大小，使其更适合于FL环境。
同步与协调：由于LLMs规模巨大，客户端在本地训练后需要向中心服务器发送大量的更新数据。这种大规模的数据传输不仅增加了通信开销，而且会导致更新的延迟和潜在的不稳定。停滞更新会减缓全局模型的收敛速度，降低其精度。

一种方法是同步聚合，服务器在执行全局更新之前等待所有客户端的更新。然而，这可能会导致延迟增加，特别是当一些客户端具有较慢的网络连接或较低的计算能力时。另一方面，异步聚合允许服务器在收到来自任何客户端的更新后，立即更新全局模型。虽然这可以减少延迟，但它引入了合并过时更新的风险，这会降低模型的性能。为了缓解这种情况，可以使用诸如过期感知聚合等技术，其中服务器根据更新的及时性为其分配不同的权重，赋予最近更新更多的重要性。追逐客户是另一个需要解决的问题。这些都是延迟同步过程的较慢客户端。缓解这种情况的一种方法是设置更新的截止时间，在此之后服务器执行可用的更新，忽略掉掉队者。另一种方法是使用部分聚合，其中服务器聚合来自客户机子集的更新，确保同步过程不会被少数缓慢的客户机占用。
异质性：在FL中，数据分布在多个客户端上，每个客户端上的数据在数量、质量和分布上都可能存在巨大差异。这种数据的非IID性质会导致在训练LLMs时模型发散和性能次优，即一种被称为数据异质性的现象。
隐私和安全问题：LLMs需要应对各种潜在的攻击和偏见。如对抗样本，后门攻击，投毒攻击，模型窃取等。联邦网络中的词嵌入中毒攻击的影响是巨大的；即使是少数被妥协的客户端也会显著降低全局模型。在部署在无线网络上的联邦LLM系统中，对抗性干扰作为一种实际的威胁出现，破坏了传输过程中的敏感词嵌入。

使用 FL 进行 LLM 预训练和微调

框架和benchmark
- 早期的FL框架：TFF, FedLab, Felicitas, IBM FL, PaddleFL.
- 企业级应用FL-LLM 领域：FedLLM、FATE-LLM和 FederatedScope-LLM （FS-LLM）。它们结合了参数高效的微调技术，以提高训练效率并减少通信开销。此外，这些系统还实施了强大的隐私保护机制，以确保训练和推理阶段数据的机密性和完整性。
- OpenFedLLM为当代LLM 提供了一个创新框架，该框架促进了对未充分利用的分布式私有数据集的协作和安全训练。OpenFedLLM 还促进了跨多个领域的 LLM 训练，包括 8 个不同的训练数据集，并通过 30 多个评估指标提供全面的评估。FedIT可以通过在 FL 框架内利用来自用户的各种指令集来解决传统指令调优的限制。这在拥有数十亿客户群的跨设备 FL 环境中尤其有效。此外，它还对 FL 指令调整中存在的多样性进行了深入分析。
数据和模型初始化
- FL 文献中，神经网络通常使用随机权重进行初始化。而在集中式学习中，通常使用在大规模数据集上预先训练的权重的模型初始化。从预先训练的 LLM 开始可以显著减少客户独立和同分布（IID）和非 IID 数据设置之间的差异。此外，当使用预训练模型作为初始点时，每轮的局部 epoch 数可以大大减少，而不会降低最终精度。这些结果表明，预训练有效地缩小了 FL 和集中学习之间的差距。
- LLM 面临的挑战之一是如何对如此庞大的数据集进行分组。生成模型通过知识蒸馏（KD）进行微调，并且该模型在联合训练周期中以交错方式生成合成数据。

Federated LLM Fine-tuning（偷偷吐槽一下，后面每篇论文的描述都像是AI写的）

由于预训练 LLM 需要大量的计算资源和数据量，因此大多数联邦 LLM 工作都集中在提高微调阶段的有效性和效率上。努力减少联联邦LLM 微调的通信和计算开销，应对各种客户端的非 IID 数据和个性化要求的挑战，并支持更广泛的下游任务。

 - Federated LLM with PEFT：大部分采用了LoRA方法进行微调，因其可以减轻计算压力，且不会影响模型性能。
 - 针对下游应用的微调：LLM 必须经过微调过程，才能在下游任务上表现得更好。此阶段使用针对任务量身定制的数据集调整预训练模型的参数。微调的目的是从预训练获得的理解转变为关注相关任务的特定微妙之处和要求。一些工作采用了 FL 来微调下游任务的 LLM，目的是解决隐私和数据敏感性问题。

Personalized Federated LLM

 - **统计（数据） 异质性**是由于客户数据经常表现出非 IID 特征。这可能会导致这样一种情况：在客户端站点的本地数据上训练的模型可能优于在异构数据上训练的全局 FL 模型。
 - **系统异构性**是显而易见的，因为 FL 客户端通常在广泛的硬件功能上运行，包括计算能力、网络带宽和存储容量的差异，以及系统、应用程序和其他软件工具的差异，这种变体允许具有高级硬件的客户端训练更复杂的模型，而那些系统功能较弱的客户端则仅限于更简单的模型。
 - **模型异质性**的特点是各种实体通常维护不同的专有模型集合。在 FL 框架内微调这些模型的过程可以缩短训练时间，同时还可以保护专有知识。鉴于不同组织的模型多样化，促进本质上异构的个性化模型的训练至关重要。

Back-propagation-free Methods

     - 由于参数和数据量巨大，即使使用**压缩、量化和知识蒸馏**等方法，LLM 训练和微调的高计算成本和内存开销也往往是不可接受的。为了解决这个问题，一些研究探索了用于训练和微调联合大型语言模型的**无反向传播技术**。这些方法增强了 LLM，而不依赖于反向传播。BPfree 传播算法消除了在计算过程中存储激活值的必要性，从而减轻了通常与反向传播相关的大量内存开销。但它们仍处于开发的早期阶段。一个重大挑战在于这些方法对高维模型的可扩展性，因为与基于 BP 的方法相比，它们**对维数表现出更高的敏感性和更低的鲁棒性**。

联邦LLM 隐私和稳健性

联邦LLM隐私
- 训练数据恢复攻击：也称为重建攻击，目标是在实际 FL 环境中检索客户的 LLM 训练数据。这些攻击主要是基于梯度的，利用客户端和联邦服务器之间传输的数据。深度学习通常利用依赖于梯度的优化算法，联合参与客户端每轮将其梯度传输到联合服务器，并遵循基于联合随机梯度下降（SGD）的训练协议。有权访问这些梯度或能够推断梯度信息的攻击者能够重建机密训练数据。
- 成员推理攻击：成员推理攻击（MIA）旨在根据客户的模型和一些数据确定在模型训练期间是否使用了特定数据集。在 FL 框架中，可以进行主动和被动 MIA。被动 MIA 需要在不中断学习过程的情况下监控模型的更新参数并推断信息。主动 MIA 涉及篡改 FL 训练方案，构成对其他参与者的更具侵略性的攻击形式。
- 属性推理攻击：联邦学习上下文中的属性推理攻击旨在推断客户端的特定特征或参与者的集体属性，这些特征与机器学习模型的主要功能没有直接关系。目的是发现旨在保密的个人或人口统计详细信息。例如，这些攻击可能旨在推断敏感信息，例如个人姓名、联系电话、居住地址或私人财务和医疗记录。
针对联邦LLM 隐私攻击的防御方法
- 差分隐私：DP 通过向数据添加噪声来防止对手重建原始数据并保持高水平的效用，从而在隐私保护和模型准确性之间取得平衡。
- 同态加密：同态加密（HE）允许对加密数据执行计算，同时保持同态特征，这意味着一旦解密，结果将与对原始未加密数据执行的作的结果相匹配。
- 安全多方计算：SMPC 的目标是促进缺乏相互信任的多个数据所有者之间对函数的协作计算，同时保持各自数据集的机密性。促进 SMPC 框架的基础机制包括加密电路、遗忘传输和秘密共享。但是，这些技术有缺点，通常需要与其他技术结合使用才能构建高效的 SFL 算法。通常，SMC 方法以其高隐私性和准确性水平而闻名。但是，它们会产生高昂的计算和通信成本。
FL-LLM鲁棒性
- 拜占庭式攻击和防御：根据攻击者的目标，鲁棒性的对抗性攻击可以分为两大类，即无针对性攻击和定向攻击。拜占庭攻击通常被定义为非针对性的攻击，这些攻击向模型聚合器发送恶意构建的梯度，旨在降低全局模型的性能或损害其完整性。在这种情况下，服务器无法验证客户端的可信度。拜占庭问题经常出现在客户端更新阶段。某些客户端可能容易受到外部攻击或内部错误。此类受感染的客户端能够向服务器发送受污染的更新。如果这些恶意更新被服务器无意中合并，则可能会破坏整个优化工作流程。拜占庭检测和稳健聚合是对抗 FL 中拜占庭攻击的两种流行策略。稳健聚合方法的主要目标是最小化拜占庭客户端对集体模型更新过程的影响。这些方法假定损坏的更新与合法更新在几何上相距甚远。
- 中毒攻击和防御：中毒攻击是 FL 中一种常见的有针对性的破坏形式。这些攻击有两个方面：数据中毒（发生在本地数据收集期间）和模型中毒（发生在本地模型训练的整个阶段）。具体来说，模型中毒包括 FL 环境中的数据中毒，因为它会在任何迭代期间修改传输到模型的一部分更新。传统上，对主流 ML 模型的中毒攻击旨在通过篡改训练数据来欺骗模型，通常以分类模型为目标。
FL-LLM 涉及跨多个设备的分布式训练，特别容易受到新型攻击媒介的攻击。静态安全措施不足。这些防御可以利用来自各个节点的实时数据来检测和缓解攻击，从而确保联合 LLM 的稳健性和安全性。此外，开发安全高效的联合 LLM 需要多学科方法。例如，结合来自密码学、机器学习和网络安全的见解至关重要。加密方法可以在传输和存储过程中保护数据，而机器学习技术可以提高模型性能和弹性。网络安全保证了节点之间数据交换的完整性。通过整合这些学科，研究人员可以解决联合 LLM 的复杂挑战，创建强大且安全的系统。

未来研究方向

FL-LLM的有效性
异质性
隐私性
鲁棒性
多模态模型聚合
联邦特定域的AI代理
持续学习
合法、负责和有利可图的使用：联合 LLM 涉及多个实体，这些实体为训练过程贡献自己的数据、设备和计算资源。这些模型被用户用于各种内容创建应用程序。然而，这种快速增长也引发了冲突，尤其是在知识产权（IP）方面。
数据擦除：尽管 LLM 非常强大，但由于隐私问题、准确性限制、版权侵权问题以及社会偏见的潜在传播，它们对大量数据集的依赖也可能成为一种负担。

看了这篇论文，觉得其中相关领域的知识写的非常清晰全面，就记录下来供后续学习回忆。

Y. Cheng, W. Zhang, Z. Zhang, C. Zhang, S. Wang and S. Mao, “Towards Federated Large Language Models: Motivations, Methods, and Future Directions,” in IEEE Communications Surveys & Tutorials, doi: 10.1109/COMST.2024.3503680.

#-论文

FL-LLM综述

http://example.com/2025/03/16/FL-LLM综述/

作者

杨桃非桃

发布于

2025年3月16日

许可协议

fedllm代码调试下一篇