玩酷网

碎片图是一个有向图,其中每个节点代表原始数据集中的一个小型碎片。节点之间的有向边

碎片图是一个有向图,其中每个节点代表原始数据集中的一个小型碎片。节点之间的有向边表示连接关系,指向某节点的边意味着在训练该节点对应的适配器时,也会使用被指向节点的数据。这种设计允许模型在训练过程中访问更多的协同信息,同时仍然保持了一定程度的数据隔离。 举个简单例子,假设我们有三个数据碎片A、B和C。在传统方法中,我们会为每个碎片单独训练一个模型,然后将它们组合。但在SAFE方法中,如果存在从A到B的边,则A的适配器将同时使用A和B的数据进行训练。这样,A的适配器就能获取B中的协同信息,从而改善性能。 当然,引入这些连接也增加了预期的遗忘成本。如果需要遗忘B中的样本,则不仅需要重新训练B的适配器,还需要重新训练所有指向B的适配器(在这个例子中是A)。因此,碎片图的设计变成了一个优化问题:如何构建连接以最大化协同信息增益,同时最小化预期遗忘成本的增加? SAFE算法通过分析不同碎片被遗忘请求影响的可能性以及它们包含的信息价值,来解决这一优化问题。一个关键洞察是:不太可能收到遗忘请求的碎片(例如包含合成数据或高度审核过的数据的碎片)可以同时连接到多个其他节点,显著提高准确率而不增加预期遗忘成本。 在实验中,SAFE探索了多种图拓扑结构的性能。一个有趣的发现是,相比于随机连接的图结构,将图分割成不相交的集群(每个集群内的节点相互连接)能够显著降低遗忘成本。这是因为在随机连接的情况下,遗忘一个样本的预期成本与节点度数的平方成正比,而在集群结构中,这一成本仅与集群大小成正比。 SAFE还引入了双层碎片划分策略,进一步优化了协同信息的利用。具体来说,它首先将数据分成若干个"粗粒度"碎片,然后对每个粗粒度碎片再进行细分,形成"细粒度"碎片。这种层次结构更好地保留了类间的协同信息。 研究表明,均匀碎片化(即将数据均匀分配到碎片中)在许多实际场景中并不是最优的。相反,碎片应该构建得能最大化训练时可用的协同信息。基于这一思想,SAFE算法利用在不同数据碎片之间的协同关系,在给定遗忘成本的情况下最大化准确率。 在实验中,SAFE允许在高度碎片化的数据上训练(多达256个碎片),与均匀碎片化相比,在相同遗忘成本下,准确率提高了14%。这一显著改进证明了碎片图概念的有效性,也展示了SAFE在平衡模型性能和遗忘效率方面的优势。 碎片图不仅提供了灵活的遗忘机制,还为理解数据之间的协同关系提供了新的视角。通过分析碎片间的连接模式,研究人员可以发现数据中潜在的结构和依赖关系,进一步优化模型架构和训练策略。