周一,苹果公司发布了一篇技术论文,详细介绍了给其个人智能系统Apple Intelligence提供支持的AI模型。在这篇论文中,苹果透露了不少重要信息。
未使用英伟达的GPU在论文中,苹果介绍了给Apple Intelligence提供支持的两个模型——AFM-on-device(AFM是苹果基础模型的缩写)和 AFM-server(一个基于服务器的大语言模型),前者是一个30亿参数的语言模型,后者则是一个基于服务器的语言模型。
苹果在论文中表示,为了训练其AI模型,其使用了谷歌的两种张量处理器(TPU),这些单元被组成大型芯片集群。为了构建可在iPhone和其他设备上运行的AI模型AFM-on-device,苹果使用了2,048个TPUv5p芯片。对于其服务器AI模型AFM-server,苹果部署了8,192个TPUv4处理器。
TPU是谷歌开发专门用于加速机器学习的处理器。与图形处理器(GPU)相比,TPU被设计并运用于大量的低精度计算。据悉,在使用神经网路推断的AI运算任务中,TPU的效能可达到GPU的15到30倍。不过,由于生产的厂商少,市场供不应求,TPU的价格也会更加昂贵。
英伟达并没有设计TPU,其主要专注于研究和生产广泛用于AI的GPU。
与将芯片和系统作为独立产品销售的英伟达不同,谷歌通过其云平台销售TPU的使用权。有意购买使用权的客户必须通过谷歌的云平台构建软件才能使用这些芯片。
苹果不选择英伟达的GPU,而是全面使用谷歌的TPU,或意味着两者的合作进一步加深。
苹果工程师在论文中表示,使用谷歌的芯片,有可能制造出比论文中讨论的两款型号更大、更复杂的型号。
重申没有使用私人用户数据在苹果发布Apple Intelligence的时候,就有不少苹果用户对子的隐私表达了担忧,认为苹果可能试用其隐私数据去训练模型。
在论文中,苹果反驳了有关其在训练某些模型时侵犯了他人隐私指控,重申其没有使用私人用户数据。
“我们遵循严格的数据政策,确保不包含苹果用户数据,并对训练语料库中的每个组件进行严格的法律审查。”论文写道,“我们通过强大的设备端处理和开创性的基础设施(如私有云计算)来保护用户隐私。我们不会在训练我们的基础模型时使用用户的私人个人数据或用户交互。”
苹果在论文中强调,Apple Intelligence的每一步设计都秉承了苹果的核心价值观,并建立在业界领先的隐私保护基础之上。
使用授权数据本月早些时候,有报道称,苹果使用一个名为The Pile的数据集(其中包含数十万个YouTube视频的字幕)来训练一系列专为设备处理而设计的模型。许多受影响的YouTube创作者对此却不知情,也没有同意这一做法。苹果后来发表声明否认,称其不打算使用这些模型来支持其产品中的任何AI功能。
在论文中,苹果再次说明了其模型训练数据的合规性。
苹果工程师在论文中写道:“AFM的预训练数据集由多种高质量数据混合而成。其中包括我们从出版商处获得授权的数据、经过策划的公开或开源数据集,以及由我们的网络爬虫Applebot抓取的公开信息。”
据报道,苹果在2023年底与多家出版商达成了协议,其中包括NBC、Condé Nast和IAC。苹果与出版商们达成了价值至少5,000万美元的多年期协议,以允许苹果利用出版商的新闻来训练模型。
此外,未经许可使用代码(甚至是开放代码)训练模型是开发人员争论的焦点。一些开发人员认为,部分开源代码库未获得许可,或者其使用条款不允许进行AI训练。但苹果表示,其代码数据是从GitHub上经过许可过滤的开放源代码存储库中获得的。这些“许可过滤”的存储库包括MIT、ISC或Apache等。
苹果表示,大部分代码数据涵盖了14种常见的编程语言,包括Swift、Python、C、Objective-C、C++、JavaScript、Java和Go等计算机语言。
据该论文称,为了提高AFM模型的数学能力,苹果专门将来自网页、数学论坛、博客、教程和研讨会的数学问题和答案纳入训练集。“我们评估并选择了一些高质量的公共可用数据集,这些数据集的许可允许用于训练语言模型。然后,我们过滤数据集以删除个人身份信息。”