为了应对日益增长的人工智能(AI)安全风险,美国国家标准与技术研究所(NIST)近日不仅发布了一款检查AI模型安全性的新工具,还同时推出了两份与生成式人工智能(Gen AI)相关的重要指导文件。这些举措共同构成了NIST在AI安全领域的全面布局。
新发布的工具名为Dioptra,它是一个开源软件包,允许开发人员确定哪种类型的攻击会使AI模型的性能降低。这款工具为AI系统的安全性和鲁棒性提供了有力的技术支撑,帮助开发者更好地了解和改进模型在面对对抗性攻击时的表现。
与此同时,NIST还发布了两份指导文件,以进一步加强AI的安全性和风险管理。这两份文件分别名为《AI RMF生成AI配置文件》和《生成性人工智能和双用途基础模型的安全软件开发实践》,它们将作为NIST的人工智能风险管理框架(AI RMF)和安全软件开发框架(SSDF)的配套资源。
《AI RMF生成AI配置文件》详细列出了生成式AI可能面临的12个主要风险,包括网络安全威胁、错误信息传播、有害内容生成等,并为开发者提供了近200项具体的风险管理措施。这些建议行动旨在帮助开发者有效地应对这些风险,确保AI系统的安全稳定运行。
另一份文件《生成性人工智能和双用途基础模型的安全软件开发实践》则与安全软件开发框架(SSDF)共同使用,为开发者提供了更加具体的实践指导。该文件特别关注到了恶意训练数据对AI系统性能的潜在威胁,并提供了相应的解决方案。通过这份文件,NIST旨在帮助开发者在实际操作中更好地应用SSDF,从而提升AI系统的安全性。
此外,NIST还宣布了一项与全球利益相关者合作的计划,以共同制定人工智能标准。这一举措显示了NIST在推动全球AI安全发展方面的决心和领导力。通过与国际社会的广泛合作,NIST期望能够建立起更加统一、完善的AI安全标准体系。
值得一提的是,NIST的这些新举措与去年11月签署的《布莱切利宣言》的精神高度契合。该宣言由中国、美国及其他至少25个国家在英国人工智能安全峰会上共同签署,旨在形成共同思路,监督人工智能的演变,并确保该技术的安全发展。NIST通过发布新工具和配套文件,不仅为开发者提供了实用的风险管理指南和技术支持,还为全球AI安全发展做出了积极贡献。