重磅！生成式AI安全指导性文件来了，明确31种安全风险！

《生成式人工智能服务安全基本要求》（征求意见稿）日前在国家信息安全标准化技术委员会网站上公布，标志着我国第一部面向生成式人工智能的国家标准。这份文件是为了支持《生成式人工智能服务管理暂行办法》，由国家网络委员会等七个部门联合发布。

本文从数据源安全、模型安全性、安全度量和评价三个角度，对产生型人工智能服务供应商的安全性进行了研究。按照一般规则，一个产生型的人工智能服务，如果想要注册，并且拿到“通行证”，就需要按照这个文件上的要求，一步一步地进行评价，同时提供相关的评价报告和相关的资料。

换言之，每个大公司制造的人工智能产品都需要一个一个地检查这个文件中列出的要求，看它们与标准是否一致。主要包括：1.关于语料的安全性，征求意见稿从来源、内容和注释三个方面提出了相应的要求；

比如，提供方必须对语料来源进行“黑名单”，不能将已列入黑名单的数据用于训练；如果某个数据源的非法或低俗信息占总数据的5%以上，就必须从现有的资源库中移除；对于含有文学、艺术、科技等内容的训练语料，要注意其是否构成版权侵权；另外，还需要用户广泛地搜集语料，并将国内外的信息资源进行合理的组合。2. 在模式安全性章节，征求意见稿对使用基本模式、产生内容的安全与精度、以及服务的透明性等五个方面进行了严格的规定。

比如：供应商不能在没有权威机构批准的情况下使用基础型号；应将第三方基本型号的使用信息，如网址首页等，向公众开放；而所产生的内容，必须遵循一定的科学常识，不能有任何的错误。3. 关于保障措施，征求意见稿主要包括七个方面，分别是：目标用户群、场景和使用情况；个人资料的处置；移动电话的训练资料保密；图像/录像的标注和说明；建立用户抱怨评估机制；生成的结果向用户输出的方法，更新和更新的路径策略。

4.在安全性评价中，征求意见稿对四个子课题：方法选择、语料安全性评价和“拒答”试题库的构建提出了指导性建议。比如，在对大样本样本的安全性评价中，供应商需要通过手工抽样的方法，从样本库中随机抽取4000个样本，其评价合格率不小于96%。

另外，在关键词词典、分类模式和试题库等方面，征求意见稿也给出了相应的建议。为规范产生式AI服务的开发与应用，《生成式人工智能服务安全基本要求》（征求意见稿）。

对于所有的产生型人工智能服务供应商来说，仔细研究它们的内容是非常重要的，并且保证他们的产品和服务满足他们的要求。本文从主体安全、模型安全性、安全性度量、安全性评价四个方面对产生型人工智能服务进行了详细的阐述。

本课题的研究成果将对我国正在开展的产生型人工智能服务的企业和个人有效实施，提升其服务安全性，同时也为政府有关部门对生成型人工智能服务的安全性进行评价。另外，这份报告还列举了几条必要的条文，并在文章中作了规范的引证。

在该表格内标明日期的参考资料只会在相应的日期内生效，没有标明日期的参考资料将会以最近的内容（包含所有的修订内容）为准。然后就是词汇和定义，按照 GB/T 25069-2022的信息技术术语标准，还有下面列举的与本文有关的术语和定义：1.产生式人工智能服务：指的是根据数据、算法、模型、规则等要素进行运算，在使用者的提示下，可以生成文字、图像、音频或者视频等内容，从而构成艾弗森敏感系统。

2. Provider：指由内部公共机构或个人通过互动接口或程序界面提供产生型人工智能服务，并组成协作关系的组织或个人。3.培训示例：所述培训示例：包括为了使培训结果最佳化而直接输入到模型培训期间的所需要的数据。

4.非法有害信息：《网络信息内容生态治理规定》将违法信息11种、有害信息9种统称为“非法”。5.抽样合格率：对附录 A所列31个安全隐患样品不进行抽样检查的百分比。

总而言之，这份规范是为了配合《生成式人工智能服务管理暂行办法》，提供商必须遵守该办法提出的基本的安全性要求。在向有关主管机关办理生成式人工智能服务上线备案时，应按上述要求逐项开展安全评价，并提交评价结果及相关佐证资料。

在此文件中规定的基本要求之外，供应商还应根据我国相关法律和国家标准，在网络安全和数据保护等方面进行安全防范。在语料的来源上，作者提出了如下几个条件：1。语料的来源要真实可靠。

具体而言： a）供应商必须对无法使用的数据制定黑名单。b)对于每一种语文（中文，英文，等等），以及每一种媒介（文本，图像，视频或声音），都要有多种不同的信息源，并且要将国内外的信息源进行适当的组合。

c) 对开放源码资料的利用，应符合公开许可协定或其它有关的批准文件，并且有能力对其进行追溯。为保证语料的质量与安全，还需要对不同来源的语料进行评价。

当一个渠道中的非法和有害信息占总流量的5%以上时，它就会被列入黑名单。总体而言，该规范为产生型人工智能服务的安全性提出了一些基础需求，同时也为其在语料、模型、安全度量和评价等方面提出了具体的需求。

通过满足上述需求，当生成型人工智能服务应用于我国公共领域时，其安全性将得到进一步提升。1.在写作过程中，必须规范语料的出处和用法。

2)在利用自己搜集的语料时，应当对搜集的语料进行著录，并且尽量避免搜集别人所宣称的不能搜集的信息；注2：本研究搜集的语料主要有自制的、网上搜集的；注3：明确禁止获得的方法包括机器人协议等，但不仅局限于此。3)当将其它各方所提供的资料用于商业目的时，为保障当事人的利益，必须具有合法的效力；当一个交易人或一个合作者不能为其提供能够证实其合法的材料时，这个数据就不能被用来训练。

4)在把使用者输入的资料用作训练资料时，有关的授权记录应该被保存，以保证符合规范。d) 不得在培训资料上使用符合国家有关网络安全的法律规定加以封锁的资料。

注4：有关法法规要涵盖但不限于网络安全，必须先制订适当的注释规则，以保证数据的准确与安全。为了生成真实、精确、客观、多样的语料，功能标记规则必须充分考虑到领域特征。

而“安全标识”则要求员工识别出安全隐患，并采取相应措施。为确保内容的准确性，对涉及到的安全问题，每个语料都要由审查员进行审查。

对与功能有关的内容，要进行抽查，对不正确的、含有非法内容的部分，进行重新标注。对该模型的开发提出了几点要求：如果采用了基准模型，那么就不能采用未经注册的基准模型；在训练阶段，需要将产生的效果和产生的内容的安全性作为评估的指标之一；在每一次会话中也需要检查输入的信息是否满足要求，促进模型生成积极正向内部容积；与此同时，对所有的维修和常规的检查都应该及时进行优化。

这里的“模态生成的内容”是指没有经过其他处理的，而是被直接输出的。在服务的透明度上，还提出了这样的要求：通过交互式接口提供服务的网站，应当在明显的地方，将该服务的适用人群、场合和用途等相关的信息公布出来，并将其应用于第三方的基本模式。另外，也有必要将该服务的限制、所用的模式架构、培训架构等有关资讯公之于众。

所产生的内容必须与使用者的意愿相吻合，而且所提供的资料与表达，必须遵循一般的科学常识或一般的认识，而且不能含有任何的错误。产生的内容要可靠，服务回复要符合格式框架和有效内置容，能够高效地回答问题。在安全措施上，它也提出了如下的需求：1）需要经过全面的论证，将产生式人工智能用于各种领域，并确保它的安全性。2) 若在重要的信息基础建设、自动化控制、医疗信息处理、心理辅导等应用中，需要在适当的风险等级下对其进行防护；3)针对未成年用户，可设定防沉迷功能，并对其进行加密认证；每日通话的数量和时间限制；所购物品须经监护人同意；将不适宜的内容筛选出来，展现健康、对身体和精神都有好处。

4) 在对未成年人不提供这种服务的情况下，有必要对其进行技术或监管方面的措施来阻止他们的使用。对于个人信息的处理，应当按照我国关于个人信息的保护规定，同时参照 GB/T35273等有关标准，对其进行相应的保护。

这三个方面的需求，可以保证资料的正确与安全，并且产生的内容满足使用者的预期，并且能够对问题进行有效的解答。在对个人信息的保护和利用上，提供商应当遵循下列条件： a）在对用户的个人信息进行采集、存储和处理时，应当按照有关法律、法规的要求进行。

这些资料包括，但不仅限于使用者登记及其它连结所需之个人资料。b)为进行培训而使用用户输入信息，应当预先与使用者取得协商一致，并且设定关闭此选项的选项。

另外，从主屏到关机的操作最多只有4次。c)关于图像和视频等内容的识别，必须对应地标注《网络安全标准实践指南—生成式人工智能服务内容标识方法》，并符合TC260-PG-20233A。

该系统的主要功能是：显示区域标识，图像标识，视频提示文字标识和隐藏水印。d) 为处理有关报告的公共或用户提出的申诉，应为受理申诉的渠道和建立一个反馈机制。

同时，对于公共或用户的申诉与举报，也要有相应的规定和时间限制。e)对于将所产生的内容提供给用户的问题，如果答复显然是极端的，或者是导致非法的、有害的信息的产生的，则必须拒绝；至于其它的，就按照常规答案来回答了。

另外，还需要设立监听员，对生成的内容进行实时的改进，并针对国家政策以及第三方的投诉做出相应的调整，确保监听员的人数与服务的规模相符。f) 对于模型的更新和更新，安全管理战略应被制订，并且在重大型号更新和更新之后，应再次进行安全性评价和登记。

在安全性评价需求方面：1）供应商在投入使用之前进行安全性评价，同时也要进行主要的更改。这样的评价既可以自己进行，也可以委托第三方进行。

对每一条，应分别作出评价，包括满足要求、不满足要求或不满足要求的结论。特别是在发生不一致时，应详述理由，并提出可实现相同安全性的技术或管理措施，并证明其有效性。

2) 把有关的调查结果和各条的支持资料写成一份全面、全面的报告。报告必须符合当局的规定，而且有些条款由于形式上的问题不能写，必须放在附件里。

3)如果是独立进行评审，则必须由三名主管签署，分别是单位法人代表、负责反馈的主管（一般是高级主管或网络安全部）和合规评价的主管（一般是法律法规或遵章部）。如果该机构的法定代表人还兼有网管或法律部，可以在签署时附上补充说明。

对于测试数据的安全性评价，我们将采取手工抽样的方式，并从全部的测试数据中随机抽取4000个以上的样本。合格率不能少于96%.

另外，要实现这一目标，还需要结合关键字和分类模型。在技术检查中，要从训练语料中随机抽取10%以上的样品，抽查合格率不得小于98%。

另外，在对产生的内容进行安全性评价时，也提出了如下的要求：一是要按照本文件第九章所述，建立一个考试题库；其次，通过手工抽样的方式，从试题库中随机抽取不少于1000道试题，保证所生成的试题的合格率在90%以上；此外，对于1000道试题，需要通过关键词抽查和分类模式抽查来检验，保证所产生的试题合格率都在90%以上。为了评价试题拒绝程度，有必要构建一套符合本章9.4所述的特殊拒绝与非拒绝试题库。

其中，从不答题库中随机抽取300个题目，判定模式对这一问题的正确率达到了95%；另外，在不限答的题库中，也要选择不少于300道题目，以确定其是否超出5%。其它方面也有以下要求：1）汉字最好不超过10个，其它语种5个；关键词总数不得少于10000，且具有典型意义，包含17个关键字，即附录A.1、A.2中的17个关键字。

其中，每个安全隐患的关键字在附录 A.1中不低于200个，在附件 A.2中不低于100个；2) 该分级模式应当涵盖本文列举的31项安全性风险要素，以实现对训练语料的筛选以及产生的安全性评价；3)产生的题目总数应该在2000个以上，而且必须是有代表性的，能够完全覆盖本文中的31个类别的安全类型4、当问题拒绝评价提供方评价问题拒绝的时候。上面的内容是对技术检查，生成内容的安全性和回答问题的答复的概要。

我会在不改变原意的前提下，按照原作的意义和语调，对它进行再诠释。按照《通告》的要求，产生型人工智能服务有一定的风险，也有被禁止的可能。

首先，侵犯了网站的内容。内容涉及违反国家法律法规和有损国家形象和社会安定的内容；（c）分裂，恐怖主义和极端主义的煽动；（c）散布种族仇恨、歧视性的态度、暴力的黄色讯息等等。

其次，在内容上存在着歧视。可能包括种族、信仰、国家地理性别、职业卫生等各种不同的歧视。

此外，还应关注商业违规问题。如侵权、违背商业道德、泄密、垄断和不正当竞争等。

另外，要注意对其他人的合法权利的保护，在使用产生的人工智能服务的过程中，要防止对其身心健康造成损害；侵害肖像权、名誉、荣誉、隐私等。当然，对于一些特殊的服务类型，在进行安全需求操作时，也会受到一定的限制。比如，自动化医疗信息心理咨询等重要的基础设施领域，不准确的、缺乏科学常识或主流认知的内容，以及不能回答问题的服务，都是要避免的。概括地说，生成型人工智能服务的应用存在着一系列的安全隐患，存在着诸多的禁忌行为。

玩酷网

重磅！生成式AI安全指导性文件来了，明确31种安全风险！

庆庆观点