一次搞懂大模型备案的最关键因素

悲伤的森林 2025-04-21 16:37:26

大模型备案审核要素极多,导致一些企业申报时分不清重点。虽然技术、性能、安全都会被严格审核,但其中最重要的部分还是安全性,今天我讲重点讲述这个大模型备案的最关键因素。

一、大模型要多安全才能达标?

目前,只要是正常研发的大模型都能达到基础的安全要求,能识别、处理直接的违法违规信息。但对于一些有技巧的,甚至是多轮对话的诱导式问答,则会陷入陷阱,生成违规信息。以下是一些有代表性的案例。

大模型备案要求企业能处理这种诱导式问答。需要注意的是,虽然审核部门设立了多项严格指标(下环节会具体讨论),但其通过率都设定在90%-100%之间,留给了企业一定空间。如果只是极个别情况下产生以上违规内容,即时处理报备即可。

二、安全指标

大模型备案在语料来源、关键词酷、生成内容测试题库、拒答测试题库、语料安全评估、生成内容安全评估、问题拒答评估等环节都设有明确标准。企业可查阅《生成式人工智能服务安全基本要求》了解。

需要特别注意的是,《生成式人工智能服务安全基本要求》提出的标准只是最基础的要求,相当于是一个下限。在实际审核中,不同省份在不同时期,对特定指标的数量和质量要求是不同的。比如关键词库在文件中的要求是总规模不少于10000个,但很多省份的实际要求是大于这个数的。

因为各省存在差异,所以购买模板的做法是十分不可取的。大模型备案第三方服务机构的价值也不在于简单提供各项材料,而是他们熟悉各省差异,知道该如何完成撰写,这才是其价值所在。

三、安全措施制度

上文曾列举出诱导式问答的失败应对案例,如何处理这种情况,也是大模型备案重点考察的环节之一。除了事前预防外,事中检测、事后处理/追责、持续优化也是审核部门关注的点。以下是我从《生成式人工智能服务安全基本要求》中挑选的重要点,供大家参考:

f)接受公众或使用者投诉举报方面:

1)应提供接受公众或使用者投诉举报的途径及反馈方式,包括但不限于电话、邮件、

交互窗口、短信等方式中的一种或多种;

2)应设定接受公众或使用者投诉举报的处理规则以及处理时限。

g)向使用者提供服务方面:

1)应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或

一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约

采取暂停提供服务等处置措施;

2)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,

应均能正常回答;

3)应设置监看人员,并及时根据监看情况提高生成内容质量及安全,监看人员数量

应与服务规模相匹配。

0 阅读:0

悲伤的森林

简介:算法备案大模型备案