★驱动因素:
国内大模型领域近期动作频繁,百度、阿里、360等公司相继宣布版本升级,强化长文本处理能力。这一趋势预示着上游数据供给环节的价值可能得到重估。
★百模大战:
随着Kimi模型因支持“200万长文本”而受到关注,其他公司也开始重视大模型的长文本能力。例如,财跃F1金融大模型的发布,阿里通义千问的长文档处理功能免费开放,360智脑的长文本处理功能内测,以及文心一言计划提高字数上限。
★差距:
尽管国内大模型发展迅速,但与GPT模型的亿级流量相比,目前国内领先的豆包,文言一心等模型的流量仍处于百万量级,存在较大差距。
★语料:
在AI产业链中,大模型属于中游,而上游主要提供算力和语料。当前,中游国产大模型的快速发展直接利好上游产业,尤其是随着长文本能力的突出,高质量的治料变得更加关键。
★应用:
除了语料,下游应用也将迎来爆发期。预计国内的应用发展将比海外快1-2个季度,尤其是结合长文本能力的办公、法律等场景,将成为应用爆发的重点领域。
★相关公司:
Kimi:
参股:深信服、九安医疗
合作:华策影视、超讯通信、掌阅科技、捷顺科技
服务:人民网、海天瑞声
算力:数据港、科华数据、朗威股份、弘信电子、亚康股份、润泽科技、润建股份
阶跃星辰:新华传媒、云赛智联、中文在线
清华智普:新点软件、中科金财、青云科技、思美传媒
PixVerse:电广传媒
抖音豆包:亚康股份、润译科技
快手快意:日出东方
文本语料:
小说语料:读课文化、掌阅科技、中文在线
学术语料:拓尔思、南方股份、中国科传
出版语料:新华传媒、中国科传、中国出版、中信出版
图片语料:视觉中国
字体语料:汉仪股份
视频语料:捷成股份、中广天择、华策影视、上海电影
图形语料:视觉中国
行业语料:
金融语料:同花顺、长亮科技、恒生电子
新闻语料:新华网、人民网
影视语料:上海电影、捷成股份、中广天择、华策影视
交通语料:通行宝、金溢科技、千方科技、万集科技
医疗语料:贝瑞基因、山大地纬、久远银海
工业语料:汉得信息、赛意信息、用友网络、容知日新