
以下是AI语料加速发展的背景及上市公司布局情况:
发展背景
市场规模扩张:2023年中国AI语料市场规模为68.7亿元,预计2025年将突破100亿元,年复合增长率超25%。
政策强力驱动:2024年12月,国家发改委等六部门发布《关于促进数据产业高质量发展的指导意见》,支持高质量数据集开发。2025年2月,国家数据局启动高质量数据集建设。
行业应用深化:医疗、金融、教育等领域对定制化、高安全性语料需求激增。例如医疗领域需精准标注病例数据,金融领域需合规交易记录分析。
上市公司布局
文本语料领域:中文在线依托20余年文化数字产业积累,构建多类型高质量语料库。中国科技出版传媒股份有限公司、中国出版传媒股份有限公司等出版龙头将专业学术资源转化为AI语料。
视频语料领域:华策影视拥有国内最大影视素材库,覆盖超60%永久原创版权。中广天择的“淘剧淘”平台汇聚优质电视剧版权,为大模型训练提供深度数据支持。
图片语料领域:视觉中国作为全球领先的视觉内容数字版权供应商,拥有近5亿专业级图文对、80万小时视频音乐素材,为AI视觉应用提供海量图像和视频语料。
其他领域:同花顺、上海钢联在金融和大宗商品领域建设语料库。值得买科技、汇纳科技通过消费语料库,助力AI理解消费者需求。中远海运科技在航运领域布局语料库。贝瑞和康在医疗语料库方面深耕。