国家数据局：我国日均Token消耗量突破30万亿，一年半增长300多倍

2025-08-14 18:50:01 IT之家财经

IT之家8月14日消息，据中国新闻网今天报道，国务院新闻办公室今天举行了“高质量完成‘十四五’规划”系列主题新闻发布会，其中国家数据局局长刘烈宏作出了相关报告、解读。

刘烈宏介绍道，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半的时间增长了300多倍，反映了我国人工智能应用规模快速增长。

刘烈宏还指出，中国一直在持续推进高质量数据集建设工作，截至今年6月底，中国已建设高质量数据集超过3.5万个，总体量超400PB（409600TB）。

同时，AI模型训练也推动了数据交易需求，今年6月底前中国各地高质量数据集累计交易额近40亿元人民币，数据交易机构挂牌的高质量数据集总规模达246PB（251904TB）。北京数交所的高质量数据集占交易总量的比例从去年的10%跃升到目前的近80%。

中文数据也在国内大模型的训练性能提升方面发挥重要作用，目前中国多数模型训练使用的中文数据占比已超过60%，有的模型已达80%。

IT之家注：Token（常被称为词元）是计算机科学与自然语言处理领域中的一个基础且重要的概念，通常指文本数据经过分词或标记化处理后的最小单位，其中单位可以是单词、标点符号、数字或其他任何有意义的符号。

阅读：1 点赞：0

玩酷网