腾讯于11月5日宣布推出开源大型MoE模型:Tencent Hunyuan-Large,是当前业界参数规模最大、效果最好的Transformer架构的开源MoE模型。
据腾讯官宣:
腾讯混元Large模型总参数量约389B,激活参数量约52B ,上下文长度达256k,是当前业界参数规模最大、效果最好的Transformer架构的开源MoE模型,更适配开源框架精调和部署,在公开benchmark、多轮对话、高质量文本生成、数学逻辑、代码创作等多个任务上具有优异效果。
Tencent Hunyuan-Large专项能力
高质量文本创作: 可提供高质量写作、润色、总结、创意生成等文本创作能力。
数学: 提供数学计算表格公式及图表生成等能力。
知识问答: 模型具有较好的通用语义理解和知识储备,可回复用户知识性提问。
Tencent Hunyuan-Large 模型解析
随机补偿路由策略: 采用随机补偿的路由方式,将由于专家满负载原本会丢弃的专家随机路由到其他仍有负载冗余的专家,同时提升模型的训练稳定性和收敛速度。
KV Cache压缩: 采用Grouped-Query Attention(GQA)和Cross-Layer Attention (CLA)两种策略,对KV Cache进行了压缩。Hunyuan-Large模型的head数通过GQA从80压缩到8,并通过CLA每两层共用KV激活值,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。
Tencent Hunyuan-Large模型性能评估
Hunyuan-Large在与业界开源的DeepSeek-V2 、Llama3.1-70B、Llama3.1-405B以及Mixtral-8x22B的对比中,在CMMLU、MMLU、CEval等多学科综合评测集、中英文NLP任务、代码和数学等9大维度全面领先,处于行业领先水平。
试用:
https://huggingface.co/spaces/tencent/Hunyuan-Large
产品详细能力:
https://cloud.tencent.com/product/hunyuan
参考:
https://llm.hunyuan.tencent.com/
github:
https://github.com/Tencent/Tencent-Hunyuan-Large
论文:
https://arxiv.org/pdf/2411.02265
huggingface:
https://huggingface.co/tencent/Tencent-Hunyuan-Large
--AI寒武纪