1. 技术创新与应用潜力
KIMI模型在处理长篇幅内容及存储、记忆功能上表现卓越,尤其在深度解析厚重书籍内容方面,其性能远超传统模型。该模型通过引入独特的定位编码机制(如ROPE),优化了文本向量的转化效率,并创新性地实现一个token对应两个汉字的转换策略,从而显著提升了处理速度和精确度。KIMI团队独立研发了一系列核心技术,涵盖数据编码、模型训练优化等方面,彰显了对原创技术及工程实践优化的重视,体现了团队强大的自主研发实力。
2. 应对用户增长挑战与商业展望
面对用户需求激增带来的算力瓶颈,KIMI模型正在进行快速扩容。由于市场需求井喷,导致现有资源出现明显缺口,甚至影响了服务稳定,为此公司已紧急启动服务器扩容计划。得益于字节跳动和阿里巴巴的投资支持,KIMI拥有雄厚的资金后盾,短期内的高投入预期在可控范围内。商业化层面,KIMI展现出积极态势,已有企业开展付费合作,同时C端市场的庞大潜力以及用户的高付费意愿,预示着光明的商业前景。
3. 国内外大模型能力对比及KIMI核心优势
相较于国际领先的GPT-3.5,在中文语境下,国内大模型已实现超越,其中KIMI在多数中文应用场景中接近或超过GPT-4水平。KIMI模型的战略定位独特,更专注于满足C端用户个性化需求,尽管可能牺牲部分通用性,却在细分产品市场中独树一帜。在实际应用上,KIMI在联网信息搜索、文档处理、深度长文分析等领域表现出强劲实力,足以印证其在国内相关应用领域的领先地位。
4. 模型参数量与算力需求的辩证关系
在模型发展的进程中,增加参数量并非单纯追求规模扩张,而在于如何科学合理地重新分配权重。值得注意的是,模型参数量的增长与其长文本处理能力之间并不构成必然的强关联。随着多模态时代的来临,针对视觉、音频、触觉等多种类型数据的处理需求日益旺盛,反映出整体模型参数量将持续拓展的趋势。与此同时,大规模模型参数量的增长也带来了前所未有的算力需求挑战,亟待我们在技术优化、参数量化等方面寻求突破性的解决方案。
Q&A
Q:KIMI模型是使用MOE模型吗?现在的算力是否已经很缺,如果用户量增加,会不会更加缺乏算力?以及这对公司的财务状况有何影响?
A:是的,KIMI模型使用的是MOE模型。目前算力确实已经相对缺乏,主要是因为用户增长速度超出预期,导致即便有动态扩容操作也难以应对突增的流量。就目前而言,算力缺乏的情况已经显现,公司也在紧急扩容中。对于算力的问题,虽然目前确实面临挑战,但不是无解的问题。背后有大公司的支持和注资,如字节跳动和阿里巴巴,因此从长远来看,算力的问题是可以得到解决的。"目前算力确实已经相对缺乏","背后有大公司的支持和注资"。关于财务状况,目前公司确实在烧钱,但这是初期投入,目的是先打磨产品。现阶段虽然烧钱,但公司已经有了一些B端的付费用户,虽然C端还未开始盈利。预计在不久的将来,随着问题的解决和用户基数的增加,公司有望逐步实现商业化并开始回收投资。"目前公司确实在烧钱","预计在不久的将来,公司有望逐步实现商业化"。
Q:如果DAU达到100万,对公司的成本消耗有何影响?
A:成本消耗可以通过对用户平均需求的计算得出。一位用户大约会产生10万token的需求,按照平均价格计算,每位用户的成本大约在50到60元人民币左右。因此,如果DAU达到100万,可以按照这个单价进行估算,得出整体的成本消耗。不过,实际的成本会因人而异,取决于每个用户的具体需求。"每位用户的成本大约在50到60元人民币左右"。
Q:目前对内地与海外主流大模型的能力有何评价?KIMI的应用方向和通用能力是否有区别?
A:在中文领域,目前国内的一些大模型,例如KIMI,已经在多数维度上超越了GPT-3.5。这些模型在处理中文时已经达到了很高的能力,有的在特定场景下甚至超过了GPT-4。但对于其他一些较为困难的任务,包括结构化信息处理和图像中潦草文字的识别,KIMI等大模型仍显示出一些短板。KIMI模型相较于其他模型,在联网搜索、文档处理和长文分析等功能上具有优势。而在生成能力和语音能力上,目前KIMI还未加入这些模态。战略上,KIMI似乎专注于解决具有广泛需求的关键问题,以此为基础,今后可能会向其他领域拓展。
Q:在评价一个模型的综合能力时,有没有行之有效的权威标准?
A:在这个领域很容易出现投机取巧的情况,很多模型厂商不会依赖第三方评价机构的测评结果。企业通常自建数据库,并根据其内部的测试结果来评估模型的能力。在文本领域,多轮对话被用作衡量标准之一,而在图像领域,则倾向于肉眼评估作品的一致性。目前,国际顶级会议要求用户研究的结果必须附在论文后面,以提供直观的用户感受评分,而不是仅依赖于数值分数。这种用户体验方式被认为更权威。
Q:KIMI模型在扩大上下文处理能力时,参数量需要如何改变?
A:在模型的上下文处理能力提升时,参数量也需要相应地进行调整。不过,参数量的增长并非主要目的,而是在提升时需要对权重分配进行改变。参数量与上下文长度的增长并不是简单的正比关系,而是彼此相关但不是强依赖。例如,月月酱面模型的参数量仅有几千亿,相比之下GPT模型有几万亿参数,但月月酱面在处理长上下文能力上可以达到GPT即将推出的版本的近十倍。
Q:KIMI与其他大模型在向量数据库的使用上有什么不同?KIMI内部是否构建了向量数据库?
A:在文本模型领域,无论是大型企业还是KIMI,都会使用数据库来支持模型的功能。这些数据库可能是商业版本,也可能是对开源版本进行了修改。例如,京东开源的一个现代数据库、腾讯的VectorDB和百度相关的数据库在国内较为常用,而国外则有Movers和Chroma等。具体到KIMI,我不太清楚使用的是哪种版本,但其内部一定会有向量数据库的应用,这是不可或缺的。
Q:全球大模型训练对算力的需求将如何变化?
A:从目前来看,KIMI的参数量还能够增长数倍,这对发展来说是必要的。尽管存在一些稀疏化技术,但大模型训练对算力的需求仍然在不断增加。我们之前也做过10万亿参数的模型,并证明了大参数模型对训练算力是一个重要的因素。根据趋势图,模型的参数量增大会导致对训练算力的需求大幅增长,但未来的算力需求远未达到瓶颈。预计到明年,尽管可能达不到10的27次方,但也将接近10的5乘以10的26次方。这表明,即使进行了各种优化,训练端消耗不会大幅下降,算力需求仍旧很大。
Q:现在付费意愿最高的用户群体是哪些?
A:目前看到的付费意愿最高的用户主要分布在C端,尤其是拥有数百万粉丝的内容创作者和自媒体。在剧本创作和审核领域,我们也注意到一些付费用户。此外,普通的办公用户也显示出高付费意愿,他们现在越来越多地使用KIMI模型。对于B端来说,由于之前的数据显示,如果C端用户群体达到了一定规模,B端用户的付费意愿可能会更大。
Q:KIMI的多模态产品将在什么时候推出,整体的参数量如何?对皆月星辰模型有什么评价?
A:KIMI目前的参数量与国内其他大模型持平,大约为一千多亿到两千亿。这个参数会频繁变动,因为我们有多个模型同步进行策略训练。关于金悦星城(或金月星辰)模型,还未能使用,但根据官方介绍和一些申请材料,感觉可能还不错。我猜测其模型在创业公司中应该算比较好的。至于MOE架构内部具体有多少个专家网络不太清楚,但估计大约在8到16个或者更多,由于模型进行了稀疏化处理,所以网络数量会有所优化。
Q:为什么还未发布的GPT-4.5,就能肯定KIMI在中文处理等方面比GPT-4.5强?
A:虽然官方还没有发布GPT-4.5,但对它的技术研发思路我们有一定的了解。通过对比Cloud3的性能,我们可以确认在中文处理能力上KIMI有很大优势。尽管我们没有办法直接使用GPT-4.5进行对比,但据了解GPT-4.5的相关能力在英文方面可能比较出色。但对于中文内容,我确信KIMI的性能更加优秀。
Q:如果KIMI开始付费,用户的月度付费范围是多少?
A:这个问题目前没有确切答案。可能需要进一步与产品团队讨论后才能知道。
Q:KIMI如何应对算力紧缺问题?是否使用了某些特别的调优工具?
A:算力紧缺对于云计算的运维是一个挑战,我们使用了一些技术来优化显存的利用,如显存复用。我们会尽量压榨每张显卡的显存上限,动态处理不同用户的请求,确保系统即使在紧张的情况下也能维持正常运行,并优先服务B端付费用户,避免对他们产生太大影响。
Q:KIMI模型是否进行了量化处理?
A:KIMI模型进行了量化处理。对于数千亿级别的模型,通常至少需要达到8位整数(INT8)的精度,有时在某些场景下还需达到4位整数(INT4)的精度,甚至可能使用了新的FP4量化技术。如果不进行量化,模型仅在运行阶段就需要近100张A10080GB显卡,量化是处理大参数模型的重要手段。