这个不错,值得关注Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。今天,微软CEO纳德拉官宣,Phi系列家族新增两员:Phi-4-multimodal和Phi-4-mini。这是微软Phi系列小模型(SLM)中的最新模型,尤其是Phi-4-multimodal是微软的首款多模态模型。这两款模型虽然参数不大(56亿和38亿),但性能强劲,甚至不输一些大型的开源模型,例如Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct。Phi-4-multimodal作为微软首个全模态语言模型,标志着微软人工智能开发的一个新里程碑。它是一个56亿参数的模型,将语音、视觉和文本处理无缝集成到一个统一的架构中。通过利用先进的跨模态学习技术,该模型实现了更自然、更具上下文感知能力的交互,使设备能够同时理解和推理多种输入模态。无论是解释口语、分析图像还是处理文本信息,它都能提供高效、低延迟的推理——同时还针对设备端执行和减少计算开销进行了优化。举个栗子,上传一张与不同时代(Z世代、千禧一代、X世代、婴儿潮一代等)在工作中使用非组织提供的AI工具的百分比图像。Phi-4-multimodal看懂图之后,就能帮你出一个Markdown形式的表格,并且与之相关的问题均可以答对。Phi-4-multimodal是一个单一模型,采用了混合LoRA(Low-Rank Adaptation)技术,集成了语音、视觉和语言功能,所有这些都在同一个表示空间内同时处理。其结果是一个统一的单一模型,能够处理文本、音频和视觉输入,无需复杂的处理流程或为不同模态使用单独的模型。Phi-4-multimodal基于一种全新的架构,显著提升了效率和可扩展性。它拥有更大的词汇量以改进处理能力,支持多语言功能,并将语言推理与多模态输入相结合。所有这些都集成在一个强大、紧凑且高效的模型中,非常适合在设备端和边缘计算平台上部署。