欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、OpenAI宣布ChatGPT搜索升级 支持地图、高级语音等功能
OpenAI在最新的直播中宣布了ChatGPT平台的重大技术更新,推出了实时搜索和高级语音交互模式,极大提升了用户体验。通过优化搜索算法,用户能够快速获取实时信息,并直接查看源链接,增强了信息的便捷性。此外,新增的视频播放和地图集成功能,为用户提供了更直观的搜索体验,提升了移动端的搜索效率。
【AiBase提要:】
📈 更新后的ChatGPT引入了实时搜索功能,优化了搜索算法,使用户能够快速获取股票和新闻等实时信息。
🗣️ 新增的高级语音交互模式允许用户通过语音进行多轮搜索,提供个性化的语音助手体验。
🗺️ ChatGPT现在支持地图集成功能,用户可以直接查看地理位置信息,进行路线规划和地点探索。
2、谷歌升级AI视频生成模型 Veo2,4K分辨率、人类偏好评分优于Sora
谷歌最近发布了其新一代视频生成模型Veo2,旨在与OpenAI的Sora竞争。Veo2在视频生成方面展现了更高的真实感和细腻度,用户可以通过Google Labs的VideoFX平台申请使用。此外,谷歌还更新了图像生成模型Imagen3,进一步提升了生成图像的真实感和色彩表现。
【AiBase提要:】
🎥 Veo2视频生成模型质量优于OpenAI的Sora,用户可申请使用。
🚀 用户可以选择视频风格和效果,生成最高可达4K分辨率的视频。
🎨 更新的Imagen3图像生成模型表现出更好的艺术风格和用户体验。
详情链接:https://labs.google/fx/tools/video-fx
3、Midjourney推出个性化模型与情绪板,可上传图像训练模型了
2024年12月16日,Midjourney公司推出了备受期待的“情绪版板”功能,允许用户上传灵感图像集以生成新艺术作品。配合最新的AI模型,用户可以更轻松地创建个性化资料,简化了模型建立过程,降低了新用户的入门门槛。此外,增强的组织功能使得用户能够更好地管理多个项目。
【AiBase提要:】
🌟 Midjourney推出心情板功能,用户可上传灵感图像集。
🚀 个性化资料的创建变得更简单,用户只需40个评分即可开始。
🛠️ 组织功能增强,用户可命名资料并追踪相关图像。
详情链接:https://www.midjourney.com/personalize
4、谷歌推出全新AI工具Whisk无需提示词,可多张图片混合生成新风格图像
谷歌最新推出的AI工具Whisk,显著改变了传统的图像生成方式,允许用户通过上传多张图片来生成新图像,而不再依赖于冗长的文字描述。Whisk的设计旨在快速进行视觉探索,用户可以轻松地将不同风格和主题的图像融合,创造出独特的视觉作品。尽管生成图像的过程可能需要几秒钟,并且有时结果会略显奇怪,但整体体验非常有趣。
【AiBase提要:】
🎨 Whisk允许用户通过多张图片生成新风格图像,颠覆了传统的文字提示方式。
✨ 用户可以上传不同主题的图片,自动融合生成有趣的视觉效果。
🚀 谷歌还发布了Imagen3和Veo2模型,进一步提升了图像和视频生成的能力。
详情链接:https://top.aibase.com/tool/whisk
5、YouTube新功能上线:允许创作者授权第三方使用视频训练AI
YouTube最近推出了一项新功能,允许创作者选择是否授权第三方公司使用他们的视频进行人工智能模型的训练。这一功能的默认设置为关闭,创作者如果不希望第三方使用他们的视频,无需采取任何行动。
【AiBase提要:】
🔒 默认设置为关闭,创作者需主动选择允许第三方使用其视频进行AI训练。
🤝 允许的第三方公司包括知名AI企业,如OpenAI、苹果和微软等。
📈 此功能旨在帮助创作者在AI时代实现内容的新价值。
6、图森未来发布图生视频模型“Ruyi” 并开源Ruyi-Mini-7B
北京图森未来科技有限公司于2024年12月17日发布了其首款“图生视频”大模型“Ruyi”,并开源了Ruyi-Mini-7B版本,供用户在huggingface平台下载使用。该模型专为消费级显卡设计,具备多种生成能力,尤其在动漫和游戏领域展现出色的视觉叙事潜力。尽管技术上取得进展,但仍需解决一些缺陷。
【AiBase提要:】
🚀 Ruyi大模型专为消费级显卡设计,支持多分辨率和多时长的视频生成,能够处理384×384到1024×1024的分辨率。
🎨 模型在帧间一致性、动作流畅性和色彩呈现方面表现卓越,成为ACG爱好者的理想创意伙伴。
🔧 尽管技术上取得进展,Ruyi仍存在一些缺陷,如手部畸形和面部细节崩坏,图森未来正在努力改进。
详情链接:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
7、智谱AI完成30亿元融资 推动大模型技术研发与商业化
智谱公司近期成功完成30亿元人民币的新一轮融资,吸引了众多战略投资者和国资机构的参与。这笔资金将用于智谱基座大模型的研发升级,进一步提升其在复杂推理和多模态任务解决方面的能力。尽管面临市场竞争和技术进展放缓的挑战,智谱依然在AI行业中保持领先地位,并在全球范围内产生显著影响。【AiBase提要:】
🚀 智谱公司完成30亿元融资,资金将用于基座大模型的研发和升级,推动行业创新。
📈 今年智谱在B端市场实现逆势增长,API收入同比增长超过30倍,付费客户数增长20倍。
🌍 智谱的C端产品“智谱清言”吸引超过2500万用户,预计付费功能将带来千万级收入。
8、Meta 推出开源AI试衣模型 Leffa:保留更多细节
Meta最近推出了Leffa,一个开源的AI虚拟试穿框架,旨在通过生成新图像提升用户的穿衣体验。用户只需上传一张参考图片,系统便能生成新的穿搭效果,减少了因不合适而退换货的麻烦。Leffa在保留细节和减少图像失真方面表现出色,提供了更自然的试穿效果。
【AiBase提要:】
🌟 Leffa 是 Meta 推出的开源虚拟试穿框架,可以根据参考图像生成新图像。
👗 该框架能有效减少图像失真,保留更多细节,提高虚拟试穿体验。
💻 用户可在 Hugging Face 平台上试用 Leffa,同时 Meta 提供了完整的项目代码。
详情链接:https://github.com/franciszzj/Leffa
9、Diffusion-Vas:追踪视频目标,可补全遮挡部分
在视频分析领域,物体的持久性是理解物体存在的重要线索。研究者提出的Diffusion-Vas方法,基于扩散先验,旨在提升视频无模态分割和内容补全的效果。该方法分为两个阶段,首先生成无模态掩码,然后利用条件生成模型对遮挡区域进行内容补全。经过多项基准测试,该方法在复杂场景下表现优异,准确率提高了13%。
【AiBase提要:】
🌟 研究提出了一种新方法,通过扩散先验实现视频中的无模态分割和内容补全。
🖼️ 方法分为两阶段,首先生成无模态掩码,然后进行遮挡区域的内容补全。
📊 在多项基准测试中,该方法显著提高了无模态分割的准确性,尤其在复杂场景下表现优异。
详情链接:https://diffusion-vas.github.io/
10、Meta智能眼镜Ray-Ban Meta升级:实时AI视频与翻译功能
Meta公司对Ray-Ban Meta智能眼镜进行了重要更新,推出了多项基于人工智能的新功能,包括实时对话和语言翻译。这些功能使用户能够与AI助手进行更自然的交流,无需频繁唤醒助手,同时也支持多语言即时翻译,极大提升了用户的沟通便利性。此外,眼镜还新增了Shazam功能,用户可以通过语音识别音乐。
【AiBase提要:】
🌟 Ray-Ban Meta智能眼镜推出实时AI视频和翻译功能,用户可随时与AI助手对话。
🌍 新增的实时翻译功能支持多种语言之间的即时翻译,提升了用户交流的便利性。
🎵 眼镜还支持Shazam功能,用户可通过语音识别当前播放的音乐。
11、博通CEO预测AI市场大爆发 公司市值突破1万亿美元
博通公司首席执行官Hock Tan在最近的财报电话会议上对AI芯片市场表达了乐观的展望,预计到2027年,博通在这一领域的收入将显著增长,服务可寻址市场预计在600亿至900亿美元之间。公司市值因AI芯片需求激增首次突破1万亿美元。
【AiBase提要:】
🌟 博通预计到2027年AI市场服务可寻址市场将达到600亿至900亿美元。
📈 博通市值因AI芯片需求激增首次突破1万亿美元。
💰 通过收购VMware,博通整体收入增长达51%,且运营成本大幅降低。
12、金山办公:WPS AI将免费解锁AI生成PPT等四大功能
金山办公宣布WPS AI将在年终期间为用户提供四项免费功能,旨在提升工作效率和创意。用户可以使用AI生成PPT、风格克隆、滤镜等功能,快速制作专业的年终总结PPT。此外,WPS还提供多样化的PPT模板,满足不同用户需求。
【AiBase提要:】
🎉 WPS AI将免费解锁AI生成PPT、风格克隆、滤镜和模板功能,提升用户工作效率。
🖼️ AI生成PPT功能可快速生成专业PPT,智能润色内容,保持逻辑和设计美感。
📋 用户可通过“AI总结季”参与活动,获取丰富的年终总结PPT模板,满足不同行业需求。