Google 最近发布新一代模型:Gemini 2.0,这是Google迄今为止功能最强大的模型。借助多模态性的新进展,如原生图像和音频输出,以及原生工具的使用,这将使用户能够构建新的 AI 代理,让人们更加确信通用人工智能的实现。

Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

Gemini 2.0 Flash 现已作为实验模型通过Google AI Studio和Vertex AI中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,更多功能需要进行会员升级。

Gemini 2.0 Flash 比 1.5 Pro 更强大。它还在关键基准上改进了多模式、文本、代码、视频、空间理解和推理性能。改进的空间理解功能可以更准确地在杂乱图像中的小物体上生成边界框,并更好地识别物体和添加字幕。

用户将能够使用 Gemini 2.0 Flash 生成集成响应,这些响应可以包含文本、音频和图像 — 只需调用一次 API 即可完成。
多语言原生音频输出: Gemini 2.0 Flash 具有原生文本转语音音频输出功能,开发人员不仅可以精细控制模型的发音内容,还可以控制发音方式,同时还有 8 种高品质声音和多种语言和口音可供选择。
原生图像输出: Gemini 2.0 Flash 现在可以原生生成图像并支持对话式多轮编辑,因此可以在之前的输出基础上进行构建和优化。它可以输出交错的文本和图像,这使其在食谱等多模式内容中非常有用。
可以直接在对话框中,让人工智能进行 ps,大大节省了时间。

不就可以把轿车修改成敞篷跑车,还可以修改颜色,简直是 ps的高手,后期修改图片直接跟人工智能聊天就行了。

除了通过函数调用自定义第三方函数外,Gemini 2.0 Flash还可以原生调用 Google 搜索和代码执行等工具。原生使用 Google 搜索作为工具可获得更真实、更全面的答案。也可以并行运行多个搜索,从而通过同时从多个来源查找更多相关事实并将它们结合起来以提高准确性,从而改善信息检索能力。

使用Gemini 2.0 API现在可以使用来自摄像头或屏幕的音频和视频流输入来构建实时、多模式应用程序。支持自然对话模式,如中断和语音活动检测。该 API 支持将多个工具集成在一起,以通过单个 API 调用完成复杂的程序。

现在可以直接在 Google AI studio 上面在线使用Gemini 2.0 flash,完全免费,其他高级的功能需要成为付费用户。
https://aistudio.google.com/https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/