自从前段时间更新了文章版面后,就经常有家人在 Family 群里夸——
然后就会有人疯狂追问这是不是用 ai 做的——
众所周知,由于夕小瑶太穷,请不起专业的设计师,但由于自身 AI 能力过硬,所以必然要让 AI 来充当这个苦力。
不过,事情的进展并没有止步于此,因为还有很多家人要求出表情包。甚至还有家人直接在评论区逼宫,求插入表情包的。
安排!但我试了一圈市面上国内外各类 AI 工具,把 prompt 调炸了也没有一个能生成出来让我满意的表情包的。这竟然让我犯了难。不是表情控制不到位,就是人物风格不一致。。。
我本以为这事儿可能也就止步于此了。结果恰好这两天受邀参加了火山引擎在上海举办的 Force 原动力大会。
人超级多。。。但这不是重点,重点是,这场大会带来的升级太多了,豆包大模型全家桶升级、火山引擎大模型开发者产品全家桶,有个词儿很合适——
目!不!暇!接!
当我在大会现场恰好听到 AI 应用开发平台「扣子」也迎来重磅升级后——
我脑子的反应就是:
你要是能把我手里这个困扰了我数天的夕小瑶表情包生成的问题解决了,我就承认你没吹牛。
说干就干!
我直接在现场打开了电脑,开始用扣子手撸表情包生成的 AI 应用。
(有没有摄影师小哥哥来投个简历,以后陪我参会拍照的)
首先是在扣子(coze.cn)点“创建应用”的按钮,就能看到这个最新版扣子才有的 Project IDE——
如页面上方所示,这个 Project IDE 分业务逻辑和用户界面,你可以直接理解成 AI 应用的前后端。这里我们先重点关注后端逻辑。而后端的重点,就是要把 AI 应用的工作流给构建出来——
直接点击左上角的新建工作流,你就能看到上图这张巨大的无限画布了,然后在这里面定义各个节点的操作,包括输入输出是什么,中间的处理逻辑、功能调用、prompt 等,都可以在节点里定义。
如果你是技术出身,肯定秒懂;就算非技术出身,跟着官方教程理解一下也很容易上手
在这里,我的重点是先给它一张夕小瑶 IP 的母图,然后将表情关键词设置为输入变量,将表情包风格、人物细节等在表情包中要固定住的元素就写在提示词区域。
你们注意到下面那个“试运行”按钮了吗?这活脱脱不就是程序员 IDE 里面的 Debug 按钮嘛,可以通过这个按钮反复的调试你的提示词和工作流配置,这个迭代的感觉很神奇,有一种在用赛博 IDE 的感觉。
然后就是设置下输入输出,这里可以灵活控制数据流,但我们这个场景很简单,一共就输入-图像生成-输出这 3 个节点就串成了一个最简单的工作流。
至此就完成了整个后端逻辑的搭建。
然后我切换到了上面这个叫用户界面(UI Builder)的位置,一顿拖拉拽,几分钟就把前端搞定了——
不得不说,这个是真的做到了傻瓜式操作,像导航条切换功能页、开关、下拉菜单、数值输入框等常规前端组件全都有,配置下按钮事件就能直接调用后端调用工作流,这个体验不要太奇妙。
尽管这个 UI Builder 刚上线不久,但我觉得这是打开 AI 应用生态的必要环节,有了这个东西后,我们终于不再只有一来一回的对话式交互了。未来的大量 AI 应用,一定像我这个夕小瑶表情包生成器一样,跳出对话范式,比如图生图、图文创作、文件总结等赛道。
至此,一个拥有完整前后端的 AI 应用就这样做完了!
来,看下效果!
what,开局即王炸吗??这表情这么到位的吗??
继续!
输入:害羞,双手捂脸
爱了!继续!
输入:一脸问号
生动!继续!
输入:双手比心
爱..等等,手臂怎么会这么粗,大力水手夕小瑶??
再来再来!
输入:开心大笑,跳舞
这一圈小伙伴也太可爱了叭!(请在公屏上打出请求 C 位出道!
继续!
输入:生气愤怒
等等等等,你刚给我个大力水手夕小瑶我还能忍,这次直接成赛亚人夕小瑶了??
我再给你一次机会!
输入:哭泣流泪
又可以了!
我万万没想到,国产 AI 工具扣子竟然用了 20 分钟解决了我头疼了好几天的 AI 需求。
而且这还是随手一弄,连一行代码都没写,prompt 也没调几版。
我把这个夕小瑶表情包生成器发布到扣子商店了,大家如果跑出来爱了的表情,记得发到 Family 群里呀!
夕小瑶表情包生成器:https://www.coze.cn/s/iUH8RTG4
当然,虽然我现在是发布到了扣子商店里,但我在发布会上惊喜的听到扣子现在竟然还能直接发布为微信小程序、抖音小程序和 H5 网页了!而且升级的文生图模型可以直接出带文字的表情了。
等我明天研究下,发布成小程序后告诉你们!也支持作为模版上架,可以一键复制整个应用进行魔改,而且据说发布模版可以赚钱,这个等我研究好了评论区告诉你们。
实话说,自从我在大会现场把这个表情包生成器做出来后,整个人都注意力集中了!
这个最新版的扣子 1.5 对于 AI 应用开发的完成度实在太高了。重点是,真就解决了连 MJ、DALLE- 3、Image3 都做不好的人物一致表情包生成问题。
我在几个月前玩过扣子,那时候扣子还是个纯文本对话工作流。
如今,扣子的多模态能力升级的实在超出了我的想象,这次大会上新发布的豆包·视觉理解模型、豆包文生图 2.1 和豆包音乐模型,在扣子也都能通过插件的方式第一时间体验到。
甚至,我在会上听说连超低延迟的语音对话 API 都有了,等我做点好玩儿的语音应用出来后,跟你们分享!
除了扣子外,我觉得发布会上的火山方舟,也相当有料,有必要跟你们分享一下。
火山方舟:大模型开发的“瑞士军刀”先科普一下。
扣子可以让没学过编程的人也能开发 AI 应用,那么火山引擎给专业的程序员开发者用的大模型开发服务平台,就是火山方舟。
火山方舟刚发布了一个叫应用实验室的 feature,我觉得挺有用的。
你可以认为,它开源了一套 SDK 和一些企业场景的示例模板,用于在保证灵活性的同时,高效率开发 AI 应用。
更夸张的是,他们直接把这些东西的完整前后端 Python 代码给开放出来了,所以开发者/企业用户就可以直接像用 github 开源项目一样,根据实际需求去进一步 DIY 了。
如果你做过非常复杂的 AI 应用,甚至创过业,你肯定知道我在说什么。这事儿对于适配自己的业务来说是非常 make sense 的。
比如,你要做一个儿童动画生成的 AI 应用,那么你既要用到脚本生成的 LLM 模型,也要动画角色的图像生成模型、视频生成模型、语音生成模型等、视觉理解模型、语音转文本等等一系列 AI 原子能力,现在,基于火山方舟的应用实验室,用它的 SDK 就能在几分钟内搞定了。
这时,如果你对里面一些原子单元的策略细节感到不爽,可以直接深入进去改源代码...
比如,如果你想要加一段背景音乐,那么只需要基于已经开源的代码,插入几行音乐生成的逻辑,就搞定了。
这玩意儿相当于别人替你负重前行了 80% 的路,只要按照自己的意愿走完成剩下的 20% 你就成功了,以后搞开发前先在火山方舟上找模版,幸运的话你只需要完成 20% 就行了。
除此之外,豆包大模型完成了新一轮迭代,全面对齐 GPT-4o,全新的视觉理解大模型,现在在火山方舟平台上也可以无障碍调用,整个豆包家族的模型,单轮对话、多轮对话 + 工具使用、图片理解、续写、视频理解等场景的大模型 API 都囊括其中了。
除了大模型推理、精调、评测等传统的大模型开发链路 API,火山方舟还支持丰富的插件能力、扩展 API 和高代码解决方案。
比如字节系特有的抖音、头条等海量内容,你都能直接从这上面以插件的形式调用。
这一系列的组合拳之后,我觉得大模型“高代码”开发的成本也终于被打下来了。
而且,火山方舟还特别强调了安全性,通过全周期安全可信方案,数据从出用户域到进入方舟安全执行环境,最后到回到用户域这个链路上,数据在方舟不留痕。
作为一名混迹 AI 圈多年的老司机,这次大会给我的最大的感受:惊喜!
不再是模型参数的堆叠和较量,而是这份升级后的开发者体验,又惊喜又有安全感!
想想以前,咱们搞 AI 开发,那可是妥妥的“高门槛”技术活。光是环境配置就能劝退一大波人,更别提什么模型训练、部署、调优了,简直是难上加难。但现在——
人人都能成为开发者。
这次火山引擎 Force 大会开发者论坛,就完美诠释了这一点。从火山引擎总裁谭待的开场演讲,到后面各个产品的详细介绍,都透露出一个核心信息:火山引擎正在构建一个全栈的 AI 开发生态,让不同背景、不同技术水平的开发者,都能轻松玩转大模型!
最后,我想用火山引擎总裁谭待的一句话结尾:
“大模型时代,普通人用 AI 也可以探索日月星辰。我相信未来,每个人都将平等地用上 AI 的能力,探索一切未知 —— 这将是属于全人类的浪漫。”