之前用AI Agent助力完成了10款小项目,有了经验后我就计划写一款多功能多场景的AI翻译助手,经过几天的摸索尝试还真的成功了,今天就把我的成功经验分享给大家。
为什么选择写AI翻译助手呢?
从24年6月左右开始就一直在探索出海之路,但是出海对于别国语言肯定是要看得懂,这就需要用到翻译,接触AI编程后索性那就自己写一款此类的工具,写着写着就想要更多的功能,也就有了现在的这款工具-支持文本翻译,图片/PDF/语音/视频识别后翻译,当然肯定还有很多不足,后面也会一点点迭代。
这款AI翻译助手全部集成AI来完成识别与翻译功能,对于多模态识别肯定会有瑕疵,这是多模态大模型的必经之路,也是我们需要的探索之路。
AI翻译助手的雏形之前写过10款小工具,AI翻译助手的雏形就是基于开源的翻译小工具来一步步增加功能并改善的。
开源的翻译小工具只支持DeepSeek和Qwen两款模型来实现文本翻译,我在此基础上增加了ChatGLM,腾讯混元,Gemini,OpenAI四款模型,现在共有六款模型来实现文本翻译。
当然,只有文本翻译我觉得很单调,我就想到现在多模态模型可以进行图片理解,索性就来尝试下,当时还发推问哪些模型支持图片理解呢?不过可惜没有人为我解答,最后还是我一个人摸索,最后选择了腾讯云的OCR,Gemini,ChatGLM和通义千问,不过效果的确也很不错,没有令我失望。
克服疑难问题有了增加图片识别后翻译的经验后再增加PDF/语音/视频识别后翻译功能就简单许多。
其实增加初步的功能框架很简单,只要一句对话就可以完成,难的是调用API,遇到了很多坑,甚至很多次想过放弃这个项目,最后还是坚持下来了,一步步看官方文档,一步步引导AI Agent来根据文档来实现调用API.
网上也有许多说有了AI编程后,程序员可以下岗了,这完成是扯淡,无稽之谈,目前的AI编程并不能实现自动化写项目,还是需要人工来监督,来引导,很多次AI完全幻觉乱改乱删代码,要不是有了之前的经验,真的可能直接弃用了。
这次的项目写完让我深刻的明白,合理有经验的运用AI Agent可以节省大量的时间与精力,对于新手小白来说AI Agent是学习编程的动力,对于开发者来说AI Agent完完全全是助力。
开源与GitHub为什么这些项目我都选择开源?
其实这些项目都是我在一步步学习编程的见证,代码并没有多么优秀,也都是AI编写我来监督的,所以我选择了完全开源,也希望有共同爱好的小伙伴能一起学习进步!!!
代码我也是发布在GitHub上,之前还傻乎乎的用Git命令上传,后来发现Cursor只要给授权可以一键提交推送,主要的是连Commit Message都可以自动生成。