最近,一位国外的科技达人进行了Flappy Bird游戏的编程测试,对比了多款前沿的大型语言模型(LLMs),包括QwQ 32b、O1 Pro、Claude Sonnet 3.7、ChatGPT 4.5和Deepseek R1等。测试结果显示,这些AI模型在生成Flappy Bird游戏代码方面的表现各有千秋。
测试内容要求AI模型使用Python和pygame库来编写游戏,并且需要包含一些特定的游戏元素,如随机背景颜色、可加速的鸟、随机形状和颜色的鸟、随机颜色的管道和地面等。令人惊叹的是,QwQ 32b在4090显卡上运行时,尽管输出14,000个思考词汇,但最终生成的代码功能完善。Claude Sonnet 3.7和O1 Pro也提供了简洁而有效的版本。
然而,测试并非所有AI都能一次成功。ChatGPT 4.5的版本出现了地面闪烁的问题,而Deepseek R1的管道设计有些问题,导致游戏无法正常进行。但这些都是单次测试的结果,并不代表这些模型的真实能力。
通过这次测试,我们可以看到AI在实际应用中的表现差异。Claude Sonnet 3.7 Extended被认为是目前最优秀的模型,而QwQ 32b虽然速度较慢,但其能力令人印象深刻。值得一提的是,这次测试不仅展示了AI在游戏开发上的潜力,还为我们提供了一个了解不同模型性能的窗口。
如果你对AI在游戏开发中的应用感兴趣,不妨关注这个测试。或许在未来,我们会看到更多游戏的测试结果,甚至形成一个可玩的AI测试套件。