AI编程大比拼：FlappyBird

最近，一位国外的科技达人进行了Flappy Bird游戏的编程测试，对比了多款前沿的大型语言模型（LLMs），包括QwQ 32b、O1 Pro、Claude Sonnet 3.7、ChatGPT 4.5和Deepseek R1等。测试结果显示，这些AI模型在生成Flappy Bird游戏代码方面的表现各有千秋。

测试内容要求AI模型使用Python和pygame库来编写游戏，并且需要包含一些特定的游戏元素，如随机背景颜色、可加速的鸟、随机形状和颜色的鸟、随机颜色的管道和地面等。令人惊叹的是，QwQ 32b在4090显卡上运行时，尽管输出14,000个思考词汇，但最终生成的代码功能完善。Claude Sonnet 3.7和O1 Pro也提供了简洁而有效的版本。

然而，测试并非所有AI都能一次成功。ChatGPT 4.5的版本出现了地面闪烁的问题，而Deepseek R1的管道设计有些问题，导致游戏无法正常进行。但这些都是单次测试的结果，并不代表这些模型的真实能力。

通过这次测试，我们可以看到AI在实际应用中的表现差异。Claude Sonnet 3.7 Extended被认为是目前最优秀的模型，而QwQ 32b虽然速度较慢，但其能力令人印象深刻。值得一提的是，这次测试不仅展示了AI在游戏开发上的潜力，还为我们提供了一个了解不同模型性能的窗口。

如果你对AI在游戏开发中的应用感兴趣，不妨关注这个测试。或许在未来，我们会看到更多游戏的测试结果，甚至形成一个可玩的AI测试套件。

玩酷网

知常久