AI 编程模型唱反调系列之 Doubao-Seed-Code: 又是一个跑分没输过,实战没赢过
作者:微信文章今天,字节跳动发布了豆包编程模型,Doubao-Seed-Code。
Doubao-Seed-Code 是一款专为 Agentic Coding 任务深度优化的全新代码模型。它为真实的、复杂的编程任务而设计,在长上下文理解、任务规划、代码生成与调试方面均有卓越表现。
https://www.volcengine.com/activity/codingplan
各大科技自媒体和 AI博主纷纷转发推荐,号称:在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等主流测评集中表现出色,仅次于 Claude Sonnet 4.5,碾压国内模型。
以上内容均为从其他自媒体 copy 而来,本人非专业人士无法评论!
本人运行了一些常见的测试用例,按照惯例,先说结论:
使用 Trae CN 测试了一下 Doubao-Seed-Code,可以说是国内模型中编程能力排名靠后的,绝非碾压国内模型。
和 GLM-4.6 差距较大,和 kimi-k2-thinking、minimax-m2 都有一定差距,有些测试情况下连 DeepSeek-v3.x 都不如,可 DeepSeek-v3.x 人家没号称编程能力有多少多少强。
个人感觉和快手 kat-Coder 差不多水平,都是跑分不错,实战能力一般。
2048 游戏
开发一个基于HTML5和原生JavaScript的2048游戏,需满足以下要求:
1) 完全使用原生JavaScript实现,不引入任何第三方库;
2) 实现鼠标拖拽操作支持四个方向滑动(左、右、上、下),要求拖拽方向识别准确;
3) 完整游戏逻辑包括:数字方块合并规则(相同数字碰撞时合并为它们的和)、实时得分计算、胜负条件判断(达到2048获胜/无法移动时失败);
4) 响应式布局适配从手机到桌面的各种屏幕尺寸;
5) 丰富的视觉反馈:平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框。
界面设计采用简约现代风格,必须包含:实时分数显示区域、重新开始按钮。所有代码需有良好的注释说明关键逻辑。
特别注意:移动任意方向,tile 应与背景格完美重合,颜色和尺寸对齐速度
速度适中,统计了一下,7 分钟左右。
效果
1. UI 效果较好,没有出现 DS-v3.x 那种数字方块和背景格不对齐的问题。2. 合并后的数字有可能显示不出来,新生成的数字方块也有可能不显示出来。3. 鼠标移动有可能识别不出来,需要键盘移动。
这个测试用例,目前基本上模型都能实现不错的 UI 效果,主要考察游戏逻辑和交互的完整性。doubao-seed-code 在这方面表现一般。
俄罗斯方块
写一个网页版本的俄罗斯方块小游戏。
游戏目标:
创建一个经典的俄罗斯方块游戏,玩家需要通过旋转、移动方块,将它们排列成完整的水平行以消除得分,同时避免方块堆积至顶部导致游戏结束。
功能需求:
方块生成与下落:
随机生成七种经典方块(I、J、L、O、S、T、Z)。
方块应按照固定速度自动下落,玩家可以通过按键加速下落。
方块到达底部或被其他方块阻挡时停止移动。
玩家操作:
移动:玩家可以使用键盘(左、右箭头键)控制方块左右移动。
旋转:使用上箭头键旋转方块。
加速下落:使用下箭头键加速方块下落。
暂停/继续:使用空格键暂停或继续游戏。
行消除与得分:
当一行或多行被完全填满时,这些行应自动消除,并增加玩家的得分。
消除的行数越多,得分越高(例如:单行得100分,双行得300分,三行得600分,四行得1000分)。
游戏结束判断:
当新的方块无法在顶部生成(即方块堆积至顶部)时,游戏结束。
显示最终得分,并提供重新开始的选项。
界面设计:
游戏区域应为一个矩形网格,方块在网格内移动。
显示当前得分、下一块方块的预览。
提供简洁的用户界面,包括开始、暂停、结束按钮。
技术实现:
语言选择:使用JavaScript(HTML5 Canvas)。
数据结构:使用二维数组表示游戏网格,存储方块的布局信息。
动画效果:实现方块的平滑移动和旋转动画。
扩展功能(可选):
添加背景音乐和音效(如方块落定、行消除的声音)。
实现多级难度,随着游戏进行逐渐加快方块下落速度。
提供排行榜功能,记录玩家最高得分。效果
空格键暂停功能没有实现,按空格键变成快速下落。
这个俄罗斯方块实现,包括 GLM-4.6、DeepSeek-v3.x、kimi-k2(不带 thinking 版本)在内,都实现的很不错,UI 和逻辑都非常完美。只有 kat-coder 和 Doubao-Seed-Code 这两个模型实现的效果比较差,实战能力一般。kat-coder 的效果就更差了,直接没法运行。音乐播放器
创建一个"音频可视化播放器"的网页,将音乐转换为可视化的条形图效果
这个是唯一测试没有问题的,效果还可以,UI 和其他模型出来的有一些差别。
kimi-k2-thinking 效果如下:
UI 上功能会多一些。
GLM-4.6 效果如下:
总结
个人觉得国内模型 AI 能力推荐:
1. GLM-4.5/4.6:能力还是处于国内领先水平,应该比较接近 sonnet 4.0 的水平,可以处理一些相对不是特别复杂的编程任务。2. kimi-k2-thinking:带 thinking 的版本,编程能力有明显提升,但是速度太慢,带 Turbo 的版本速度是快,但是价格太高,性价比就下降了。3. minimax-m2:编程能力还不错,速度也快,价格便宜,但是稳定性可能稍差一些。4. Doubao-Seed-Code / kat-coder:跑分还可以,实战能力一般。
其他模型表现相对较弱。
以上仅个人观点,如有不同看法,欢迎留言讨论!
对 AI 编程有兴趣的小伙伴,可以关注个人公众号:燕十三的嵌入式AI之旅
可以扫码加微信群一起分享交流:
由于微信群超过200人只能手工加人,想加入微信群的小伙伴可以加我微信 flyingcys,拉你进群。
过往国产模型测试文章,有兴趣的可以点击:AI 编程模型唱反调系列之 kimi-k2-thinking :又慢又贵,性能有提升但是还不够强大
又一开源 AI 编程模型 MiniMax-M2 发布,编程能力与 GLM-4.6 有一点差距,但值得试试,因为价格便宜
快手 72B 拿下开源编程模型第一???又是一个跑分没输过,实战没赢过,国内开源模型编程还是 GLM-4.6
最新 Qwen3-Max-Preview 模型编程能力测试
最新 kimi-k2 0905 模型编程能力还需努力
AI 编程实战之 DeepSeek-V3.1 编程能力还不太行,但应该是一个新的起点
AI 编程实战之国产编程模型 PK(qwen3-coder VS kimi-k2 VS GLM-4.5)
页:
[1]