【AI 编程模型唱反调系列之 Doubao-Seed-Code: 又是一个跑分没输过,实战没赢过】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-11-11 13:38

AI 编程模型唱反调系列之 Doubao-Seed-Code: 又是一个跑分没输过,实战没赢过

作者：微信文章
今天，字节跳动发布了豆包编程模型，Doubao-Seed-Code。

Doubao-Seed-Code 是一款专为 Agentic Coding 任务深度优化的全新代码模型。它为真实的、复杂的编程任务而设计，在长上下文理解、任务规划、代码生成与调试方面均有卓越表现。

https://www.volcengine.com/activity/codingplan

各大科技自媒体和 AI博主纷纷转发推荐，号称：在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等主流测评集中表现出色，仅次于 Claude Sonnet 4.5，碾压国内模型。

以上内容均为从其他自媒体 copy 而来，本人非专业人士无法评论！

本人运行了一些常见的测试用例，按照惯例，先说结论：

使用 Trae CN 测试了一下 Doubao-Seed-Code，可以说是国内模型中编程能力排名靠后的，绝非碾压国内模型。

和 GLM-4.6 差距较大，和 kimi-k2-thinking、minimax-m2 都有一定差距，有些测试情况下连 DeepSeek-v3.x 都不如，可 DeepSeek-v3.x 人家没号称编程能力有多少多少强。

个人感觉和快手 kat-Coder 差不多水平，都是跑分不错，实战能力一般。
2048 游戏

开发一个基于HTML5和原生JavaScript的2048游戏，需满足以下要求：
1) 完全使用原生JavaScript实现，不引入任何第三方库；
2) 实现鼠标拖拽操作支持四个方向滑动（左、右、上、下），要求拖拽方向识别准确；
3) 完整游戏逻辑包括：数字方块合并规则（相同数字碰撞时合并为它们的和）、实时得分计算、胜负条件判断（达到2048获胜/无法移动时失败）；
4) 响应式布局适配从手机到桌面的各种屏幕尺寸；
5) 丰富的视觉反馈：平滑的滑动动画、合并时的缩放特效、游戏结束时的模态提示框。
界面设计采用简约现代风格，必须包含：实时分数显示区域、重新开始按钮。所有代码需有良好的注释说明关键逻辑。
特别注意：移动任意方向，tile 应与背景格完美重合，颜色和尺寸对齐速度

速度适中，统计了一下，7 分钟左右。
效果

1. UI 效果较好，没有出现 DS-v3.x 那种数字方块和背景格不对齐的问题。2. 合并后的数字有可能显示不出来，新生成的数字方块也有可能不显示出来。3. 鼠标移动有可能识别不出来，需要键盘移动。

这个测试用例，目前基本上模型都能实现不错的 UI 效果，主要考察游戏逻辑和交互的完整性。doubao-seed-code 在这方面表现一般。
俄罗斯方块

写一个网页版本的俄罗斯方块小游戏。
游戏目标：

创建一个经典的俄罗斯方块游戏，玩家需要通过旋转、移动方块，将它们排列成完整的水平行以消除得分，同时避免方块堆积至顶部导致游戏结束。

功能需求：
方块生成与下落：
随机生成七种经典方块（I、J、L、O、S、T、Z）。
方块应按照固定速度自动下落，玩家可以通过按键加速下落。
方块到达底部或被其他方块阻挡时停止移动。
玩家操作：
移动：玩家可以使用键盘（左、右箭头键）控制方块左右移动。
旋转：使用上箭头键旋转方块。
加速下落：使用下箭头键加速方块下落。
暂停/继续：使用空格键暂停或继续游戏。
行消除与得分：
当一行或多行被完全填满时，这些行应自动消除，并增加玩家的得分。
消除的行数越多，得分越高（例如：单行得100分，双行得300分，三行得600分，四行得1000分）。
游戏结束判断：
当新的方块无法在顶部生成（即方块堆积至顶部）时，游戏结束。
显示最终得分，并提供重新开始的选项。
界面设计：
游戏区域应为一个矩形网格，方块在网格内移动。
显示当前得分、下一块方块的预览。
提供简洁的用户界面，包括开始、暂停、结束按钮。

技术实现：
语言选择：使用JavaScript（HTML5 Canvas）。
数据结构：使用二维数组表示游戏网格，存储方块的布局信息。
动画效果：实现方块的平滑移动和旋转动画。

扩展功能（可选）：
添加背景音乐和音效（如方块落定、行消除的声音）。
实现多级难度，随着游戏进行逐渐加快方块下落速度。
提供排行榜功能，记录玩家最高得分。效果

空格键暂停功能没有实现，按空格键变成快速下落。

这个俄罗斯方块实现，包括 GLM-4.6、DeepSeek-v3.x、kimi-k2（不带 thinking 版本）在内，都实现的很不错，UI 和逻辑都非常完美。只有 kat-coder 和 Doubao-Seed-Code 这两个模型实现的效果比较差，实战能力一般。kat-coder 的效果就更差了，直接没法运行。音乐播放器

创建一个"音频可视化播放器"的网页，将音乐转换为可视化的条形图效果

这个是唯一测试没有问题的，效果还可以，UI 和其他模型出来的有一些差别。

kimi-k2-thinking 效果如下：

UI 上功能会多一些。
GLM-4.6 效果如下：

总结

个人觉得国内模型 AI 能力推荐：
1. GLM-4.5/4.6：能力还是处于国内领先水平，应该比较接近 sonnet 4.0 的水平，可以处理一些相对不是特别复杂的编程任务。2. kimi-k2-thinking：带 thinking 的版本，编程能力有明显提升，但是速度太慢，带 Turbo 的版本速度是快，但是价格太高，性价比就下降了。3. minimax-m2：编程能力还不错，速度也快，价格便宜，但是稳定性可能稍差一些。4. Doubao-Seed-Code / kat-coder：跑分还可以，实战能力一般。

其他模型表现相对较弱。

以上仅个人观点，如有不同看法，欢迎留言讨论！

对 AI 编程有兴趣的小伙伴，可以关注个人公众号：燕十三的嵌入式AI之旅

可以扫码加微信群一起分享交流：

由于微信群超过200人只能手工加人，想加入微信群的小伙伴可以加我微信 flyingcys，拉你进群。

过往国产模型测试文章，有兴趣的可以点击：AI 编程模型唱反调系列之 kimi-k2-thinking ：又慢又贵，性能有提升但是还不够强大
又一开源 AI 编程模型 MiniMax-M2 发布，编程能力与 GLM-4.6 有一点差距，但值得试试，因为价格便宜
快手 72B 拿下开源编程模型第一？？？又是一个跑分没输过，实战没赢过，国内开源模型编程还是 GLM-4.6
最新 Qwen3-Max-Preview 模型编程能力测试
最新 kimi-k2 0905 模型编程能力还需努力

AI 编程实战之 DeepSeek-V3.1 编程能力还不太行，但应该是一个新的起点

AI 编程实战之国产编程模型 PK(qwen3-coder VS kimi-k2 VS GLM-4.5)

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 编程模型唱反调系列之 Doubao-Seed-Code: 又是一个跑分没输过,实战没赢过