0
联系电话:4001-158-698EN

公司新闻 行业动态 产品知识

C17官方网站-C17(中国)-「双线实测」Qwen 3.6

雷峰网讯 你可以从同事.skill 的爆火中看到两种大相径庭的时代情绪,其一当然是对于 Markdown 文件“年夜变活人”这一魔幻实际的试探,而背面则是如今对于模子能力的评价,已经经离不动工作级使命的场景。

“AI 能不克不及替换步伐员”的须生常谈之下,今天的真问题是,国产年夜模子能于多年夜水平上接受开发事情流。

这暗地里是一个被重复验证的痛点:当 AI Agent 被放进真实项目,它并无想象中那末“能扛活”。它能最先使命,但履行历程重复中止,多轮对于话后上下文丢掉,成果先后纷歧致。面临非尺度需求时,东西挪用也几次掉误。你一醒觉来,发明流程早已经卡死,尺度终局老是云云。

问题的泉源不于 Agent 的外壳,而于底层年夜模子自己还有缺少不变靠得住的“履行力”及“决议计划力”。

4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,于 Terminal-Bench 2.0 编程测试中逾越了 Claude Opus 4.5,拿下全世界编程模子榜首。

但咱们决议换一种更靠近真实场景的方式测一次,不消单点的 Benchmark,而是用两套真实繁杂使命,笼罩“决议计划”与“履行”两条能力轴,周全评估 Qwen 3.6-Plus 的智能体能力上限。

01焦点实测——“双线”查核:

繁杂决议计划 × Agentic Coding

实际中高价值的事情级使命,往往是多因素、多步调、有约束、有危害,及“一步到位”的 ChatBot 对于模子有着彻底差别的能力需求。是以,年夜模子从“谈天东西”酿成真实的智能体,繁杂决议计划能力是一个分水岭。

于本次测评中,咱们选择智能体决议计划与智能体编程两个高难度、高价值场景,构建了双线查核系统,查验模子于真实繁杂使命中的自立计划、动态决议计划与工程落地能力:

▎case1 教诲鼎新试点方案设计:繁杂计划与实际决议计划

咱们采器具备自动履行能力的代表性智能体框架 OpenClaw 举行测试,于教诲鼎新配景下要求模子设计切近真实场景的繁杂计划使命,从而体系评估模子于方针理解、使命拆解、路径计划、方案细化与履行决议计划等全流程环节中的体现。

这不是一道作文题,咱们设计的使命难度远超凡规:

代码块

某市教诲局规划于 6 个月内,为 20 所公立中学试点部署一套“AI 进修助手”体系,帮忙学生举行课后答疑、个性化训练及进修反馈。

已经知前提以下:

- 总预算上限为 800 万元人平易近币

- 试点黉舍中,城区黉舍 8 所,县镇黉舍 12 所,数字化基础差异较着

- 部门西席担忧 AI 会增长备课及治理承担

- 家长对于在学生数据隐私、着迷利用、以和谜底依靠问题存于挂念

- 教诲局要求项目不克不及较着扩展差别地域、差别家庭配景学生之间的教诲差距

- 项目必需于放学期最先前完成首轮部署,且不克不及分外持久新增年夜量体例

- 若试点效果优良,将来 2 年内将思量扩展到全市 200 所黉舍

请你作为项目参谋,完成一份试点实行方案。你的回覆至少需要包括:

1. 问题界说

2. 方针与约束拆解

3. 6 个月试点方案

4. 公允性与危害节制

5. 评估系统

6. 是否扩展到 200 所黉舍的决议计划尺度

分外要求:

- 明确申明要害假定

- 至少提出 2 个备选方案,并注释保举理由

- 表现短时间可落地性与持久可扩大性的均衡

- 只管即便给出可履行机制,而不是只讲原则

增补前提:试点最先 2 个月后,媒体报导某校学生过分依靠 AI 完成功课,激发家长争议;同时尚有 3 所县镇黉舍反馈收集与终端前提不足,现实利用率远低在城区黉舍。请于原方案基础上动态调解你的计谋。

使命要求模子输出:问题界说、方针约束拆解、6个月试点方案、公允性危害节制、评估系统、是否扩展的决议计划尺度,以和要求至少2个备选方案并申明保举理由。

这磨练的不是文字天生能力,而是真实的“使命拆解与构造履行”能力。一般模子很轻易输出一堆浮泛的计划方案,且极难把控资源分配与详细使命拆解,看看 OpenClaw 于 Qwen3.6-Plus 模子下是怎么完成事情的:

1.繁杂问题布局化拆解

把恍惚需求快速转化为问题界说、方针分层、约束清单、预算分配、时间线、评估系统等完备框架,逻辑周密、层级清楚,全程无标语废话,表现专业级繁杂决议计划与使命拆解程度。

2.多约束下精准资源均衡

于 800 万预算、6 个月周期、城乡差异、西席承担、公允底线、无新增体例等多重强约束下,给出可履行、可量化、可评审的落处所案,预算一分不差、资源向县镇歪斜,统筹效率与公允。

3.动态危害应急与迭代决议计划

面临试点第 2 个月舆情危机 + 县镇装备收集不足双突发事务,模子快速给出应急相应、功效调解、预算内部调剂、部署重排,做到不超预算、不延期、闭环解决,揭示真实智能体动态决议计划能力。

4.全周期计划与范围化扩大思维

Qwen3.6-Plus 不仅完成为了 6 个月试点设计,还有同步给出试点范围扩大至 200 所黉舍的 Go/No-Go 硬尺度、三阶段扩大路径、成本优化机制,从架构、轨制、职员、数据全方面预留接口,短时间可落地、持久可扩大,思维闭环且专业。

可以看到,Qwen3.6-Plus 于本次当局级繁杂决议计划使命中,交付了完成度极高的方案,这暗地里是高程度的方针理解、全链路计划、动态危害应答、多约束均衡能力,恰是咱们对于智能体于面临繁杂决议计划时所期待的。

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?▎case2 AI TODO Board 全流程开发:Coding 能力查核

假如说 case1 是考查繁杂场景的决议计划能力,那末 case2 则偏重在 Qwen3.6-Plus 于 Coding 使命中的工程闭环程度。

咱们采用开源智能编程东西 OpenCode 举行测试,重点考查模子是否具有从需求理解到完备项目交付的全链路工程实现能力。评估内容不仅包括终极项目是否可运行、功效是否完备有用、代码布局是否清楚合理,还有笼罩模子于编程全流程中的要害能力,使命拆解、实现路径计划、阶段性决议计划、测试与调试、问题定位与修复,以和基在反馈连续迭代并收敛到可用成果的能力。

# Coding Evaluation Task

你是一个高级软件工程 Agent,请完成一个可运行的 **TODO** 项目,并表现完备闭环能力:需求理解、使命拆解、实现计划、编码、测试、修复、交付。

使命:开发一个 **AI TODO Board**,让用户经由过程天然语言创立 TODO,于看板中治理状况,并经由过程 AI 气势派头能力主动拆解子使命、辨认优先级、提醒危害及下一步动作。

技能要求:Next.js 15+ 或者 React + Vite,TypeScript,Tailwind CSS,可以使用 shadcn/ui 或者 Radix UI,测试利用 Vitest / Jest + Testing Library,可以使用 mock 数据,不要求真实后端。

功效要求:实现三列 TODO 看板 Todo、Doing、Done;每一个 TODO 卡片至少包罗标题、描写、优先级、截止时间、标签、子使命择要、完成进度;撑持状况流转,可拖拽,如不利用拖拽需提供合理替换交互。提供天然语言输入框,例如“明全国午前完成雇用首页改版,包罗 Hero、岗亭列表、FAQ,优先级高”,体系需主动提取标题、解析时间、揣度优先级、天生 3–5 个子使命,并答应用户于提交前编纂。右边提供 AI Assistant 面板,撑持 TODO 拆解建议、危害提醒、下一步建议、过期提示。需要撑持搜刮、按优先级筛选、仅看过期、快速标志完成、空状况、加载态、过错态。

UI / UX 要求:暗色模式优先,现代、精美、将来感 SaaS 气势派头,有较着层级、留白、卡片质感及细微动效,桌面端完备可用,挪动端基本可用,不克不及是脚手架默许后台气势派头。

你必需输出:1. 需求理解,2. 实现规划,3. 项目布局,4. 焦点代码,5. 测试代码,6. 修复历程,7. 运行申明,8. 衡量与不足。

必需测试:天然语言解析函数、创立 TODO 流程、TODO 状况切换逻辑、筛选逻辑。

实现后继承修复并申明历程:挪动端横向溢出,输入“明天”不时间解析不不变,Done 列 TODO 许多时滚动体验差,筛选后状况切换致使列表显示异样;你需要申明怎样定位问题、怎样修改、怎样验证修复乐成。

你还有将收到一张参考 UI 截图,请阐发其结构、层级、配色、间距、组件瓜葛,并高保真复刻该页面,申明哪些部门彻底复刻,哪些部门做工程化折衷,然后基在截图继承修改代码直到只管即便靠近。

不要只写思绪,必需给出可运行代码、测试代码、修复后的终极实现。

这不是一个能靠蛮干硬生生“写”出来的使命。

开发一个 AI TODO Board,需实现三列看板(Todo、Doing、Done),撑持天然语言创立 TODO 并主动提取标题、时间、优先级、子使命,还有要提供 AI Assistant 面板举行拆解建议及危害提醒,撑持搜刮、筛选,输出完备实现规划、项目布局、焦点代码、测试代码、修复历程申明。

传统年夜模子于这类场景下,纵然外貌上能完成交付,也往往难以现实运行。可是 Qwen3.6-Plus 体现患上像是一名很是老道的架构工程师及 UI 设计师。

1.全流程闭环开发,使命计划与及时进展可视化

项目启动阶段,Qwen3.6-Plus 起首举行了需求拆解,精准掌握 AI TODO Board 开发的焦点技能,还有制订了包罗 16 个步调的清楚实现规划。从项目初始化、依靠安装,到焦点功效开发、测试编写,再到问题修复,这套方案可以直接交给工业级软件工程团队去履行,并且每一一步均以可视化进度条及时出现进展。

开发历程中,模子严酷遵照软件工程规范,像专业的开发团队同样,依次完成为了从使命拆解到测试交付的全链路环节,不仅实现了测试用例全数经由过程,还有针对于挪动端横向溢出、时间解析不不变、滚动体验差等焦点问题举行体系性修复,确保项目从原型到制品的平稳落地。

值患上留意的是,于开发办事器启动、当地部署等环节 Qwen3.6-Plus 均一次乐成,交付效率远超凡规开发流程。

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

2.代码迭代与精准返修,工程化能力拉满

于代码实现阶段,Qwen3.6-Plus 揭示出扎实的技能功底与严谨的代码迭代逻辑。针对于项目焦点模块,模子完成为了从组件设计到状况治理的全栈开发:

▪基在 Radix UI 与 shadcn/ui 搭建现代化 UI 组件库,打造沉浸式暗色 SaaS 气势派头界面;

▪开发天然语言解析器,实现中英文时间、优先级智能提取与子使命主动天生;

▪使用 Zustand 完成 TODO 状况治理,撑持拖拽流转、搜刮筛选、过期提示等全功效;

返修是软件工程不成防止的环节,可否精准定位问题地点举行针对于性修改,再完成验证的闭环,是模子于事情级使命中碰面对于的真实磨练。于 AI TODO Board 的开发中,Qwen3.6-Plus 也有着不俗的体现。

挪动端横向溢出问题,经由过程调解容器宽度与结构属性解决,优化时间解析逻辑,同一利用 UTC 时间处置惩罚防止解析误差,替代滚动组件晋升 Done 列年夜数目场景的滚动体验,重构筛选逻辑消弭状况切换后的显示异样……

每一一次修复均配套新增测试用例验证,确保问题完全解决且不引入新 bug。这些历程都是由模子自立完成,我看到的,只有开发日记里一行行清楚可追溯的记载。

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

3.高保真 UI 复刻与功效全笼罩,交付质量达标

原生多模态能力使患上 Qwen3.6-Plus 能严酷参考 UI 截图完成高保真复刻,于结构层级、配色气势派头、组件交互上高度还有原设计要求。

于功效层面,交付结果也彻底笼罩需求。运用撑持天然语言输入,可主动提取标题、解析时间,然后天生 3-5 个子使命且撑持编纂;AI 助手面板提供拆解建议、危害提醒等能力;搜刮、优先级筛选、过期查看等实用功效也一一实现。终极交付的项目,可直接当地部署运行,界面与功效均到达预期交付尺度。

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

4.极致测试与问题闭环,质量把控系统完美

测试环节是模子交付的焦点亮点之一。Qwen3.6-Plus 针对于焦点模块编写了全笼罩测试用例,包括 23 个天然语言解析测试、14 个状况治理与流程测试,周全验证天然语言解析、TODO 创立、状况切换、筛选逻辑等焦点功效的不变性。

于修复环节,模子针对于每个袒露的问题均完成为了 “定位 - 修改 - 验证” 的全流程,新增边沿测试用例确保修复效果的不变性,终极实现项目零焦点 bug、测试全经由过程的高质量交付状况。

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

固然,测试案例也袒露了 Qwen 3.6-Plus 不不变的一壁。于实测中咱们不雅察到了较着短板:

▪ 首字延迟(TTFT):免费预览版首字呈现时间有时高达11秒,于需要快速反馈的场景下会粉碎开发者心流

▪偶发性输出轮回(Looping):于极高繁杂度使命中,模子有时会堕入反复输出统一段内容的轮回

▪API频率限定较严酷:Rate Limit 于高频Agent主动化使命中轻易触发,可能中止长流程履行

▪安全界限能力不足:于安全相干使命(权限治理、加密实现)上乐成率仅为43.3%,不建议于触及高安全级另外主动化流程中零丁利用

但两项测试完成后,一个感触感染仍旧很清楚,Qwen 3.6-Plus 似乎一支完备的团队,于使命计划、代码迭代及问题精准修复上,体现出了工业级软件工程的交付水准。

02Agentic Coding 的工程高地

Qwen 3.6-Plus 的尤其的地方于在,双线并行的格式初次于国产模子中呈现。过往国产模子往往只于某一维度上凸起,能写代码但决议计划弱,能计划但履行崩,但工业级 Agentic Coding 需要的偏偏是两者兼具。Qwen 3.6-Plus 做到了这一点,于编程智能体及繁杂流程决议计划两条阵线上同时迫近第一梯队:

▪Terminal-Bench 2.0:61.6分,逾越Claude Opus 4.5(59.3),于shell操作、文件治理、进程节制等硬核终端使命上,它是今朝最强的模子之一;

▪Claw-Eval:58.7分,极靠近Claude Opus 4.5(59.6),于真实世界多步Agent使命中进入第一梯队;

▪Claw-Eval:58.7分,极靠近Claude Opus 4.5(59.6),于真实世界多步Agent使命中进入第一梯队;

▪ SWE-bench Verified:78.8%,处置惩罚年夜大都企业级Bug修复及代码重构已经绰绰有余;

▪成本:输入¥2/M,输出¥12/M,约为Claude的1/10;

「双线实测」Qwen 3.6-Plus,Agentic Coding 已经这么能「扛活儿」了?

这象征着甚么?

于 Terminal 操控及东西挪用上的领先,使 Qwen 3.6-Plus 成了当前最合适丢进 OpenClaw 这种 Agent 框架中“跑起来”的国产模子。不是辅助写代码,它真的能做到像你的 AI 开发搭档那样,驱动产物长出来。于 Coding 赛道已经经成为一片红海的今天,Qwen 3.6-Plus 再一次让软件开发的门坎降了一截。

从被挪用的东西到履行使命的介入者,当模子脚色的这一转型更加成为各年夜厂商的共鸣,咱们看到阿里做出了本身的选择。Qwen 3.6-Plus 的战略定位并不是万能型选手,更像是专攻 Agentic Coding 这一垂直场景的作品。暗地里的缘故原由不难理解,当基础模子的能力趋在同质化,可否于真实工程情况中自立完成使命已经经成了最主要的竞争高地。

03模子层,走向参数效率之争

更值患上留意的地方于在,Qwen 3.6-Plus 于参数效率上体现出了显著的上风。横向对于比,GLM-五、Kimi-K2.5 等模子的参数目均是其 2-3 倍。

用更少的参数实现更好的机能,这于年夜模子此前遍及以参数范围换智能程度的配景下,可以被视为一种全新的范式转移。

比起小模子的“让步”,一个愈来愈没法轻忽的视角是,年夜模子的贸易化正于从头界说 AI 机能的尺度。模子练习、推理一贯以重投入的脸孔示人,也瓜熟蒂落地成了年夜模子贸易化的瓶颈,而更高的参数效率会让模子厂商于上述范畴拥有名贵的竞争力。

Benchmark 仍成心义,但今天单元成本下的有用智能更能申明问题。于当前的技能脉络中,参数效率,已经经成了模子范围化落地的钥匙。

雷峰网(公家号:雷峰网)文章

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-C17官方网站-C17(中国)
1210
在线客服
在线客服

Maggie

微信咨询

黎小姐