0
联系电话:4001-158-698EN

公司新闻 行业动态 产品知识

C17官方网站-C17(中国)-1/10Token 消耗干同样的活!Ling

雷峰网(公家号:雷峰网)讯 用户苦Token成本久矣。

“烧了几千块钱的Token,Agent还有是没把活干完”,这也许是第一批尝鲜“养虾”的搞潮儿们最不想面临、却又最常遭受的难堪时刻。

当Agent更加周全地接受事情流,人们于交付效果的衡量中,最先更多地看到效率问题。有时辰它们能自立完成需求阐发、多轮修改,直接交付可用的案牍或者代码,有时辰却于繁杂使命的拆解中,迷掉东西挪用的标的目的。端到真个使命场景,往往会让成本掉控的问题越发凸显。一醒觉来,Token账单几百美元,正事却没干几多。

不少开发者会将之归罪在Agent的架构设计、东西链的完美水平,或者是Prompt工程的深浅。但更底子的抵牾是,年夜模子自己的“履行力”,即高效完成使命的能力,可能远未到达工业级可用尺度。

这不仅指推理质量自己,一个常被轻忽的维度是词元效率(Token Efficiency)。

当传统模子于多轮对于话中不停膨胀上下文窗口、耗损惊人Token时,蚂蚁百灵最新发布的Ling-2.6-flash,却于用一个简朴的主意撬动开发者的留意:更少Token,更快相应、更强履行。

一周前,代号为Elephant Alpha的匿名模子登岸OpenRouter,这恰是百灵模子Ling-2.6-flash的匿名测试版本。上线首日,Elephant Alpha于没有高调预热的环境下,就迅速冲上OpenRouter Trending榜单第2位,日榜第13名,Token利用量日增高达377%,prompt tokens冲破6.11B。

开发者社区对于这一起线的反映,已经经很申明问题。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

01

Token效率成新赛点

官方技能文档先容,Ling-2.6-flsah是一款总参数目104B、激活参数7.4B的Instruct模子,此前经由过程Elephant Alpha展示出的焦点能力,重要来自三方面改造:

▪混淆线性架构,开释推理效率:经由过程引入混淆线性架构,模子从底层优化计较效率,于4卡H20前提下推理速率最快可到达340 tokens/s,Prefill吞吐到达Nemotron-3-Super的2.2倍,以更高的“费效比”完成使命。

▪ Token 效率优化,晋升智效比:于练习历程中,研究团队对于Ling-2.6-flsah的Token效率举行了针对于性校准,力图以更精简的输出完成既定方针。于Artificial Analysis的完备评测中,Ling-2.6-flash仅耗损15M tokens,约为Nemotron-3-Super等模子的1/10,以更高的“智效比”完成使命。

▪面向Agent场景举行定向加强:针对于当前需求最旺盛的Agent运用,Ling-2.6-flash于东西挪用、多步计划与使命履行能力上连续优化,于BFCL-V四、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等评测中,纵然面临激活参数更年夜的模子,依然可以或许取患上相近甚至SOTA级另外体现。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

API订价方面,Ling-2.6-flash输入每一百万tokens订价0.1美元,输出0.3美元,属实属在“白菜价”了。今朝其API办事已经正式向用户开放,并提供了为期一周的免费试用。

单点极限能力的榜首,早已经是你方唱罢我登场,Ling-2.6-flash更值患上存眷的地方于在,它于节制Token耗损的条件下,仍旧维持住了自身于Agent机能之争中的强盛竞争力。多位海外评测者也指出,其输出气势派头与产物体验更靠近“实用型而非纯真强盛”的定位,这与其传播鼓吹的“寻求极致智效比”形成为了某种呼应。

作为第一款主打Token效率的模子,“高智效比”毕竟是营销话术,还有是实打实的能力?咱们第一时间上手了Elephant Alpha,不追峰值能力,不刷榜单分数,而是将它放进真实使命场景中,实测成果措辞。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

02

实测:少便是多,Elephant Alpha实力几何?

▪测试一:基准测试——词元效率(Token Efficiency)基准

为确保客不雅性,咱们以Qwen3.5-122B-A10B (Qwen3.5)及Nemotron-3-Super-120B-A12B (Nemotron-3-Super)作为基准参照,于划一测试前提下举行对于比测试。

咱们设计了三组测试使命:Token效率基准、上下文窗口验证及Function Calling与布局化输出。

此中,Token效率基准涵盖代码天生(4道题)、Bug修复(4道题)、文档择要(3道题)、逻辑推理(5道题)及布局化输出(5道题)五年夜场景,统计各模子的信息留存率与Token耗损。256K的上下文窗口是Elephant Alpha的焦点卖点之一。咱们别离于64K、128K、200K三个长度下测试模子的信息召回能力。

Elephant Alpha的体现怎样呢?先看测试成果:

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

可以看到,Elephant Alpha于评测职员网络的4个Bug修复使命上揭示出显著上风,相对于在Qwen3.5及Nemotron-3-Super乐成修改经由过程3道的经由过程率,Elephant Alpha修改后的代码全数经由过程测试。

更高的信息留存率之下,输出Token反而更少。Elephant Alpha以1,017个Token完成为了Qwen3.5及Nemotron-3-Super别离需要1,539及1464个Token才能告竣的划一信息量使命,节省约50%。于AI落地日趋讲求ROI确当下,这个数字很有份量。

上下文窗口验证方面,三者均实现了100%召回率。受限在测试情况,咱们未能涉及256K上限,但200K级另外不变体现已经经证实了基础能力的靠得住性,足以胜任年夜部门使命场景。

末了,三者于Function Calling测试(纯python情况)中均触发东西挪用,但都只完成为了单步操作(搜刮文件),未完成 读文件→阐发→写入 的三步联贯操作。这一成果提醒咱们,当前的Agent能力界限仍需于详细情况中进一步摸索。

▪测试二:Coding测试——工程能力的真实磨练

太多模子于基础测试中体现亮眼,但一进入真实工程场景,马上拉胯。是以咱们决议给Elephant Alpha再上点强度。

咱们利用开源的opencode东西,将Elephant Alpha放进了一个完备的项目开发流程中:创立一个具有CRUD能力的RESTful API办事,包罗数据库模子设计、路由配置、过错处置惩罚及单位测试。

这项测试考查的是模子的Coding工程能力,不单单是写出片断式的代码,更于在是可否理解需求、设计架构、处置惩罚界限前提,并于呈现问题时回溯修改。

Markdown请实现一个可运行、可测试的`Task` RESTful API办事,要求包罗: - CRUD接口:`POST /tasks`、`GET /tasks`、`GET /tasks/:id`、`PUT /tasks/:id`、`DELETE /tasks/:id` -数据模子字段:`id`、`title`、`description`、`status`、`priority`、`due_date`、`created_at`、`updated_at` -校验与过错处置惩罚 -单位测试 -项目布局申明与运行申明约束: - `title`必填且不克不及为空 - `status`仅答应`pending` / `in_progress` / `done` - `priority`仅答应`low` / `medium` / `high` -不存于资源返回`404` -不法输入返回布局化JSON过错 -必需先做需求阐发及架构计划,再编码 -假如测试掉败或者实现有问题,必需自行修复并申明缘故原由请输出完备项目,而不是零星代码片断。先计划模块,然后慢慢开发,末了测试。展示你的工程化开发、测试与回溯修复能力。

先计划,再“各个击破”。Elephant Alpha理解了“先计划后编码”的要求,于正式实现前进步前辈行了需求拆解及模块设计,从数据模子、路由配置、校验器、节制器到测试框架,形成为了清楚的MVC架构。这申明它不是一上来就堆代码,这类工程化思维,已经经成了模子能于出产级使命中真正落地的门票。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

碰到bug,果断纠正。模块测试历程中碰到了一些“插曲”,代码呈现了Python版本兼容性问题(async语法、PEP 604结合类型写法等),而Elephant Alpha从报错信息中快速定位问题泉源,并自立完成为了代码批改,无需人工参与。

这类“碰到问题→自我批改”的闭环,于传统开发中往往象征着分外的Token耗损,Elephant Alpha也不克不及免俗。但它的改造的地方于在,更高的Token效率象征着它能于更紧凑的上下文中完成批改。对于每个环节的成本都云云砍下一刀,穷年累月,不成小觑。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

测试竣事,不忘收个尾。Elephant Alpha终极交付了一个包罗11个测试用例的完备项目,全数经由过程。它甚至还有天生了清楚的项目布局申明及运行指南——从requirements.txt依靠治理到uvicorn启动号令,从安装到测试运行,一条龙完备交付。

对于在工程师来讲,这类“好头不如好尾”的完成度已经经到达了拿来即用的尺度。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

Elephant Alpha于Coding场景下揭示了三年夜上风:先计划后编码的工程思维、自立批改的回溯能力,以和最主要的,用更少Token完成划一使命的效率上风。对于在需要将AI融入开发流程的团队而言,这三个特质缺一不成。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

03

Token效率重塑AI评价坐标系

假如说已往的年夜模子竞争,是一场“谁的参数目更年夜、谁的Benchmark分数更高”的武备竞赛,那末Elephant Alpha的呈现,则是为这场竞赛斥地了一个新的维度,“一样强悍的智能,但我比你更省”。

没法轻忽的事实是,于Agent慢慢接近真实场景的今天,用户的Token账单也更加承压。守旧预计,一次代码补全使命可能耗损几十Token,一次多轮对于话会烧失数百,一个Agent使命跑下来,这个数字可能就飙升到了数千。当Token成为硬通货,高效就再也不是锦上添花,而是焦点竞争力。

值患上一提的是,于英伟达Nemotron 3 Super的一份陈诉中,还有特意夸大了以蚂蚁此前开源的Ling-flash-Base-2.0及智谱的GLM-4.5-Air-Base做基准。

因而可知,“智效比”正于成为模子Agent场景的通用语言。今后人们再也不问“一次天生质量有多高”,而是“每一Token耗损能换来几多有用产出”。于这个坐标系下,能用600 Token说清晰的事,就不应华侈800。

1/10Token 消耗干同样的活!Ling-2.6-flash 想帮开发者把 AI 成本打下来

这场效率革命的影响,很快就会于财产链上下流发作。

对于开发者而言,更高的Token效率象征着更普惠的智能,它包括更低的挪用成本、更快的相应速率、以和于出产情况中真正可接管的ROI。当AI落地再也不需要“烧钱换体验”,运用的渗入速率将以指数级增加。

而于用户侧,这场效率革命也指向了一种更靠得住的Agent。更少的Token耗损,将直接转化为更紧凑的上下文窗口、更低的幻觉危害、以和更不变的多轮履行能力。只有当模子能于有限上下文中完成更多使命,“上下文膨胀”这个Agent落地最年夜的痛点,才真正有解。

于范围以外,当效率一样成了模子价值的权衡维度,发生于模子层的争取将真正迈上下一个台阶。

雷峰网文章

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-C17官方网站-C17(中国)
1210
在线客服
在线客服

Maggie

微信咨询

黎小姐