服务于全球各领域电子制造客户
公司新闻 行业动态 产品知识
5月8日凌晨,baidu搭子DuMate登顶智能体评测基准PinchBench榜首,并于前5位中盘踞3席,逾越Anthropic及OpenAI拿下全世界龙虾履行争霸赛冠军。于别的一项DeepResearch深度研究榜单中,DuMate一样位列第一。
PinchBench是OpenClaw赛道最能表现Agent真实事情能力的评测基准,重点考查Agent于23个真实事情场景下147个使命的多步推理、东西挪用及使命闭环能力,并从乐成率、速率、成本三个维度综合排名。榜单显示,DuMate以93.3%及93.2%的总成就包办前两名。作为比照,Anthropic及OpenAI的同款模子场景下的成就别离为89.0%及91.6%。这象征着,统一模子于DuMate框架中,揭示出更强的履行力。
逾越原生体现的技能基础,是DuMate的端云协同Harness架构。该体系于使命达到时举行用意辨认及敏感度判定,隐私相干操作留于当地履行,繁杂推理使命上云完成,无需用户手动切换。同时,体系对于每一次履行所需的上下文做按需组装——按照使命语义及用户汗青举动,预判并注入须要的配景信息,削减冗余滋扰。Harness与Skills还有基在汗青履行轨迹连续迭代,使患上差别底层模子都能于靠近其能力上限的状况下不变运行。
DeepResearch Bench是当前对于深度研究型Agent最周全的评测基准,从洞察深度、内容正确性、可读性等维度考查Agent处置惩罚繁杂研究使命的综合能力。DuMate以58.03的综合分位列第一,支撑这一成就的是DuMate自研Skills系统中的Deep Search与Deep Research双引擎——前者卖力跨平台语义检索与高价值信息定位,后者于此基础上叠加多轮推理与因果阐发,将碎片信息提炼为布局化研究结果。
自2026年3月上线以来,DuMate连结一天一版的更新节拍,已经经由过程信通院两项安全测评且均获最高档级。
雷峰网(公家号:雷峰网)
下一篇【产品推荐】超小型高频同轴连接器u.fl系列
www@C17com官方
Maggie
微信咨询
黎小姐