服务于全球各领域电子制造客户
公司新闻 行业动态 产品知识
作者丨马晓宁
编纂丨岑 峰
这里有一幢年夜楼,叫做深度进修。
已往几年,人们不断地给它加盖、扩建,越盖越高,越盖越繁杂。这幢年夜楼叫 Transformer。盖楼时用了一多量尺度件,浮点精度是它的钢筋,层归一化及残差毗连是它的混凝土,因果掩码是它的承重隔绝距离。阁下还有有两栋附楼:一栋是扩散模子;另外一栋归一化流。于漫长的施工期里,人们不停加装更粗的钢筋、更繁杂的节制体系,以为如许做就能让这几栋楼更安定高峻雅观。可是如许真的是对于的吗?
可此刻,这些施工的收益愈来愈小,而有人于附楼里试出了更好的新零件,量化、去噪、可逆约束都有了更轻巧的替换品。在是,一批施工队同时出场,瞄准这些尺度件开刀。他们不是来修修补补的,而是问一个更底子的问题:这根柱子、这面墙、这套管道,究竟是真承重,还有是只由于一直于那儿以是没人动?
更成心思的是,五支施工队去了差别的楼层。有的于楼体外墙动手,拆失了那些只用来装饰的预制板——那是推理真个精度及定制计谋。有的钻进装备层,从头铺设了管线——那是练习方针的参数化方式。还有有的直接下到地下室,对于着地基里的钢筋动起了年夜锤——那是归一化层及可逆性约束。把它们放于一路看,你会发明一条清楚的递进线:深度进修的 尺度件 正于从外围到焦点,被逐个拆失。
01
开始被质疑的尺度件,是那些看起来最 技能性 的,好比说,浮点精度的矩阵乘法,及针对于差别架构手工调参的量化计谋。这些由于不触及“模子为何能work”的焦点设计哲学,看起来只是优化效率、节省算力,以是最轻易被人当做“平凡的工程优化”。
但 CVPR 2026 的这两篇论文告诉咱们,远不止 模子可以更省 这么简朴。
▎BinaryAttention:1-bit 留意力,比全精度还有能打
Transformer 的留意力模块一直是算力黑洞。Query 及 Key 做矩阵乘法,计较量随序列长度平方增加,于高分辩率视觉使命及多步扩散天生里特别要命。平凡工程优化的逻辑:第一步是 FlashAttention,用 IO 优化把访存瓶颈拆失;第二步是量化,把 FP32 压成 INT八、INT4,低比特框架内,精度降了,但总算还有能用。
再往下压,就要把 Q 及 K 压成只有正负两种状况的 1-bit。这条路险些没人敢走。直觉上太反知识了:一个持续实数酿成一个正负号,信息丧失那末年夜,留意力还有能算对于吗?
BinaryAttention 给出的谜底是:不仅算患上对于,还有能算患上更快。
这篇来自 Chaodong Xiao、Zhengqiang Zhang 及 Lei Zhang 的论文,起首从理论上论证了一个要害命题——留意力机制的焦点逻辑是计较 Q 及 K 之间的相似度瓜葛,而这个相似度瓜葛于二值化以后依然能被有用保留。
换句话说, 这两个位置相干不相干 这件事,不需要切确到小数点后几位,一个正负号就能捕获到最焦点的信息。基在这个理论支撑,BinaryAttention 只保留 Q 及 K 的符号,将传统浮点矩阵乘法替代为 XNOR 加 popcount 的位运算,从底子上转变了留意力的计较方式。
固然,1-bit 量化带来的信息丧失是客不雅存于的。为了填补这一点,论文引入了可进修的偏置项举行赔偿,同时采用量化感知练习让模子学会 用 1-bit 思索 ,并用自蒸馏技能以全精度模子为西席,确保量化后的符号相似性与全精度连结一致。
整个设计撑持端到真个前向流传加快,不需要分外的推理步调。试验成果使人不测:于 A100 GPU 上,BinaryAttention 比 FlashAttention2 快 2 倍以上,而于视觉及扩散 Transformer 的广泛基准测试中,1-bit 留意力不仅能维持精度,于部门使命上甚至跨越了全精度版本。
这篇论文打破了 低比特一定捐躯精度 的行业知识,把“量化”从一个工程压缩问题,晋升到了“从头发明计较素质”的理论层面。
arXiv 论文页面:https://arxiv.org/abs/2603.09582
项目代码堆栈:EdwardChasel/BinaryAttention
▎SegQuant:量化不需要给每一个模子零丁开药方
另外一篇论文中,SegQuant 挑战了另外一个尺度件:量化计谋必需针对于每一个架构手工定制。
于深度进修范畴,假如你要对于一个模子做量化(好比把32位浮点数压缩成8位或者4位整数),那末你险些必需针对于这个模子的详细架构,手工去调解量化参数(好比每一一层的缩放因子、零点位置、位宽分配等)。差别架构差异越年夜,手工调参的事情量就越重。
而扩散模子这个范畴,SDXL、DiT、PixArt等模子架构变患上很是多样且差异巨年夜,让这个问题落井下石。给一个模子调参以后,换个模子就患上从头来一遍。更贫苦的是,这些要领凡是依靠年夜量人工设定的开导式法则,及主流工业部署东西也不兼容,想真正把量化塞进出产线,门坎极高。
浙年夜 OptiSys 团队提出的 SegQuant,焦点思绪是让量化计谋从模子的计较图里主动 读 出来,而不是靠人工拍脑壳。SegQuant 由两个组件组成:SegLinear 及 DualScale。
SegLinear 是一种基在段的图量化计谋,它阐发模子的静态计较图,主动捕捉线性层的语义布局,辨认出哪些层功效近似、哪些层于空间漫衍上差异显著,然后据此为差别层分配差别的量化配置。整个历程不需要手写法则,彻底由图拓扑驱动。
DualScale 则专门敷衍扩散模子量化里一个老浩劫问题:激活漫衍的极性不合错误称。扩散模子中许多层的激活值正负双侧外形差异极年夜,假如用统一套量化标准去量,一定会有一侧被严峻掉真。DualScale 用双标准别离校准正负双侧,专门保住视觉输出的保真度。
SegLinear 证实了量化配置可以从计较图主动读取,无需人工经验。DualScale展现了传统量化掉效的底子缘故原由是纰漏了正负漫衍的自力性,并提出了一个更合理的基本情势。
SegQuant 的意义是第一次有人把扩散模子量化做成为了一个真正跨架构通用的框架,统一套要领适配 UNet 系及 DiT 系,无需为每一个模子零丁调参。同时,论文从一最先就按工业部署的尺度设计,与主流部署东西无缝兼容。这象征着 SegQuant 不是一篇只活于论文里的要领,而是可以直接推进到出产线上的东西。
arXiv 论文页面:https://arxiv.org/abs/2507.14811
项目代码堆栈:https://github.com/OptiSys-ZJU/segquant
02
推理真个尺度件被拆失以后,接下来被质疑的,再也不是怎么跑模子,而是模子的方针自己到底对于不合错误。而这一刀,切到了扩散模子最底子的练习范式上。
▎JiT:猜测噪声还有是猜测洁净图象?这个问题比你想的更主要
扩散模子的名字里有 去噪 两个字,但初期研究遍及选择让模子猜测噪声,而不是洁净图象。于技能上,这两种参数化是等价的,可以彼此转换,以是一直没人穷究:选哪一个真的彻底同样吗?
Kaiming He 及 Tianhong Li 于这篇论文里指出:二者于现实效果上其实不等价,差异藏于流形几何里。流形假定(Manifold Hypothesis)告诉咱们,天然图象漫衍于高维空间里的一个低维流形上。洁净图象住于这个流形上,而加了噪声的中间状况则偏离了流形,是 飘出去 的。
这象征着,当模子的练习方针是猜测带噪量时,它要于一个弥散的高维空间里事情,收集容量不敷就会灾害性掉败;而假如方针是猜测洁净图象,方针始终于流形上,即便收集容量有限也能有用建模。这不是工程细节的差异,而是数学素质的差异,由于猜测噪声是于流形以外寻觅一个弥散的方针,猜测洁净图象是于流形之上寻觅一个布局化的方针。
基在这个洞察,研究者提出了 JiT(Just image Transformers):直接用年夜 patch 的 Transformer 处置惩罚原始像素,练习方针就是猜测洁净图象,丧失函数只有简朴的 MSE。没有 VAE 或者 Tokenizer 做潜空间压缩,没有预练习权重,没有分外的正则化丧失。这是一种极简化的设计方式。
于 ImageNet 256 及 512 分辩率上,JiT 都取患了有竞争力的成果,特别是 32×32 的年夜 patch 于 512 分辩率下依然体现优良,这打破了 高分辩率必需先压缩到潜空间 的通行做法。
JiT 的意义远不止一组试验数据。它真正摆荡的是整个扩散模子的练习范式:已往几年,从 LDM 到 DiT 到 SDXL,所有人都于沿着 先压缩、再猜测噪声 的线路走,没人意想到它多是一个次优解。而 JiT 告诉咱们,这条线路的天然性是虚伪的,虽然它是于数学上等价的,但于几何上却不是最优的。
更值患上留意的是,JiT 的极简设计自己就是一种论证:当去失 Tokenizer、去失预练习、去失繁杂丧失,模子依然能事情患上很好,就激发了愈来愈多的质疑:那些被加进来的组件,有几多是真正须要的,又有几多只是于为一个次优的练习方针做赔偿?
假如说 BinaryAttention 及 SegQuant 是于推理端拆失尺度件,那 JiT 就是于练习方针上翻案——它质疑的不是 怎么做 ,而是 为何这么做 。这个条理的质疑,影响要比推理优化深远患上多。而当这类质疑继承往深处推进,就会涉及模子架构最底层的那些 默许设置 。
arXiv 论文页面:https://arxiv.org/abs/2511.13720
项目代码堆栈:https://github.com/LTH14/JiT
03
前面三篇论文说的是推理端及练习方针的尺度件,接下来要先容的两篇论文,则是于切磋归一化层及可逆性约束的尺度件。归一化层于Transformer里已经存于近十年,被视为“必须品”;可逆性约束是归一化流这个标的目的自始至终的焦点约束。撤除归一化层及可逆性约束,相称在修改模子最底层的焦点组件。
▎BiFlow:切确可逆这个数学洁癖,可以扔了
归一化流(Normalizing Flow)天生模子中对于数学性子要求最严酷的一类。
它经由过程可逆变换于数据漫衍及先验漫衍之间成立双向映照,撑持切确的对于数似然预计,理论上很是美丽。但这类优雅是有价钱的:严酷的可逆性约束把收集架构的设计空间框死了,能用的变换类型极为有限。
最近几年来 TARFlow 把 Transformer 及自回归流联合,机能年夜幅晋升,但自回归的因果解码生成是串行的,就造成为了天生一张图的环境下,token 一个一个出的场合排场。速率成为了自回归绕不开的硬伤。
来自 Yiyang Lu、Qiao Sun 等人与 Kaiming He 互助的 BiFlow,提出了一个思绪:逆函数纷歧定需要是切确的解析解。传统归一化流要求前向变换严酷可逆,反向历程直接采用解析要领求逆。这一要求由“可逆性”这一位称所界说,看起来是合理的。然而 BiFlow 指出,这一要求带来的现实价钱跨越了其理论收益:它限定了架构选择,强迫了因果解码的串行推理,并使采样速率成为机能的重要制约因素。
该团队的做法是同时进修两个标的目的:前向模子将数据映照到噪声,反向模子自力进修一个类似逆映照。反向模子再也不是前向变换的解析逆,而是一个自由参数化的神经收集——这象征着它可使用双向留意力而非因果留意力,实现彻底并行的解码。两个标的目的自力练习,反向模子不受可逆性约束,架构选择彻底自由。
BiFlow于 ImageNet 上的试验成果是:天生质量显著晋升,采样速率比因果解码要领快了两个数目级,于归一化流类要领中到达最优,与单次前向评估的要领比拟也具备竞争力。
这项研究从头界说了天生模子中“可逆”的寄义:切确可逆是强约束,类似可逆是工程可行的折中。抛却切确可逆,可晋升架构矫捷性及计较效率。这与 JiT 的逻辑一致。JiT 注解猜测噪声及猜测洁净图象数学等价但几何不等价;BiFlow 注解切确可逆与类似可逆数学不等价但效果靠近。二者都以现实有用性而非理论优雅作为评价尺度。
arXiv 论文页面:https://arxiv.org/abs/2512.10953
项目代码堆栈:https://github.com/Lyy-iiis/BiFlow
▎Derf:归一化层不仅能替换,还有能被打败
BiFlow 测验考试去除了可逆性约束,而 Derf 则测验考试去除了 Transformer 中最为基础的归一化层。LayerNorm 与 RMSNorm 于 Transformer 中被遍及视为须要组件,研究者重要存眷参数调治而非是否利用。DyT(Dynamic Tanh)呈现,证实可以用一个简朴的逐点非线性函数替换归一化层,练习一样不变,机能持平,但 DyT 仅持平而未逾越。
Mingzhi Chen、Taiming Lu 等人的这篇论文,问的是更进一步的问题:既然可以用逐点函数替换归一化层,那最优的逐点函数是甚么?作者起首从理论上研究了逐点函数的内涵特征怎样影响练习动态及终极机能,然后基在理论发明开展了年夜范围的函数情势搜刮。终极找到的谜底是 Derf——一个基在偏差函数的极简设计:Derf(x) = erf(αx + s),此中 erf 是高斯累积漫衍函数,α 及 s 是可进修参数。这个设计情势极为简便,但效果惊人:于视觉辨认、视觉天生、语音暗示进修、DNA 序列建模等多个范畴,Derf 周全优在 LayerNorm、RMSNorm 及 DyT。
更值患上留意的是论文对于 Derf 机能来历的阐发。凡是人们会认为,一个更好的替换方案必然是由于拟合能力更强。但作者经由过程深切试验发明,Derf 的上风重要来自泛化能力的晋升,而非拟合能力的加强。这个发明可能带来一种表示,即归一化层之以是持久以来 不成替换 ,可能其实不是由于它提供了某种不成代替的计较功效,而是由于它刚好提供了一种泛化性尚可的不变化手腕。而当 Derf 用一种更简便的方式提供了更好的泛化性时,归一化层的 不成替换性 就站不住脚了。
Derf 的意义不只是一次函数替代。它真正涉及的问题是:归一化层于 Transformer 里到底于干甚么?多年来,人们用 不变练习 来注释它的存于,但 不变练习 这个说法自己就暗昧。Derf 可能给出了如许的标的目的,至少于泛化性这个维度上,归一化层其实不是最优谜底。一个情势更简便、参数更少的逐点函数,可以做患上更好。
arXiv 论文页面:https://arxiv.org/abs/2512.10938
项目代码堆栈:https://github.com/zlab-pku/Derf
04
BinaryAttention 证实了留意力的浮点精度不是必需的,1-bit 符号就够了;SegQuant 证实了量化计谋不需要给每一个架构零丁开药方,计较图本身就能揣度;JiT 证实了扩散模子 猜测噪声 的练习方针不是最优的,直接猜测洁净图象于几何上更合理;BiFlow 证实了归一化流的 切确可逆 是一种可以罢休的豪侈品;Derf 证实了归一化层不仅能被替换,还有能被打败。
并且它们不是于统一层拆。从推理真个精度及定制化,到练习方针的参数化方式,再到架构层最底层的归一化层及可逆约束,全数有所触及。已往几年的深度进修都是于寻求范围化,要有更年夜的模子、更多的数据、更邃密的调参,那末 CVPR 2026 的这一批事情,则是于切磋一些泉源问题:哪些墙是承重墙,哪些只是隔绝距离?哪些是必需的,哪些只是 一直都于以是以为必需 ?
谜底正于变患上愈来愈清楚:那些咱们以为的承重墙,有不少只是隔绝距离。而拆失它们以后,屋子不单没有塌,反而透进了更多的光。雷峰网(公家号:雷峰网)动静
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
下一篇【产品推荐】超小型高频同轴连接器u.fl系列
www@C17com官方
Maggie
微信咨询
黎小姐