大模型现在的进步节奏,其实越来越像当年芯片厂玩的 Tick Tock

最近在想,大模型现在的进步节奏,其实越来越像当年芯片厂玩的 Tick Tock

当年 Intel 那套逻辑大家都很熟
一年换制程,Tick,一年换架构 Tock
不是因为不想年年革命,而是你真革命不起

大模型现在也有点这个味道了

你会发现
隔三差五发个小版本,效果更稳一点,推理快一点,上下文长一点
过一阵子来个大版本,突然感觉整个东西不太一样了

小版本基本都是 Tick
范式不变,工程优化,数据更好,对齐更熟,成本更低
用起来明显顺,但你也说不出它到底哪里不一样

真正有换代感的,反而不多
但一来就很明显
比如推理能力,Agent,test-time compute 这些东西开始成体系

某种程度上,这也说明 Transformer 加 scaling 的免费午餐已经吃到后半段了
还能吃,但没那么香了
所以只能一边把盘子舔干净,一边琢磨什么时候该换家餐厅

还有一个变化是
现在升级的早就不只是模型本身了,而是一整套系统
模型 加 推理策略 加 工具 加 调度
看起来像小更新,底下其实在偷偷换骨架

所以我现在的感觉是
Tick 会越来越密,Tock 会越来越重
突破不会天天有,但一来就会把节奏整个改掉

这事吧,说白了也挺工程的
说明大模型这行,正在从 疯狂论文期,慢慢进入 真工业时代

挺无聊的,也挺正常的