大規模モデルの今の進歩ペースは、実はかつてチップメーカーがやっていた Tick Tock にますます似てきている

最近考えているんだけど、大規模モデルの今の進歩のテンポって、実は昔のチップメーカーがやってた Tick Tock にますます似てきてる

当時の Intel のあのロジックはみんなよく知ってる
1年でプロセスを変える、Tick、1年でアーキテクチャを変える Tock
毎年革命したくないからじゃなくて、現実的に毎年は革命できないんだ

大規模モデルも今、ちょっとそういう匂いがしてきた

気づくと思うけど
しょっちゅう小さなバージョンが出て、挙動が少し安定して、推論が少し速くなって、コンテキストが少し長くなる
しばらくすると大きなバージョンが来て、急に全体がなんか別物っぽく感じる

小バージョンは基本 Tick
パラダイムは変わらず、エンジニアリング最適化、データが良くなって、アラインメントが熟れて、コストが下がる
使ってて明らかにスムーズなんだけど、どこがどう違うのかは言いづらい

本当に世代交代感があるものは、むしろ多くない
でも来るときはすぐ分かる
例えば推論能力、Agent、test-time compute みたいなものが体系として回り始める

ある意味、これは Transformer + scaling の「無料の昼食」が後半戦に入ったってことでもある
まだ食べられるけど、そこまで美味しくはない
だから一方で皿を舐め尽くしつつ、いつ店を替えるべきかも考えるしかない

もう一つの変化は
今のアップグレードって、モデル本体だけじゃなくて、もう一式のシステム全体なんだよね
モデル + 推論戦略 + ツール + スケジューリング
見た目は小更新でも、下ではこっそり骨格を入れ替えてたりする

だから今の感覚としては
Tick はどんどん密になって、Tock はどんどん重くなる
突破は毎日あるわけじゃないけど、来たらテンポそのものを丸ごと変えてしまう

結局これ、ぶっちゃけかなりエンジニアリング的な話で
大規模モデルの業界が、狂った論文期から、ゆっくり本当の産業時代に入っていってるってことなんだと思う

退屈だけど、まあ普通だよね