1-Bit Bonsai登場 — スマホで動く1ビットLLMがエッジAIの常識を変える

はじめに

「LLMを動かすにはGPUサーバーが必要」——その前提が崩れ始めている。2026年3月31日、Caltech発のスタートアップPrismMLが「1-bit Bonsai」シリーズを発表した。重みをすべて1ビット({-1, 0, +1}の3値)に圧縮し、8Bモデルがわずか1.15GBのメモリで動作する。従来の16ビットモデルと比較して14倍軽量、8倍高速。しかもApache 2.0ライセンスで商用利用も自由だ。この記事では、1ビット量子化の技術的背景と、BonsaiがエッジAIにもたらすインパクトを解説する。

1-Bit Bonsaiとは — スペックと性能

PrismMLが公開したBonsaiシリーズは3つのモデルで構成される。

Bonsai 8B(フラッグシップ)

  • モデルサイズ:1.15GB(16ビット8Bモデルの約16GBから14分の1)
  • ベンチマーク平均:70.5/100(IFEval 79.8、GSM8K 88.0、HumanEval+ 73.8)
  • 推論速度:M4 Proで131トークン/秒、RTX 4090で368トークン/秒
  • エネルギー効率:0.074 mWh/トークン(16ビット比で約5倍効率的)

Bonsai 4B / 1.7B(モバイル・エッジ向け)

  • 4B:0.57GB、M4 Proで132トークン/秒
  • 1.7B:0.24GB、iPhone 17 Pro Maxで130トークン/秒

注目すべきは「Intelligence Density」(知能密度)という指標だ。Bonsai 8BのスコアはGB単価で1.06。同規模のQwen3 8Bが0.10であることを考えると、10倍以上の密度を実現している。つまり、同じメモリ予算で圧倒的に多くの「知能」を詰め込める。

比較対象としてLlama 3.1 8B(ベンチマーク平均67.1)を見ると、Bonsaiは14分の1のメモリで上回るスコアを出している。ただしQwen3 8B(79.3)には及ばないため、「最高精度」ではなく「サイズあたりの精度」で勝負するモデルだと理解すべきだろう。

技術的背景 — 1ビット量子化はなぜ可能になったのか

量子化の基本

通常のLLMは各パラメータを16ビット(FP16)や32ビット(FP32)の浮動小数点で表現する。これを4ビット(INT4)や8ビット(INT8)に圧縮する「量子化」は以前から行われてきたが、1ビットまでの圧縮は精度劣化が大きすぎると考えられていた。

BitNetの登場

転機となったのは、2023年にMicrosoftが発表した「BitNet」研究だ。重みを{-1, +1}の2値(1ビット)に制約したTransformerアーキテクチャを提案し、2024年にはBitNet b1.58として{-1, 0, +1}の3値(1.58ビット)に拡張した。核心は事後量子化ではなく、最初から低ビットで訓練するアプローチにある。浮動小数点の掛け算が整数の足し算に置き換わるため、計算コストが劇的に下がる。

PrismMLのBonsaiはどこが新しいか

BonsaiはCaltechの研究を基盤としている。公式の説明によると「embeddings、attention layers、MLP layers、LM headのすべてが1ビット」であり、一部のレイヤーだけ高精度に残す「バックドア」がない完全な1ビット設計だという。

MicrosoftのBitNetが2Bパラメータの研究モデルにとどまっていたのに対し、Bonsaiは8Bスケールで実用的なベンチマークスコアを達成し、商用ライセンスで公開した点が大きな差異だ。

エンジニアへの影響 — 何が変わるのか

エッジデバイスでのLLM実行が現実的に

1.7Bモデルがわずか240MBでiPhone上で130トークン/秒を叩き出す。これはスマートフォンアプリにLLMを組み込む際の最大の障壁——メモリとレイテンシ——を大幅に下げる。オフラインで動作するAIアシスタント、リアルタイムのロボット制御、プライバシーを重視するエンタープライズアプリなど、クラウドに頼らないユースケースが広がる。

推論コストの削減

クラウド側でも恩恵は大きい。RTX 4090で368トークン/秒という数値は、16ビットモデルの約6倍のスループットに相当する。同じGPUでより多くのリクエストを処理できるため、API提供のコスト構造が変わる可能性がある。

試すには

モデルはHuggingFaceで公開されており、Apache 2.0ライセンスのため商用プロジェクトにもそのまま組み込める。Apple SiliconユーザーはMLX版が用意されているので、pip install mlx-lm でローカル実行が可能だ。Google Colabノートブックも提供されているため、手元にGPUがなくてもすぐに試せる。

まとめ

  • 1-Bit Bonsaiは8Bモデルをわずか1.15GBに圧縮し、14倍軽量・8倍高速を実現した
  • Caltech研究とBitNetの流れを汲む1ビット量子化技術が、研究段階から実用段階に移行した
  • スマートフォンやエッジデバイスでのLLM実行が現実的になり、オンデバイスAIの新たなユースケースが開ける
  • Apache 2.0ライセンスで誰でも商用利用可能

1ビットLLMはまだ最高精度モデルには及ばないが、「十分な精度を圧倒的な効率で」という方向性は、エッジAIとコスト最適化の文脈で大きな意味を持つ。今後、より大規模なモデルや専門特化モデルへの展開が期待される。

ソース