3 min read

技术解读

1-bit 跑在 iPhone 上:PrismML 的 Bonsai Image 4B 为什么让本地 GenAI 拐点提前到来

Bonsai Image 4B 在 iPhone 上生成 AI 图像

你可能已经习惯了"想画图就打开 Midjourney 或者 DALL·E"。但每一次生成,其实都是一次云端往返:你的 prompt 飞到服务器,等几秒到几十秒,再把生成的图片传回来。这中间不仅有延迟、有费用,还意味着你的 prompt 和生成的图片都流过了别人的服务器。

如果图像生成能直接在你自己的手机或笔记本电脑上完成呢?

2026 年 5 月 26 日,来自加州理工学院的衍生公司 PrismML 正式发布了 Bonsai Image 4B——一个能在 iPhone、iPad、Mac 和消费级 GPU 上本地运行的图像生成模型。它最关键的创新不是参数大小(4B 其实不大),而是把扩散 Transformer 的权重压到了 1-bit 和 ternary,让原本 7.75 GB 的模型体积直接压缩到 1 GB 以下。配合同步推出的 iOS 应用 Bonsai Studio,这是第一个能直接跑在 iPhone 上的同级别图像生成模型

本文用通俗的方式拆解:这项技术到底是什么、它和现有的 Stable Diffusion / FLUX 路线有什么不同、它为什么可能是 GenAI 走向"端侧普及"的关键一步。


1-bit 模型到底是什么?先解释一下"权重"

在解释 Bonsai 之前,先说一个很多人忽略的事实:现代大模型的体积主要不是被"神经元数量"决定的,而是被"参数精度"决定的。

一个标准的 4B 参数图像生成模型,每个参数用 FP16(半精度浮点)存储。4B × 16 bit = 64 GB 理论值,但因为模型架构设计、共享权重等原因,FLUX.2 Klein 4B 实际部署需要 15.97 GB

PrismML 做的事情是:把这些权重从 FP16 改成 1-bit 或 ternary

  • 1-bit Bonsai Image 4B:每个权重只能是 -1 或 +1,配上 FP16 的分组缩放因子,等效 1.125 bit/权重。
  • Ternary Bonsai Image 4B:每个权重可以是 -1、0 或 +1,等效 1.71 bit/权重。

听起来损失信息太多了对吧?毕竟 FP16 一个权重能表示 65536 个不同的值,1-bit 只能表示 2 个值。直觉上,模型应该"残废"了。

但实际上,经过专门训练的极低精度模型,能力损失并没有想象中那么大

数据说话(来自 PrismML 官方测评):

模型Transformer 体积GenEvalHPSv3DPG-Bench性能相对 FLUX.2 Klein 4B
FLUX.2 Klein 4B (FP16)7.75 GB0.81912.840.853100%
Ternary Bonsai Image 4B1.21 GB0.72312.220.85195%
1-bit Bonsai Image 4B0.93 GB0.67111.150.82288%
SDXL5.14 GB0.310.050.7467%

Ternary 版本保留了 95% 的性能,体积只有原来的 1/6.4。1-bit 版本保留了 88% 的性能,体积只有 1/8.3。这个压缩比,比之前任何主流 4B 级别图像模型都更激进。


为什么这件事重要?三句话讲清楚

第一,它把"端侧图像生成"从 PPT 变成了现实

过去的"端侧 GenAI"演示,往往是精心挑选的 demo——生成一张 256×256 的低分辨率小猫图就要等几十秒,根本没法用。

Bonsai Image 4B 给出的数据是:

  • iPhone 17 Pro Max:生成 512×512 图像约 9.4 秒
  • Mac M4 Pro:生成 512×512 图像约 6 秒,比同尺寸 FP16 版本快约 5.6 倍
  • mean-active 内存:512×512 图像只需 1.5 GB(1-bit)/ 1.96 GB(ternary)

这个速度意味着端侧图像生成真的进入了"可日常使用"的范畴。

第二,它让"云端往返"不再是必选项

云端图像生成有三个隐形成本:延迟、费用、隐私。每一张图的生成都涉及一次网络往返,每一次失败都要重新发起请求,每一次 prompt 都流过别人的服务器。

当模型直接跑在设备上时,这三个问题同时消失

  • 没有延迟:本地推理,省掉网络往返
  • 没有边际成本:模型一旦下载到设备,每张图的成本只有电费
  • 没有隐私泄露:prompt 和生成内容完全留在本地

对于涉及敏感场景(医疗草图、保密设计、未公开产品图)的应用,这是质的变化。

第三,它打开了"边缘 AI"的应用想象空间

PrismML 已经在 iOS 上线了 Bonsai Studio(基于 Apple Silicon + MLX),并在 CUDA GPU 上提供 Gemlite 低比特 GEMM 内核支持。

这意味着:

  • 移动 App 可以内置图像生成能力,不需要再调用云端 API
  • 离线场景(飞机上、远海、灾区)也能用 AI 图像
  • IoT 设备、嵌入式硬件、车载系统都有了"图像生成"的本地化可能

这不只是"又一个开源模型",而是重新定义图像生成的部署范式


1-bit 化是怎么做到的?三个关键工程

Bonsai Image 4B 不是简单的"事后量化"(把训练好的 FP16 模型直接转 1-bit)。PrismML 做了三件事:

1. 选定 FLUX.2 Klein 4B 作为底座

Bonsai Image 4B 不是从零训练。它基于 Black Forest Labs 的 FLUX.2 Klein 4B——一个 4B 级别的紧凑型图像生成模型,已经在大规模图文对上预训练过。

PrismML 保留了完整的 Transformer 架构,只改了一件事:把权重从 FP16 表示变成 1-bit/ternary 表示。这种"架构不动、精度重构"的策略,比从零训练一个 1-bit 模型靠谱得多。

2. 关键层保留 FP16,只对 Transformer 主体做 1-bit 化

并不是所有参数都适合压到 1-bit。PrismML 团队发现,把 Transformer 主体压到 1-bit 后,保留约 5% 的"敏感张量"在 FP16(称为 projection layers),效果明显更好。

这有点像神经科学里的"关键少数神经元"——大部分连接可以稀疏化、极简化,但有一小撮关键连接必须保持高精度。

最终结果:1-bit 版本的 Transformer 是 0.93 GB,ternary 版本是 1.21 GB,相比原版 7.75 GB 分别压缩了 8.3 倍和 6.4 倍

3. 部署栈的双端优化

光把模型压小还不够,还要在硬件上跑得快:

  • Apple Silicon:使用 MLX 框架的低比特路径
  • CUDA GPU:使用 Gemlite 低比特 GEMM 内核

这些底层优化让"模型小但跑得慢"的尴尬消失。在 M4 Pro 上,Bonsai Image 4B 相比原版 FLUX.2 Klein 4B(跑 MFLUX 框架)快了 5.6 倍


不只是压缩:性能边界被重新画了

Bonsai 团队在白皮书中强调了一个关键点:Bonsai 移动了"质量-体积"帕累托边界

什么意思?过去在 1 GB 以下的体积区间,能跑的图像模型质量都不怎么样(看看 SD 1.5 的 4.5 倍压缩比,性能只剩 51%)。Bonsai 用 1-bit 化在 1 GB 以下做出了 88% 性能——这个质量-体积组合以前是不存在的。

用 PrismML 自己的话说:

"Bonsai Image 在保持现代 4B 模型能力的同时,使用了它们一小部分的 Transformer 体积。同期,它大幅超越了体积相近但能力弱得多的小模型。这正是我们之前在 Bonsai 语言模型上看到的帕累托边界平移。"

"Bonsai Image 把现代扩散 Transformer 的能力带到了一个以前属于更小、更弱模型的体积区间。"

这意味着未来的图像模型设计,可能不再追求"更大的体积来获得更强的能力",而是转向"在固定体积预算下,通过极低比特表示获得最大能力"。


谁会受益?三类典型应用场景

场景一:移动端创意 App

过去的移动端 AI 图像应用,本质都是"前端输入 + 云端生成"。这意味着:

  • 每次生成要等 2-10 秒(网络 + 服务端排队)
  • 用户在飞机上、地铁里、漫游时直接不能用
  • 涉及肖像、敏感设计的 prompt 流向第三方

Bonsai Studio 已经证明:在 iPhone 上 9.4 秒生成一张 512×512 的图,完全可以塞进 App 的"创建"按钮后面。用户感觉就是"点一下就出图"。

场景二:本地化的隐私敏感应用

医疗影像草图、法律文书示意图、保密产品设计图、未公开的商标设计……这些场景过去是"绝对不能上云端"的,本地生成是唯一选择。但本地能跑的模型又太差,达不到使用门槛。

Bonsai Image 4B 让这些场景第一次有了"既隐私、又能用"的方案。

场景三:嵌入式和边缘部署

车载系统、智能家居、工业 IoT 设备……这些场景对延迟和稳定性要求极高,根本无法依赖云端。但传统上 4B 级别图像模型的体积完全塞不进这些设备。

1.21 GB 的 ternary 模型,配合量化、剪枝、缓存优化,已经可能塞进一些高端边缘设备。未来的"智能音箱能给你画一首歌的封面"不再遥远。


一些冷静的提醒

虽然数据很亮眼,但有几个边界需要看清:

第一,9.4 秒/张的速度在 iPhone 上不是"即时"。它已经够用,但和云端最先进模型的"几秒出图"相比,本地端侧还没有压倒性优势。优势在于无网络、成本、隐私

第二,质量仍比顶级云端模型差一档。FLUX.2 Klein 4B 的 100% 性能 vs 95%/88%,意味着在最难的任务上仍有可见差距。如果你的应用对"prompt 极度精细的还原"有要求,可能还需要云端方案。

第三,部署到非 Apple 设备仍需额外工作。PrismML 给了 MLX(Apple)和 Gemlite(CUDA)两条路,但 RKNN(Rockchip)、Vulkan、Hexagon NPU 等其他边缘平台的支持还在路上。

第四,license 是 Apache 2.0,但生态仍在起步。Bonsai Studio 已经在 iOS 落地,但围绕 Bonsai Image 4B 的 ControlNet、LoRA、ComfyUI 节点等社区生态,还在早期。


这件事的更大意义:GenAI 的"端云分布"拐点

Bonsai Image 4B 不是一个孤立事件。它是 GenAI 走向端云分布这个大趋势里的一个标志性节点。

过去两年,云端大模型越来越大、越来越强。但同时,一个反向趋势也在发生:模型压缩技术让大模型的"小版本"开始能跑在端侧

  • 语言模型方向:1-bit Bonsai LLM、Gemini Nano、Phi-3 mini 等
  • 图像模型方向:Bonsai Image 4B、SD 1.5 微小化版本、MobileDiffusion
  • 视频模型方向:Snap Video、AnimateDiff-Lightning

这些"端侧小模型"不会取代云端大模型——它们会共存。云端负责"最高质量、最复杂任务",端侧负责"日常使用、隐私敏感、低延迟、低成本"。

当 1-bit/ternary 模型能在 iPhone 上跑出 88-95% 性能时,GenAI 的部署范式拐点就真的到来了。Bonsai Image 4B 是这个拐点上的一个清晰信号。


写在最后

PrismML 团队在 2026 年 3 月才从隐身模式中正式亮相,他们的第一个产品是 1-bit Bonsai LLM。两个月后,他们把同样的极低比特技术应用到了图像生成领域,并做出了第一个能在 iPhone 上跑的 4B 级别图像模型。

这个速度本身就说明了一件事:1-bit/ternary 化技术正在从"实验室黑科技"变成"工程上可复用的工具"

对于普通用户,这意味着 AI 图像生成将不再依赖云端——它会像计算器一样嵌入你的手机,随手可用。对于开发者,这意味着你的 App 可以内置图像生成能力,不再需要维护云端 API 集群。对于整个行业,这意味着 GenAI 正在从"集中式数据中心"演化为"云端 + 端侧"的混合架构。

iPhone 上 9.4 秒画一张图,听起来不够震撼。但别忘了——三年前,手机上能跑的最强模型只是 2018 年的 ResNet-50。

拐点,从来不是"某一刻突然发生",而是"回看时才意识到已经发生"


参考来源