深度洞察：去中心化推理不是炒作，而是 AI 突破中心化垄断的关键赛道

2026-06-2318:34

ForesightNews 独家

2026-06-23 18:34

ForesightNews 独家

2026-06-23 18:34

收藏文章

订阅专栏

去中心化 AI 推理四大硬核难题全解析：从 Petals 到 Darkbloom，谁能真正落地？

撰文：@KSimback

编译：AididiaoJP

假设情景：前沿模型一旦被封杀，会发生什么？

时间来到 2026 年 10 月，距离现在仅四个月。GLM-6 刚刚发布，在主流基准测试中超越 Fable-5.1（被禁模型的阉割重发版），并与 Mythos 持平。美国政府无法直接关闭它，于是发布一系列禁令：禁止任何提供商在美国境内或向美国人提供 GLM-6 模型、更新、推理服务、管理部署或技术支持。

亚马逊 Bedrock、谷歌 Vertex、微软 Azure 迅速表态遵守，拒绝为企业客户托管该模型。主要聚合平台如 OpenRouter、Vercel、Cloudflare、TogetherAI 等也同意不上架。GitHub 清除平台上所有相关痕迹。Hugging Face 作为最后一个坚持者，最终也移除所有 GLM-6 相关模型的下载。

这个情景虽然不是我们期望的理想结果，但在 AI 模型指数级进步、而政策制定却像蜗牛爬行一样缓慢的世界里，却是完全合理的结局。

这种结果，或者另一种前沿 AI 仍被少数中心化实体垄断的情形，正是去中心化 AI 如此重要的根本原因。

这篇文章是作者此前《Proof of Useful Work》入门指南的配套篇章，采用相同务实方法，聚焦 crypto-AI 的另一个关键角落（两者有部分重叠）。作者深入拆解去中心化 AI 必须解决的难题、正在追踪的项目、尽调框架，以及深入研究后的个人判断。

去中心化推理为什么势在必行？

紧随上述情景，你大概已经联想到去中心化推理。如果还没想通，我们继续推演下去。

GLM-6 模型权重一旦发布，副本会瞬间在互联网上四处传播——任何禁令或补救措施都无法消除现在已经存在的成千上万份拷贝。这些拷贝将在去中心化推理网络中被服务，因为那里不存在可以对其采取行动的中心权威，也没有哪个节点被禁止就能让整个网络瘫痪。

我想先说清楚一点：我不是在争论这是好事还是坏事。如果一个新的开放权重模型发布后，可能因滥用造成严重损害，我绝不会建议大家坐视不管。我想强调的是：模型最终会被那些不想被审查的人获取，这是不可避免的。

这就是去中心化推理的核心前提——它是对抗情报审查的对冲，无论审查来自政府还是前沿实验室。其他卖点，如更便宜的代币、可验证推理、隐私保护等，都是次要的。核心赌注只有一个：缓解审查风险。

去中心化推理真的很难，四大难题摆在面前

对大多数初创公司来说，解决一两个难题已经是巨大挑战。而去中心化推理项目必须同时攻克四个真正棘手的难题。每个项目如何应对这些问题，正是区分实质与泡沫、阿尔法与噪音的关键。

难题一：运行单个机器根本装不下的模型

核心思路是打造一个 GPU 集群（swarm），利用管道并行（pipeline parallelism）来服务用户真正想要的模型。简单来说，每个节点只持有模型权重的一小部分切片，以及自己那部分的 KV-cache，这些切片小到足以塞进消费级 3090/4090 显卡，甚至更高规格的 H100。把足够多的节点组合起来，就能托管像 GLM 这样的大型模型。

Petals 早在 2022 年就用 BLOOM-176B 在消费级 GPU 上以 BitTorrent 风格的 swarm 证明了这种方法的可行性，但当时速度只有每秒约 1 个 token。显然这个速度完全不可用，所以后续创新重点转向如何让模型跑得更快。

真正致命的瓶颈是网络。在数据中心内部，GPU 通过 NVLink 以每秒 TB 级的速度通信；而在公共互联网上，往返延迟（RTT）高达几十毫秒。解码过程是顺序进行的，naive 的 swarm 每生成一个 token 都要支付一次网络往返。

最常见的解决方案是推测解码（speculative decoding）：一个小而廉价的 draft 模型先提出 K 个候选 token，大型的 sharded 模型则在一次管道通过中验证这 K 个 token，然后保留最长的匹配序列。这样，一次昂贵的网络穿越就能换来好几个 token，而非只有一个。

目前已在真实互联网链路上实现约 30-40 tokens per second 的水平，进展显著，但在大规模和用户真正需要的速度上仍未充分验证。这是一个需要真正硬核工程能力的难题。

注意：服务推理远不止拼 FLOPs

把任何 swarm 方法与云托管模型对比时有一个常见陷阱：大家只看 tokens per second，以为这就是全部。

但生产级推理必须把很多事情做好，这些都与原始算力无关：

首个 token 时间（TTFT）与 token 间延迟的平衡
Prefill 与 decode 两个阶段（硬件需求完全相反）
KV-cache 的放置与传输
流式传输、连续批处理，以及混合负载下的利用率
长上下文行为、冷启动和模型预热
节点波动（churn）

尽调要点：当项目引用吞吐数字时，一定要问它在和什么竞争。中心化的 vLLM 或 SGLang 部署（采用 disaggregated prefill 和 continuous batching）才是真实基准，而且这个基准每季度都在变快。「我们在互联网上达到 30 tokens per second」听起来很厉害，但仍可能缺乏竞争力。

难题二：证明你真的得到了所支付的模型

如果你不信任节点，怎么知道它确实运行了声称的模型，而不是偷偷换成更便宜的量化版本？尤其在涉及挖矿 token 的网络里，提供商很容易「玩游戏」，表面上为你服务实际模型，实则跑更便宜的东西。

目前有五种主流应对方法：

ZKML：零知识证明前向传递。加密学上无懈可击，但开销约是原生的 10000 倍。Llama-3 模型生成一个 token 大约需要 150 秒。前沿规模短期内不可能落地。
opML：输出附带保证金，开启挑战窗口，通过 fraud-proof 将争议二分到一步，由仲裁者重新运行。近原生速度，但最终性需等待窗口期，且存在「验证者困境」（如果验证成本高于抓到作弊的价值，就没人验证）。
Deterministic re-execution：让推理实现字节级可复现，纠纷只需检查字节是否相等。开销低于 2%，由 restaked ETH 保障。
Statistical fingerprints：廉价地 hash 或采样计算，大多数时候抓住大多数作弊。不是绝对正确，但快速且适合异构 GPU，这是 permissionless swarm 所需要的。
Live-weight proofs：直接采样服务运行时实际驻留的 tensors，与批准模型的 manifest 比对。验证的是「加载了什么」，而不是「输出了什么」，开销仅约 0.1%。这是一个真正不同的思路。

现实权衡是：你只能同时获得这三者中的两种——加密完整性、低延迟、成本效率。ZKML 拿到了完整性，却牺牲了延迟和成本；其他方法拿到了延迟和成本，却只能满足经济或统计完整性。

尽调要点：问清楚项目采用哪种方法、为什么，以及这个权衡对最终产品的影响。

难题三：如何让 prompt 真正保密？

证明输出正确，与隐藏输入是完全不同的难题。在 sharded swarm 里，每个节点都必须解密 activations 才能计算——加密只保护传输线路，保护不了节点本身。

Transformer 的 activations 其实非常容易逆向还原。CCS 2025 论文显示，从中间 activations 重建输入 prompt 的准确率超过 90%。ICML 2025 的「Hidden No More」论文实现了近乎完美的恢复，并击败了 swarm 常用的 noise-and-permutation 防御。

目前唯一稳健的修复方案是一种更重的 sequence-sharded 方案，而 consumer-GPU 阵营中还没有人真正推出，因此这仍是一个 largely 未解决的问题。

一个 swarm 可以宣称「没有节点持有整个模型」，却仍会把每个 prompt 泄露给路径中的任意节点。「没有节点持有模型」从来不是隐私属性。

真正能提供隐私的是硬件或数学方法，而非网络拓扑结构。TEEs（可信执行环境）——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任转移到硬件根并进行 attestation。

全同态加密（FHE）能在密文上直接计算，什么都不信任，但对大模型而言成本目前还不可接受。

尽调要点：项目要么真正拥有其中一种方案，要么就没有隐私，无论落地页怎么包装。

重要提醒：Private 并不等于 trustless（无信任）。TEE 并没有消除信任，只是把信任从节点运营商转移到了硬件厂商、固件链、attestation 服务和 enclave 实现。

真正的问题是：你愿意接受谁的信任根？芯片厂商？restaked 验证者集合？TEE 网络？还是纯数学？

难题四：如何构建真正的双边市场？

前三个是技术难题，第四个是商业难题。

对于服务开放权重模型的去中心化推理网络来说，谁才是理想客户（ICP）？

大多数普通消费者目前正从订阅计划中获得巨大价值——每月 20-200 美元就能用到大量智能。未来这些补贴计划可能会消失或限量，但今天想卖 API 按需付费推理，消费者端非常难打动。

企业短期内也不会成为大买家。或许未来会变，但别指望很快。

真正剩下的两类用户是：1）把推理嵌入自己产品栈的初创公司和企业，他们天然需要 API 计划；2）寻求自身推理能力的自主 AI agents。

初创公司类别是增长中的市场，是一个可能切入显著收入的利基，但短期内价值捕获存在明显上限。AI agents 作为买家则更具投机性——短期内仍需要有人为其付费。

这就是难题所在：如何聚合人们真正想要的模型的有意义供给，而目标用户群体却不太可能是网络上的大额支出者？

唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等项目多年来一直在做这件事，它们通过 token 协调的市场，把整个 GPU 或每节点整个模型容量出租给付费者。这是有先例的。

尽调要点：问清楚项目的 ICP，以及他们如何同时获取目标用户并让供给侧满意。如果一切都建立在投机性 token 上涨预期上，那就是明显信号。

谁在真正解决这些难题？主流项目盘点

目前归入「去中心化推理」类别的项目非常多，但大多数并未平等解决全部四个难题，而是各有侧重。

Petals：去中心化推理的绝对先驱。2022 年证明 BLOOM-176B 可以在消费级 GPU 上以 BitTorrent 风格运行，概念意义重大，但未解决激励、隐私和货币化问题。本质是「Petals 架构 + token」的项目，大概率是 larp。

Dolphin Network：Dolphin 系列 uncensored 开放模型背后的团队（Hugging Face 下载超 500 万）。起源是先有真实用户需求，再包装网络。技术亮点是 live-weight proofs（0.1% 开销），叠加 logprob 指纹、软件完整性检查和账户级 bonding。已生成超 32 亿 token，持续带宽约 9400 t/s，是产品优先、执行力强的代表。

Inference.net（前 Kuzco）：对野外模型执行验证最成熟的尝试之一。独特机制 LOGIC 基于 logprob 统计测试捕获模型替换，已生产约 18 个月，舰队规模数千 GPU，是少数同时拥有验证原语和真实运营历史的项目。

Morpheus：去中心化路由与奖励层，提供 OpenAI 兼容 API + 智能 agent 包装器。技术亮点是 TEE 支持的提供商验证（Intel TDX + NVIDIA GPU attestation 已上线）。需持续关注 MOR 排放和真实外部需求证据。

Chutes（Bittensor 子网 64）：用户端是 OpenAI 兼容 API，后端是 Docker 打包的 chute 部署到 Bittensor GPU 矿工。分发和规模优势明显，但在验证和隐私上仍有差距。

c0mpute：Solana 原生新项目，Shard 引擎将前沿模型拆分到消费级 GPU 上。已公开 GLM-5.2 744B 和 gpt-oss-120B 的真实演示（30-40 t/s）。技术 artifact 可验证，但仍极早期（仓库刚上线几天，创始人匿名，token 为 pump.fun 微型市值）。

Parallax（Gradient Network）：P2P 分布式 LLM 推理框架，支持跨消费级 GPU 和 Apple Silicon 的管道并行分片，让个人或小组织运行「主权集群」。机构背书较强（Pantera 和 Multicoin 领投 1000 万美元种子轮），但隐私方案尚不明确。

Darkbloom：让用户把闲置 Mac 算力变成私有推理市场。每个 Mac 运行整个模型，通过 Secure Enclave attestation 保障隐私。不走 sharded swarm 路线，attestation stack 严谨。已从研究预览进入公开 alpha，真实 traction 值得关注（去中心化不一定必须 token 化）。

MeshLLM：Jack Dorsey 引入、Block 关联团队构建的 permissionless P2P 推理 mesh。基于 Nostr 发现节点，无中心服务器，更接近 BitTorrent 而非 Bittensor。协议优先、无 token、抗审查。

Venice 及其转售生态：整个领域寻找 PMF 和可行商业模式的典范。它本身是中心化但隐私分层的消费者代理，已有效解决部分难题。围绕它形成了 UsePod、AntSeed、Surplus Intelligence 等转售商子生态，主要做需求聚合和结算，而非直接提供去中心化算力。

去中心化推理的胜负之地

成本优势只有在把延迟和吞吐量分开看时才成立。它们是两种不同产品，去中心化对其中一个是税，对另一个则是特性。

中心化明显胜出的场景（去中心化是税）：ChatGPT 式交互聊天、实时编码 agent、低延迟语音、高频工具调用、企业严格 p95 延迟 SLA、前沿密集模型的竞争性延迟服务。

去中心化可能胜出的场景（供给聚合优势）：合成数据生成、离线评估、批量嵌入、批量 RAG、长期 agent 研究任务、图像视频生成队列、非紧急开放模型推理（闲置硬件边际成本接近零）。

简单框架：延迟重要时，去中心化是税；吞吐量重要时，去中心化可以成为供给聚合优势。

隐藏的长期价值：数据循环

去中心化推理网络还能收集大量有价值数据——合成训练数据、偏好数据、agent traces、评估输出、微调数据、RL 环境、工具使用轨迹等。这些数据可以反哺去中心化训练网络（如 Nous Psyche、Prime Intellect、Gensyn 风格项目），产生更新的开放权重模型，再回流到推理网络。

长期来看，这不是「去中心化训练」或「去中心化推理」的单独赌注，而是一个闭环：推理生成轨迹 → 轨迹成为训练数据 → 训练更新模型 → 更新模型回流推理。

最好的项目会把这个循环作为核心战略，未来训练与推理项目将进一步融合。