深度洞察:去中心化推理不是炒作,而是 AI 突破中心化垄断的关键赛道
2026-06-2318:34
ForesightNews 独家
2026-06-23 18:34
ForesightNews 独家
2026-06-23 18:34
收藏文章
订阅专栏
去中心化 AI 推理四大硬核难题全解析:从 Petals 到 Darkbloom,谁能真正落地?


撰文:@KSimback

编译:AididiaoJP


假设情景:前沿模型一旦被封杀,会发生什么?


时间来到 2026 年 10 月,距离现在仅四个月。GLM-6 刚刚发布,在主流基准测试中超越 Fable-5.1(被禁模型的阉割重发版),并与 Mythos 持平。美国政府无法直接关闭它,于是发布一系列禁令:禁止任何提供商在美国境内或向美国人提供 GLM-6 模型、更新、推理服务、管理部署或技术支持。


亚马逊 Bedrock、谷歌 Vertex、微软 Azure 迅速表态遵守,拒绝为企业客户托管该模型。主要聚合平台如 OpenRouter、Vercel、Cloudflare、TogetherAI 等也同意不上架。GitHub 清除平台上所有相关痕迹。Hugging Face 作为最后一个坚持者,最终也移除所有 GLM-6 相关模型的下载。


这个情景虽然不是我们期望的理想结果,但在 AI 模型指数级进步、而政策制定却像蜗牛爬行一样缓慢的世界里,却是完全合理的结局。


这种结果,或者另一种前沿 AI 仍被少数中心化实体垄断的情形,正是去中心化 AI 如此重要的根本原因。


这篇文章是作者此前《Proof of Useful Work》入门指南的配套篇章,采用相同务实方法,聚焦 crypto-AI 的另一个关键角落(两者有部分重叠)。作者深入拆解去中心化 AI 必须解决的难题、正在追踪的项目、尽调框架,以及深入研究后的个人判断。


去中心化推理为什么势在必行?


紧随上述情景,你大概已经联想到去中心化推理。如果还没想通,我们继续推演下去。


GLM-6 模型权重一旦发布,副本会瞬间在互联网上四处传播——任何禁令或补救措施都无法消除现在已经存在的成千上万份拷贝。这些拷贝将在去中心化推理网络中被服务,因为那里不存在可以对其采取行动的中心权威,也没有哪个节点被禁止就能让整个网络瘫痪。


我想先说清楚一点:我不是在争论这是好事还是坏事。如果一个新的开放权重模型发布后,可能因滥用造成严重损害,我绝不会建议大家坐视不管。我想强调的是:模型最终会被那些不想被审查的人获取,这是不可避免的。


这就是去中心化推理的核心前提——它是对抗情报审查的对冲,无论审查来自政府还是前沿实验室。其他卖点,如更便宜的代币、可验证推理、隐私保护等,都是次要的。核心赌注只有一个:缓解审查风险。


去中心化推理真的很难,四大难题摆在面前


对大多数初创公司来说,解决一两个难题已经是巨大挑战。而去中心化推理项目必须同时攻克四个真正棘手的难题。每个项目如何应对这些问题,正是区分实质与泡沫、阿尔法与噪音的关键。


难题一:运行单个机器根本装不下的模型


核心思路是打造一个 GPU 集群(swarm),利用管道并行(pipeline parallelism)来服务用户真正想要的模型。简单来说,每个节点只持有模型权重的一小部分切片,以及自己那部分的 KV-cache,这些切片小到足以塞进消费级 3090/4090 显卡,甚至更高规格的 H100。把足够多的节点组合起来,就能托管像 GLM 这样的大型模型。


Petals 早在 2022 年就用 BLOOM-176B 在消费级 GPU 上以 BitTorrent 风格的 swarm 证明了这种方法的可行性,但当时速度只有每秒约 1 个 token。显然这个速度完全不可用,所以后续创新重点转向如何让模型跑得更快。


真正致命的瓶颈是网络。在数据中心内部,GPU 通过 NVLink 以每秒 TB 级的速度通信;而在公共互联网上,往返延迟(RTT)高达几十毫秒。解码过程是顺序进行的,naive 的 swarm 每生成一个 token 都要支付一次网络往返。


最常见的解决方案是推测解码(speculative decoding):一个小而廉价的 draft 模型先提出 K 个候选 token,大型的 sharded 模型则在一次管道通过中验证这 K 个 token,然后保留最长的匹配序列。这样,一次昂贵的网络穿越就能换来好几个 token,而非只有一个。


目前已在真实互联网链路上实现约 30-40 tokens per second 的水平,进展显著,但在大规模和用户真正需要的速度上仍未充分验证。这是一个需要真正硬核工程能力的难题。


注意:服务推理远不止拼 FLOPs


把任何 swarm 方法与云托管模型对比时有一个常见陷阱:大家只看 tokens per second,以为这就是全部。


但生产级推理必须把很多事情做好,这些都与原始算力无关:


  • 首个 token 时间(TTFT)与 token 间延迟的平衡
  • Prefill 与 decode 两个阶段(硬件需求完全相反)
  • KV-cache 的放置与传输
  • 流式传输、连续批处理,以及混合负载下的利用率
  • 长上下文行为、冷启动和模型预热
  • 节点波动(churn)


尽调要点:当项目引用吞吐数字时,一定要问它在和什么竞争。中心化的 vLLM 或 SGLang 部署(采用 disaggregated prefill 和 continuous batching)才是真实基准,而且这个基准每季度都在变快。「我们在互联网上达到 30 tokens per second」听起来很厉害,但仍可能缺乏竞争力。


难题二:证明你真的得到了所支付的模型


如果你不信任节点,怎么知道它确实运行了声称的模型,而不是偷偷换成更便宜的量化版本?尤其在涉及挖矿 token 的网络里,提供商很容易「玩游戏」,表面上为你服务实际模型,实则跑更便宜的东西。


目前有五种主流应对方法:


  • ZKML:零知识证明前向传递。加密学上无懈可击,但开销约是原生的 10000 倍。Llama-3 模型生成一个 token 大约需要 150 秒。前沿规模短期内不可能落地。
  • opML:输出附带保证金,开启挑战窗口,通过 fraud-proof 将争议二分到一步,由仲裁者重新运行。近原生速度,但最终性需等待窗口期,且存在「验证者困境」(如果验证成本高于抓到作弊的价值,就没人验证)。
  • Deterministic re-execution:让推理实现字节级可复现,纠纷只需检查字节是否相等。开销低于 2%,由 restaked ETH 保障。
  • Statistical fingerprints:廉价地 hash 或采样计算,大多数时候抓住大多数作弊。不是绝对正确,但快速且适合异构 GPU,这是 permissionless swarm 所需要的。
  • Live-weight proofs:直接采样服务运行时实际驻留的 tensors,与批准模型的 manifest 比对。验证的是「加载了什么」,而不是「输出了什么」,开销仅约 0.1%。这是一个真正不同的思路。


现实权衡是:你只能同时获得这三者中的两种——加密完整性、低延迟、成本效率。ZKML 拿到了完整性,却牺牲了延迟和成本;其他方法拿到了延迟和成本,却只能满足经济或统计完整性。


尽调要点:问清楚项目采用哪种方法、为什么,以及这个权衡对最终产品的影响。


难题三:如何让 prompt 真正保密?


证明输出正确,与隐藏输入是完全不同的难题。在 sharded swarm 里,每个节点都必须解密 activations 才能计算——加密只保护传输线路,保护不了节点本身。


Transformer 的 activations 其实非常容易逆向还原。CCS 2025 论文显示,从中间 activations 重建输入 prompt 的准确率超过 90%。ICML 2025 的「Hidden No More」论文实现了近乎完美的恢复,并击败了 swarm 常用的 noise-and-permutation 防御。


目前唯一稳健的修复方案是一种更重的 sequence-sharded 方案,而 consumer-GPU 阵营中还没有人真正推出,因此这仍是一个 largely 未解决的问题。


一个 swarm 可以宣称「没有节点持有整个模型」,却仍会把每个 prompt 泄露给路径中的任意节点。「没有节点持有模型」从来不是隐私属性。


真正能提供隐私的是硬件或数学方法,而非网络拓扑结构。TEEs(可信执行环境)——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任转移到硬件根并进行 attestation。


全同态加密(FHE)能在密文上直接计算,什么都不信任,但对大模型而言成本目前还不可接受。


尽调要点:项目要么真正拥有其中一种方案,要么就没有隐私,无论落地页怎么包装。


重要提醒:Private 并不等于 trustless(无信任)。TEE 并没有消除信任,只是把信任从节点运营商转移到了硬件厂商、固件链、attestation 服务和 enclave 实现。


真正的问题是:你愿意接受谁的信任根?芯片厂商?restaked 验证者集合?TEE 网络?还是纯数学?


难题四:如何构建真正的双边市场?


前三个是技术难题,第四个是商业难题。


对于服务开放权重模型的去中心化推理网络来说,谁才是理想客户(ICP)?


大多数普通消费者目前正从订阅计划中获得巨大价值——每月 20-200 美元就能用到大量智能。未来这些补贴计划可能会消失或限量,但今天想卖 API 按需付费推理,消费者端非常难打动。


企业短期内也不会成为大买家。或许未来会变,但别指望很快。


真正剩下的两类用户是:1)把推理嵌入自己产品栈的初创公司和企业,他们天然需要 API 计划;2)寻求自身推理能力的自主 AI agents。


初创公司类别是增长中的市场,是一个可能切入显著收入的利基,但短期内价值捕获存在明显上限。AI agents 作为买家则更具投机性——短期内仍需要有人为其付费。


这就是难题所在:如何聚合人们真正想要的模型的有意义供给,而目标用户群体却不太可能是网络上的大额支出者?


唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等项目多年来一直在做这件事,它们通过 token 协调的市场,把整个 GPU 或每节点整个模型容量出租给付费者。这是有先例的。


尽调要点:问清楚项目的 ICP,以及他们如何同时获取目标用户并让供给侧满意。如果一切都建立在投机性 token 上涨预期上,那就是明显信号。


谁在真正解决这些难题?主流项目盘点


目前归入「去中心化推理」类别的项目非常多,但大多数并未平等解决全部四个难题,而是各有侧重。


Petals:去中心化推理的绝对先驱。2022 年证明 BLOOM-176B 可以在消费级 GPU 上以 BitTorrent 风格运行,概念意义重大,但未解决激励、隐私和货币化问题。本质是「Petals 架构 + token」的项目,大概率是 larp。


Dolphin Network:Dolphin 系列 uncensored 开放模型背后的团队(Hugging Face 下载超 500 万)。起源是先有真实用户需求,再包装网络。技术亮点是 live-weight proofs(0.1% 开销),叠加 logprob 指纹、软件完整性检查和账户级 bonding。已生成超 32 亿 token,持续带宽约 9400 t/s,是产品优先、执行力强的代表。


Inference.net(前 Kuzco):对野外模型执行验证最成熟的尝试之一。独特机制 LOGIC 基于 logprob 统计测试捕获模型替换,已生产约 18 个月,舰队规模数千 GPU,是少数同时拥有验证原语和真实运营历史的项目。


Morpheus:去中心化路由与奖励层,提供 OpenAI 兼容 API + 智能 agent 包装器。技术亮点是 TEE 支持的提供商验证(Intel TDX + NVIDIA GPU attestation 已上线)。需持续关注 MOR 排放和真实外部需求证据。


Chutes(Bittensor 子网 64):用户端是 OpenAI 兼容 API,后端是 Docker 打包的 chute 部署到 Bittensor GPU 矿工。分发和规模优势明显,但在验证和隐私上仍有差距。


c0mpute:Solana 原生新项目,Shard 引擎将前沿模型拆分到消费级 GPU 上。已公开 GLM-5.2 744B 和 gpt-oss-120B 的真实演示(30-40 t/s)。技术 artifact 可验证,但仍极早期(仓库刚上线几天,创始人匿名,token 为 pump.fun 微型市值)。


Parallax(Gradient Network):P2P 分布式 LLM 推理框架,支持跨消费级 GPU 和 Apple Silicon 的管道并行分片,让个人或小组织运行「主权集群」。机构背书较强(Pantera 和 Multicoin 领投 1000 万美元种子轮),但隐私方案尚不明确。


Darkbloom:让用户把闲置 Mac 算力变成私有推理市场。每个 Mac 运行整个模型,通过 Secure Enclave attestation 保障隐私。不走 sharded swarm 路线,attestation stack 严谨。已从研究预览进入公开 alpha,真实 traction 值得关注(去中心化不一定必须 token 化)。


MeshLLM:Jack Dorsey 引入、Block 关联团队构建的 permissionless P2P 推理 mesh。基于 Nostr 发现节点,无中心服务器,更接近 BitTorrent 而非 Bittensor。协议优先、无 token、抗审查。


Venice 及其转售生态:整个领域寻找 PMF 和可行商业模式的典范。它本身是中心化但隐私分层的消费者代理,已有效解决部分难题。围绕它形成了 UsePod、AntSeed、Surplus Intelligence 等转售商子生态,主要做需求聚合和结算,而非直接提供去中心化算力。


去中心化推理的胜负之地


成本优势只有在把延迟和吞吐量分开看时才成立。它们是两种不同产品,去中心化对其中一个是税,对另一个则是特性。


中心化明显胜出的场景(去中心化是税):ChatGPT 式交互聊天、实时编码 agent、低延迟语音、高频工具调用、企业严格 p95 延迟 SLA、前沿密集模型的竞争性延迟服务。


去中心化可能胜出的场景(供给聚合优势):合成数据生成、离线评估、批量嵌入、批量 RAG、长期 agent 研究任务、图像视频生成队列、非紧急开放模型推理(闲置硬件边际成本接近零)。


简单框架:延迟重要时,去中心化是税;吞吐量重要时,去中心化可以成为供给聚合优势。


隐藏的长期价值:数据循环


去中心化推理网络还能收集大量有价值数据——合成训练数据、偏好数据、agent traces、评估输出、微调数据、RL 环境、工具使用轨迹等。这些数据可以反哺去中心化训练网络(如 Nous Psyche、Prime Intellect、Gensyn 风格项目),产生更新的开放权重模型,再回流到推理网络。


长期来看,这不是「去中心化训练」或「去中心化推理」的单独赌注,而是一个闭环:推理生成轨迹 → 轨迹成为训练数据 → 训练更新模型 → 更新模型回流推理。


最好的项目会把这个循环作为核心战略,未来训练与推理项目将进一步融合。


实用尽调清单:只需回答这七个问题


  • 它是否真正去中心化?具体在哪些层?(很多只是因为有 token 就贴标签)
  • 你能信任输出来自你付费的模型吗?(确定性、证明、指纹,还是什么都没有)
  • 扣除 token 和协调开销后,是否真的比中心化更便宜?(生产中,而非理论)
  • prompt 是否真正对运营商隐藏?(TEE/FHE 才算,单纯 sharding 不算)
  • 节点不可靠、分散在互联网上时,系统是否还能稳定运行?
  • 是否有人真的在付费,而且是以中心化更便宜的形式买不到的?
  • 团队是否具备真正的 AI 技术能力?(最重要的一条)


额外建议:警惕那些没有可信分发计划的「优雅技术方案」。


我的最终判断


我对那些只对 crypto 原住民有吸引力的类别总体看空(TAM 在我看来吸引力有限)。我更希望看到对非 crypto 用户也有吸引力的项目,把 crypto 机制藏在幕后。


去中心化推理是 crypto 中少数几个真正有突破潜力的赛道——每个人都需要推理,它可以像传统提供商一样服务,甚至通过 OpenRouter 等平台实现无缝体验。关键在于成本、性能和隐私。


建议:支持那些能清晰说明自己去中心化了哪一层、并清楚知道买家是谁的项目。远离那些只把「去中心化 AI」当口号、后面跟一个币的项目。


披露:原文作者持有文中部分项目的 token,未受任何项目影响或获得补偿,判断均为个人观点。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code