业界全力提升 Token 速度、降低成本,支撑千行百业跨越智能体规模落地临界点。
文|游勇
编|周路平
不久前的 2025 人工智能计算大会上,浪潮信息公布了一份业内瞩目的成绩单:基于元脑 SD200 超节点 AI 服务器,DeepSeek R1 大模型 Token 生成速度仅需 8.9 毫秒,创造国内大模型最快 Token 生成速度;而最新发布的元脑 HC1000 超扩展 AI 服务器,实现每百万 Token 成本首次击破 1 元大关。
浪潮信息在推动 AI 推理正式进入" 10 毫秒、1 块钱"的时代,而背后是底层算力在应对智能体大规模应用时面临的两大挑战:一方面,多智能体之间的交互,对响应速度更加严苛;另一方面,智能体带来 Token 消耗量的指数级增长,如何降低 Token 生成的成本,成了智能体大规模应用以及未来能否实现商业闭环必须要攻克的一环。
在业内看来,Token 速度的提升和成本的大幅降低有望推动千行百业加速应用智能体。
速度与成本,已成智能体时代头号敌人
今年初,DeepSeek 在推理模型上的进展以及 Manus 令人眼前一亮的实践,快速推动大模型从训练进入以智能体技术为代表的推理时代。能够实现自主规划执行路径、灵活调用工具的智能体,无论是在 C 端应用,还是在 B 端市场,都爆发出巨大的应用潜力。今年也被认为是 Agent 元年。
德勤预测,到 2025 年,将有 25% 的企业部署生成式 AI 驱动的智能代理;到 2027 年,这一比例将升至 50%。
2025 年 8 月,国务院也出台了《关于深入实施"人工智能 + "行动的意见》,明确提出到 2027 年,新一代智能终端、智能体等应用普及率超 70%。
而中国人工智能企业的数量已经超过 5000 家,平均约 11 个小时就有一家人工智能企业诞生。智能体落地如火如荼,各类智能体产品和智能体开发平台层出不穷。无论是汽车、金融、网络安全、电商以及协同办公等行业都在探索智能体的应用场景。而在编程、客服、营销、办公助手、商业智能、知识助手等通用场景已经看到了成效。在不久前的 WAIC 上,各厂商的重心几乎都放在了智能体的落地上。
"智能体已经进入到大规模商业部署的阶段。"浪潮信息首席 AI 战略官刘军说,国内几个头部的 AI 产品,调用量已经非常大,Token 增长的比例都是每月几倍的增长,而国内今年比去年的 Token 调用量可能会上升 50 倍。 2025 年 5 月底,火山引擎透露,豆包大模型日均 tokens 使用量超过 16.4 万亿。腾讯在今年 9 月表示,现在用户每天向元宝的提问量已经达到年初一个月的总和。
但行业烈火烹油的背后,大模型应用落地从训练走向推理,这也给行业带来速度与成本的双重考验。
百度智能云 CEO 沈抖曾提到,因为在大模型推理上,推理的工作负载会随着流量规模、输入输出长度的变化而变化。为了保持高吞吐、低时延,往往需要多个节点之间协同完成计算与通信。如果通信和计算的调度不够高效,就会造成算力空转、等待时间增加,推理性能下降,"这个时候,单靠堆卡是不够的,需要做系统性的优化。"
"智能体进入大规模商业化应用时,响应速度成了企业的核心竞争力之一。"刘军说,"对于 Agent 速度的痛点,大家在产业里面感知到了,但是一直没有很明确地去把这个问题放到这么重要的位置上。"
过往是以 Chat 为核心的人机交互,对延迟没那么苛刻,只需要跟上人的阅读速度就基本能满足需求。但智能体时代,人机交互进化成智能体与智能体之间的交互,而智能体接收信息的速度几乎没有上限,智能体之间的交互对于延迟的痛感越来越强烈。比如金融行业的欺诈检测需要做到 10 毫秒左右、具身智能的规划决策需要做到 50 毫秒。
而且,随着单一智能体走向多智能体,每一个环节的延迟都会累加,最终让延迟变得不可接受。"如果延迟不做到足够低的话,没有商业的可能性。"刘军说。
除了推理模型的响应速度,旺盛的需求和 Token 的指数级增长也给全行业带来另一个幸福的烦恼:底层的算力基础设施能否把推理成本做得足够低。
"我们看到了 Token 成本带给整个产业的巨大压力。"刘军说,"客户最关心的问题转为了成本是不是足够低,是不是能够实现一个超大规模的扩展,使得我的基础设施能够支撑大规模应用服务的能力。"
当前,企业部署一个智能体平均每月的 Token 成本大概是 1000 到 5000 美元。以 OpenAI 的 GPT-5 为例,其在处理复杂任务时,输入 Token 成本为每百万 1.25 美元,输出 Token 为每百万 10 美元。
尽管行业的 Token 成本每半年就出现较大幅度的下降,但随着大规模应用,如何降低成本依然是行业所关心的话题。尤其是超大规模的商业用户,对成本的感知会更加深刻。
"省成本是用户体验非常重要的一个指标。"百度集团副总裁侯振宇说,百度智能云针对推理服务,重新设计了调度器、加速引擎与 KVCache 系统,在万卡集群规模上实现了吞吐大幅提升与首 Token 延迟显著下降。
国庆假期前,DeepSeek 专门发布了新款推理模型,引入全新的稀疏注意力机制,实现了推理成本大幅降低,开发者调用 API 的价格降低 50% 以上。
火山引擎也是国内在 AI 推理上降价最为凶猛的云厂商之一。火山引擎总裁谭待曾表示,单个 Agent 任务的 Token 消耗量可达传统聊天场景的数十倍,成本成为规模化应用的掣肘,"过去人与模型聊一小时耗 20 万 Token,如今 Agent 处理一个复杂任务就要 20 万 Token,降价是普及的前提。"
春江水暖鸭先知。当这些模型厂商、AI 云厂商表达出对速度和成本的强烈痛点时,作为国内算力龙头,浪潮信息所处的生态位,也让其更早地捕捉到行业演进的趋势,"或许一般规模的企业当下对成本的感知不强,但成本一定是在超大规模的商业用户首先感知到这样一个差别。"刘军说,浪潮信息正在基于底层计算架构的创新优化,探索了一条更契合行业发展的降本提效路径。
浪潮信息如何做到" 10 毫秒、1 块钱"?
作为浪潮信息在推理场景的主打产品,HC1000 和 SD200 背后有着明确的客群。HC1000 会更适合大规模的互联网客户,他们对控制成本有着更强的感知和需求。SD200 则是满足在行业应用时对延迟要求敏感的客户,强调人工智能 + 产业落地,比如金融行业、具身智能等。
"我们不会为了技术而去做技术,为了指标而去做指标,更多是针对产业的核心挑战来针对性地优化设计。"刘军说,浪潮信息在解决算力痛点时,一直坚持的思路是以应用为导向,以系统为核心。
浪潮信息针对 Agent 的全链条做了深入细致的量化分析,找到了每个环节可能会影响速度的因素,然后集中在核心部分进行攻关。
比如浪潮信息发现,智能体之间的交互,通信数据包相对较小,超大带宽的用途不是特别大。刘军做了个形象的比喻,就像是从 a 地到 b 地修了 16 车道的高速公路,但是车辆在 16 车道上只跑了很短的距离,反而在上高速和下高速这两个节点花了很长时间,"我们重点就解决了车辆上高速和下高速的速度问题,让车辆直通上去,直通下去"。
此外,浪潮信息也对架构层面做了创新,比如元脑 SD200 采用了创新的多主机 3D Mesh 系统架构,将多个主机的 GPU 资源整合成一个统一的计算域,并且当中能够实现跨主机域全局统一编址。并且通过 Smart Fabric Manager,元脑 SD200 实现了超节点 64 卡全局最优路由的自主创建,保障 AI 芯片间通信路径最短,进一步缩短基础通信延迟。
而影响 Token 生成成本的一个关键因素是目前推理的算效太低。刘军透露,大模型在推理过程中的算效比非常低,"可能比训练低甚至一个数量级以上。"
其中,推理算效低的一大原因在于计算负载不均衡。
业内目前的普遍做法是 PD 分离,将预填充和解码两个阶段分开部署,实现了计算资源的更细粒度调度与利用,为提升吞吐、降低延迟提供了结构基础。
除了业内常用的 PD 分离,浪潮信息在背后做了更多的分离技术来提升算效。比如在 Decode(解码)阶段,把注意力计算和 FFN 计算拆开,在 FFN 部分又把不同的专家拆开。通过这些充分的拆解和解耦,让每一块 GPU 的计算效率足够高,最终带来了算效的倍数提升。
浪潮信息最新发布的元脑 HC1000 超扩展 AI 服务器就采用了全对称的 DirectCom 极速架构,可以智能调度每个环节的算力需求,不让计算资源闲置或等待,让它时刻处于计算和通信状态,整个网络的利用率接近 98%,"把计算利用率调提高将近 7 倍"。
而在硬件层面,元脑 HC1000 创新了 16 卡计算模组设计、单卡"计算 - 显存 - 互连"均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据测算,元脑 HC1000 的推理性能相比传统 RoCE 提升 1.75 倍,单卡模型算力利用率最高提升 5.7 倍。
而且,当推理过程被尽可能地解耦之后,系统对单芯片的性能依赖也大幅减小。过往,业内主流 AI 芯片的解题思路是在不断提升单芯片的性能,相当于一个六边形战士。但如今解耦之后,每个阶段对芯片的需求出现差异,用户可以不用昂贵的高带宽内存,也能获得很高的算效。这种全局的解决思路更适合当前国内因为难以获得高端 GPU 卡而出现的算力瓶颈。
当然,从产业发展的视角来看,百万 Token 输出成本一块钱是当前国内的最佳水平,但远不是算力演进的终点,"未来 5 年我们评估的数是随着 Token 数量的增长,需要相对应的实现单 Token 成本同等的数量级的下降,才能保持一种平衡。"刘军说。
结语:AI 计算架构将走向专用
本质上,当前的 GPU 和 ASIC 芯片都是通用计算芯片,不是针对大模型去做的极致优化,里面仍然有很多的冗余。"要跟上 Token 高速增长的步伐,我们就一定要去革新计算的架构。"
刘军认为,当行业处于 AI 应用的起步和探索阶段,平台开发生态的通用性会更加重要,可以实现与不同的开发生态和软件生态耦合。但如果进入到大规模商业部署阶段,这种模式很快会遇到瓶颈,普惠 AI 将变得遥不可及。
"只要形成了一定的产业规模,最终会向极致的定制化和专业化的设计转变。"刘军说,"这是一个专用与通用对立统一、交替发展的过程。如果说 AI 的上半场是训练,那么下半场将是推理。大模型具有一次训练、无限次推理的特点,而模型权重在推理时是固定的,采用算法硬件化的专用计算架构将更适合推理场景,这应当是未来的发展方向。"
刘军提到了一个例子,D. E. Shaw 研究所是搞量化的鼻祖,这家机构为分子动力学打造了一台特殊设计、功能单一的专用超级计算机 Anton,通过算法创新和软硬件协同,最终使得其在分子动力学模拟中获得了比通用计算机高出百倍的计算能效。
这给 AI 计算架构也提供了借鉴。当大模型进入到一个规模海量、应用非常集中的阶段时,"通用就一定不划算",浪潮信息认为,采用算法硬件化的专用计算架构更适合推理场景,探索开发专用大模型芯片,实现软硬件深度优化,针对大模型的核心算法算子去做极致优化,"只有这样性能扩展定律才能跟得上 Token 增长的海量需求"。
© 本文为数智前线(szqx1991)原创内容
进群、转载或商务合作联系后台
文章精选
辉煌配资-网络炒股杠杆平台-股票配资公司开户-杠杆配资开户网提示:文章来自网络,不代表本站观点。