澳门娱乐平台 为了Token, 阿里云果然出了一个TPN?

发布日期:2026-04-22 00:28    点击次数:191

澳门娱乐平台 为了Token, 阿里云果然出了一个TPN?

图文原创:亲爱的数据

AI依然是一个澈底围绕Token的生意了,

大致说,Token经济学就是推理经济学,

我认为,今时当天的AI,

连这种基础才智层的东西(比如汇注),

都和业务理念游刃有余了,

这确实一个大趋势。

而TPN自己就是这个趋势的产品。

TPN架构的全称是:

Token Performance Network。

怎样描述我的感受呢?

一个汇注架构用业务术语—

Token来定名我方,

这在当年是不可联想的。

只可说,阿里云的TPN,

是一个时事级的事件。

TPN 的定名自己就很专诚想,

汇注团队不再说"我的带宽是几许",

运行说"我的Token产能是几许"。

著述发轫那么只可解释这样多了,

迅速上车吧。

为什么大神Jeff Dean在GTC 2026上,

会强调这样一句话?

『Agent一朝运行永劫辰自主运行,

超低时延的推理就会变得错误。』

这里有个时期术语,

超低时延是Ultra-low-latency inference。

这话啥道理?

四肢写了AI 基础才智九年的东说念主,

我恨不得,

把Jeff Dean大神说的每一句时期评价,

都尽可能的清醒了。

你问一个问题,模子想了想,总要花点时辰。

只有别太磨叽,都能罗致。

当今换成Agent,

则是另一个游戏法例。

Agent一朝永劫辰我方跑起来,

每一步的"想考速率"就变得生命攸关。

比如,一个任务可能跑200轮。

中间都是它我方玩,

每一轮都有蔓延,

径直推敲成总时辰,

归正时辰老是越加越长。

若是每一轮推理需要2秒,

200轮就是400秒。

7分钟光花在"想考"上。

确实太棒了,

这时候东说念主类雇主就会说,

你能不聪颖?

不聪颖有的是智能体聪颖。

再看"超低时延(ultra-low-latency)" 这个词。

为什么他用这个词,

不是"低蔓延就行",而是"必须超低蔓延"。

我唱和用力卷AI,

以免来卷我。

望望英伟达的Bill哥(Bill Dally)怎样回话的,

Bill哥说,大部分蔓延骨子上来自通讯。

Bill哥还说,"推理不是刚刚运行变得紧张。

推理应今就是中枢任务。

数据中心里90%的机器都花在推理上了。

归正在AI阛阓上,

英伟达公司高管说啥都有几份真理。

你就拼集听一听,

不雅察和孤苦判断更紧张。

比如,你看,英伟达的Groq 3 LPU芯片,

是专门为其中一个阶段(Decode)遐想的,

而不是AI分娩的全阶段。

于是,阛阓上有了"为特定推理阶段定制的芯片"。

是以,这个趋势不单发生在汇注层,

其实通盘AI全栈都在履历通常的交融。

为什么2026年一忽儿冒出一个TPN?

因为游戏法例变了。

2022到2025年,行业的中枢焦虑是:

"模子能不成训出来"。

是以当年(HPN)的形而上学是,

"不吝代价把性能拉满",

当今(TPN)的形而上学是,

"在保住Token产(性)能的前提下,

把老本压下来"。

是以TPN不是HPN的升级版,

是另一个物种。

TPN是汇注层的根据,

Groq LPU是芯片层的根据,

KV-Cache分层存储是存储层的根据。

通盘AI Infra软件栈,

拘谨成"一切为Token管事"。

这确实一场真切的变化。

你不细看,如实会错过。

再看组织团队的KPI变化,

长久以来,

汇注团队的KPI是带宽、时延、丢包率。

推理业务团队的KPI是三个新认识,

TPOT,是Token之间蔓延

Goodput,有用Token隐隐

Cost per Token,每个Token老本。

鄙人一节会伸开。

我看到,新认识把通盘东说念主的地点都协调了。

老掉牙的故事是,

两拨东说念主地点不同,开不同的会,各干各的。

然而,有一天坐下来一皆开会的时候,

发现一个问题:

汇注团队说:"咱们把交换机升级了,

带宽翻倍了"。

推理业务团队说:"用户照旧以为慢"。

双方看着对方,堕入千里默中。

这细目是不行。

阿里云依然回话这种变化了,

TPN就是径直根据,

汇注团队不再说"我的带宽是几许",

而是运行说:"我的Token产能是几许"。

汇注的度量单元从比特酿成了Token。

这不是换个名词的问题,

是新故事的逻辑全部重写了,

逻辑包括优化地点、架构遐想、资源鼎新。

当年汇注优化一条链路,

不需要知说念上头跑的是什么业务。

当今汇注必应知说念,

这条链路搬的是KV-Cache吗?

这是在推理prefill,澳门十大娱乐平台照旧在推理decoding?

回到究诘的干线,

为什么要看新认识?

第一,TPOT(Token之间蔓延),

第二,Goodput(有用Token隐隐),

第三,Cost per Token(每个Token老本)

旧阵营要迈往新阵营,就是靠认识来导向。

这些认识并不是当年十足莫得,

而是紧张性今是昨非。

第一个认识:TPOT,是Token之间蔓延。

一个Agent跑一个任务,

烧1000个Token,

每个Token之绝交一小段时辰,

这就是TPOT。

TPOT长,任务就慢;

TPOT短,任务就快。

就这样浮浅。

蓝本跑完要一小时,TPOT压缩一半,半小时干完。

怎样搞呢?

其中一个错误就是KV-Cache搬得快。

PD别离之后,这些东西不在一皆了,

要通过汇注从另一台机器搬过来。

搬得慢,就等着。

第二个认识Goodput,

是有用Token隐隐。

"有用"这个词如实有两层含义,不成混在一皆。

第1层:基础才智层面的"有用"

这个"有用"温雅的是,

"Token 吐得够不够快、够不够稳"。

跟汇注强磋商,汇注抖动一次,

Goodput就低一分。

第2层:业务层面的"有用"

你说的是另一个维度,

生成出来的Token 是不是用户的确需要的。

『喂妖妖零吗?

这个AI动不动给我1000个字的谣言。

关于Agent来说,100个Agent 内部,

有15个跑得慢,

但要100个Agent全部跑完才能下一步,

这也拖慢了业务,

Goodput 对汇注的条款不是『平均快』,

是『每一次都快』。

第三个认识Cost per Token,

就是每个Token老本。

和钱磋商好清醒,

就是直播间里的主播说的,把价钱打下来。

就一句话:通常的电费、通常的卡,

能多吐几个Token,

每个Token就低廉几分钱。

GPU上电就烧钱,

岂论它在算Token照旧在等数据,

电表都在转。

是以Cost per Token的错误,

不是GPU贵不贵,

是GPU闲不闲。

单元产能高,老本就越低。

通常的时辰下,总产能上不去,

单元产能不可能高。

新时期

认识

讲授了TPN的什么必要性

1.Token之间蔓延

每个token的平均生成时辰,

汇注快了,TPO才有契机降下来,

该认识越低越好

2.有用token隐隐

在章程时辰里,生成有用token数目,谣言不算,该认识越高越好

3.每个token老本

汇注老本和汇注导致GPU空等径直计入

token老本,该认识越低越好

三个认识的属性是啥?

1.TPOT(Token之间蔓延)

是体验认识,度量用户感受。

2.Goodput(有用Token隐隐)是后果认识,

体验达标前提下的最大承载量。

3.Cost per Token是经济认识,生意可行性。

终极优化地点:

在Cost per Token最低的前提下,

最大化有用Token的隐隐(Goodput)。

旧想路是:

假定汇注性能强了,用户体验就好了。

新想路是:

先界说用户需要什么体感,

反推汇注需要作念到什么。

比如,文本的TPOT小于50ms,

语音的TPOT小于10ms。

旧想路下汇注团队不错我方猛猛优化。

新想路下必须跟推理业务坐在一皆。

即就是当年老认识都上了新台阶,

并不代表推理业务部门,

也就是推理集群使用者的用户体验,

咱们当今要和他们一皆共同制定认识。

汇注很过劲,使用者无体感。

想路澈底转向温雅于『体感』,

先作念到体感优,再此基础上缩小老本。

论断很了了了,这是一个Token为中心的宇宙。

汇注的时期考量都融进去了。

按这个趋势,

AI基础才智团队应该长这样:

不再有孤岛似的,

"汇注团队""存储团队""盘算推算团队"。

拔帜易帜的是"Token分娩团队"

你看,顺着我的逻辑,

是不是以为阿里此次组织架构疗养,

是如斯的贼人胆虚。

这是一个在AI海浪下大水勇进的团队。

26年3月16日,

阿里巴巴崇敬成立ATH奇迹群,

地点:创造Token(通义模子侦察),

运送Token(MaaS模子推理),

诓骗Token(千问+悟空+翻新),

AI的基础才智是阿里云与平头哥。

澳门娱乐平台

澳门十大赌城官方网站



Copyright © 1998-2026 澳门十大娱乐平台推荐™版权所有

shcmj.com 备案号 备案号: 

技术支持:®澳娱平台  RSS地图 HTML地图

Powered by站群