

图文原创:亲爱的数据
AI依然是一个澈底围绕Token的生意了,
大致说,Token经济学就是推理经济学,
我认为,今时当天的AI,
连这种基础才智层的东西(比如汇注),
都和业务理念游刃有余了,
这确实一个大趋势。
而TPN自己就是这个趋势的产品。
TPN架构的全称是:
Token Performance Network。
怎样描述我的感受呢?
一个汇注架构用业务术语—
Token来定名我方,
这在当年是不可联想的。
只可说,阿里云的TPN,
是一个时事级的事件。
TPN 的定名自己就很专诚想,
汇注团队不再说"我的带宽是几许",
运行说"我的Token产能是几许"。
著述发轫那么只可解释这样多了,
迅速上车吧。

为什么大神Jeff Dean在GTC 2026上,
会强调这样一句话?
『Agent一朝运行永劫辰自主运行,
超低时延的推理就会变得错误。』
这里有个时期术语,
超低时延是Ultra-low-latency inference。
这话啥道理?
四肢写了AI 基础才智九年的东说念主,
我恨不得,
把Jeff Dean大神说的每一句时期评价,
都尽可能的清醒了。

你问一个问题,模子想了想,总要花点时辰。
只有别太磨叽,都能罗致。
当今换成Agent,
则是另一个游戏法例。
Agent一朝永劫辰我方跑起来,
每一步的"想考速率"就变得生命攸关。
比如,一个任务可能跑200轮。
中间都是它我方玩,
每一轮都有蔓延,
径直推敲成总时辰,
归正时辰老是越加越长。
若是每一轮推理需要2秒,
200轮就是400秒。
7分钟光花在"想考"上。
确实太棒了,
这时候东说念主类雇主就会说,
你能不聪颖?
不聪颖有的是智能体聪颖。
再看"超低时延(ultra-low-latency)" 这个词。
为什么他用这个词,
不是"低蔓延就行",而是"必须超低蔓延"。
我唱和用力卷AI,
以免来卷我。
望望英伟达的Bill哥(Bill Dally)怎样回话的,
Bill哥说,大部分蔓延骨子上来自通讯。
Bill哥还说,"推理不是刚刚运行变得紧张。
推理应今就是中枢任务。
数据中心里90%的机器都花在推理上了。
归正在AI阛阓上,
英伟达公司高管说啥都有几份真理。
你就拼集听一听,
不雅察和孤苦判断更紧张。
比如,你看,英伟达的Groq 3 LPU芯片,
是专门为其中一个阶段(Decode)遐想的,
而不是AI分娩的全阶段。
于是,阛阓上有了"为特定推理阶段定制的芯片"。
是以,这个趋势不单发生在汇注层,
其实通盘AI全栈都在履历通常的交融。

为什么2026年一忽儿冒出一个TPN?
因为游戏法例变了。
2022到2025年,行业的中枢焦虑是:
"模子能不成训出来"。
是以当年(HPN)的形而上学是,
"不吝代价把性能拉满",
当今(TPN)的形而上学是,
"在保住Token产(性)能的前提下,
把老本压下来"。
是以TPN不是HPN的升级版,
是另一个物种。
TPN是汇注层的根据,
Groq LPU是芯片层的根据,
KV-Cache分层存储是存储层的根据。
通盘AI Infra软件栈,
拘谨成"一切为Token管事"。
这确实一场真切的变化。
你不细看,如实会错过。
再看组织团队的KPI变化,
长久以来,
汇注团队的KPI是带宽、时延、丢包率。
推理业务团队的KPI是三个新认识,
TPOT,是Token之间蔓延
Goodput,有用Token隐隐
Cost per Token,每个Token老本。
鄙人一节会伸开。
我看到,新认识把通盘东说念主的地点都协调了。
老掉牙的故事是,
两拨东说念主地点不同,开不同的会,各干各的。
然而,有一天坐下来一皆开会的时候,
发现一个问题:
汇注团队说:"咱们把交换机升级了,
带宽翻倍了"。
推理业务团队说:"用户照旧以为慢"。
双方看着对方,堕入千里默中。
这细目是不行。
阿里云依然回话这种变化了,
TPN就是径直根据,
汇注团队不再说"我的带宽是几许",
而是运行说:"我的Token产能是几许"。
汇注的度量单元从比特酿成了Token。
这不是换个名词的问题,
是新故事的逻辑全部重写了,
逻辑包括优化地点、架构遐想、资源鼎新。
当年汇注优化一条链路,
不需要知说念上头跑的是什么业务。
当今汇注必应知说念,
这条链路搬的是KV-Cache吗?
这是在推理prefill,澳门十大娱乐平台照旧在推理decoding?

回到究诘的干线,
为什么要看新认识?
第一,TPOT(Token之间蔓延),
第二,Goodput(有用Token隐隐),
第三,Cost per Token(每个Token老本)
旧阵营要迈往新阵营,就是靠认识来导向。
这些认识并不是当年十足莫得,
而是紧张性今是昨非。
第一个认识:TPOT,是Token之间蔓延。
一个Agent跑一个任务,
烧1000个Token,
每个Token之绝交一小段时辰,
这就是TPOT。
TPOT长,任务就慢;
TPOT短,任务就快。
就这样浮浅。
蓝本跑完要一小时,TPOT压缩一半,半小时干完。
怎样搞呢?
其中一个错误就是KV-Cache搬得快。
PD别离之后,这些东西不在一皆了,
要通过汇注从另一台机器搬过来。
搬得慢,就等着。
第二个认识Goodput,
是有用Token隐隐。
"有用"这个词如实有两层含义,不成混在一皆。
第1层:基础才智层面的"有用"
这个"有用"温雅的是,
"Token 吐得够不够快、够不够稳"。
跟汇注强磋商,汇注抖动一次,
Goodput就低一分。
第2层:业务层面的"有用"
你说的是另一个维度,
生成出来的Token 是不是用户的确需要的。
『喂妖妖零吗?
这个AI动不动给我1000个字的谣言。
关于Agent来说,100个Agent 内部,
有15个跑得慢,
但要100个Agent全部跑完才能下一步,
这也拖慢了业务,
Goodput 对汇注的条款不是『平均快』,
是『每一次都快』。
第三个认识Cost per Token,
就是每个Token老本。
和钱磋商好清醒,
就是直播间里的主播说的,把价钱打下来。
就一句话:通常的电费、通常的卡,
能多吐几个Token,
每个Token就低廉几分钱。
GPU上电就烧钱,
岂论它在算Token照旧在等数据,
电表都在转。
是以Cost per Token的错误,
不是GPU贵不贵,
是GPU闲不闲。
单元产能高,老本就越低。
通常的时辰下,总产能上不去,
单元产能不可能高。
新时期
认识
讲授了TPN的什么必要性
1.Token之间蔓延
每个token的平均生成时辰,
汇注快了,TPO才有契机降下来,
该认识越低越好
2.有用token隐隐
在章程时辰里,生成有用token数目,谣言不算,该认识越高越好
3.每个token老本
汇注老本和汇注导致GPU空等径直计入
token老本,该认识越低越好
三个认识的属性是啥?
1.TPOT(Token之间蔓延)
是体验认识,度量用户感受。
2.Goodput(有用Token隐隐)是后果认识,
体验达标前提下的最大承载量。
3.Cost per Token是经济认识,生意可行性。
终极优化地点:
在Cost per Token最低的前提下,
最大化有用Token的隐隐(Goodput)。
旧想路是:
假定汇注性能强了,用户体验就好了。
新想路是:
先界说用户需要什么体感,
反推汇注需要作念到什么。
比如,文本的TPOT小于50ms,
语音的TPOT小于10ms。
旧想路下汇注团队不错我方猛猛优化。
新想路下必须跟推理业务坐在一皆。
即就是当年老认识都上了新台阶,
并不代表推理业务部门,
也就是推理集群使用者的用户体验,
咱们当今要和他们一皆共同制定认识。
汇注很过劲,使用者无体感。
想路澈底转向温雅于『体感』,
先作念到体感优,再此基础上缩小老本。
论断很了了了,这是一个Token为中心的宇宙。
汇注的时期考量都融进去了。

按这个趋势,
AI基础才智团队应该长这样:
不再有孤岛似的,
"汇注团队""存储团队""盘算推算团队"。
拔帜易帜的是"Token分娩团队"
你看,顺着我的逻辑,
是不是以为阿里此次组织架构疗养,
是如斯的贼人胆虚。
这是一个在AI海浪下大水勇进的团队。
26年3月16日,
阿里巴巴崇敬成立ATH奇迹群,
地点:创造Token(通义模子侦察),
运送Token(MaaS模子推理),
诓骗Token(千问+悟空+翻新),
AI的基础才智是阿里云与平头哥。
澳门娱乐平台