舊版小屋將於 114/12/31 後正式結束服務,詳情可點擊此公告至討論串查看!

創作內容

1 GP

準備9月份彙整中...2025/12/6小更

作者:垂暮龍-青月(動物朋友│2025-09-21 03:12:45│巴幣:2│人氣:30
還在準備9月份彙整發生哪些事件值得張貼,例如一些人對於模型的研發研究已經到了相當不錯的地步,有些人還成功將一些理論效果較好的參數規模架構實現出來了,這是相當好的提升。

https://github.com/KohakuBlueleaf/HDM-ext

這個項目挺有趣的。

另外吐槽現在亂七八糟的人太多了,連AI目前用途用法統計都沒有整天在吹H20。

當然我不是說nvidia爛或中國好的事情,而是很多人連技術細節最『基礎』那部份都沒想過問題。

然後犯弱智到不能再弱智的計算題問題,連基礎可以驗證估算的東西都不知道也敢說自己是工程師或什麼鬼的,這種亂七八糟的傢伙...

這類問題在目前LLM當紅的當下簡直就是鬼神,連LLM的輸入token和輸出token影響與估算估計都不會。

輸入的token因為都是事先打好一長串送出的,已經都是知道的內容所以可以輕鬆自動把batch拉到到合適點,直接計算瓶頸所以輸入到解碼輸出等待這階段你打1萬字如果等價8000 token的話,那麼每秒計算能力足夠到瓶頸情況下可以解碼非常快...例如

已經知道一張顯卡每秒鐘1TB/s的VRAM頻寬,又知道計算能力為300Tflops(不考慮bf16/fp8等等問題),只要大於batch size 300甚至280等接近就滿載了。

又知道一個參數7B實際大小約10GB包含各種精度,直接簡化估算為1TB/10GB=100Token,然後batch size直接可以拉滿的長度(token很長),輸入進去直接瞬間解碼完畢...

但是解碼階段又出問題了,因為會逐漸一個一個吐出來依賴前面,沒辦法當作輸入時一次大批量,盡管有推測解碼等技術可以一次加速3~5倍甚至更多如句子級預測,但是batch size仍然偏小,要有效運用必須要有足夠大量的任務一起發生,例如同時間很多人都要解碼輸出可以這樣丟到一起批量解碼加速,充分利用有限的VRAM頻寬從而計算瓶頸。

當然以上條件限制在於batch size上去容量會爆炸...所以只能看實現的系統怎樣評估負載工作了。

除非你的任務都是超長輸入token,但是很短輸出,否則很難整體一直計算瓶頸,反之則是很短輸入卻很長輸出就是頻寬瓶頸。

當然這裡面不包含模型加載處理耗時和思考卻思考過程被隱藏起來的耗時,這兩部分一個不算提示處理一個算解碼...。

例如大海撈針或找問題之類任務都會輸入很多輸出很短,不過主要是因為推測解碼等技術加乘不夠大,無法充分利用滿計算能力所致解碼這部分瓶頸顯得特別耗時才慢,對於個人用戶來說等待輸出的字是很漫長的時間...

還要考慮多輪對話反覆輸入等問題,只能說都算限制,只是H20這種計算被砍殘的對於大批量用戶集中式,首先提示詞處理也就是輸入處理太慢了,其次是解碼在用戶數量足夠同時使用時集中處理,也會是計算瓶頸...非常快就到了,導致性價比表現差勁。

當然也不是說未來能把解碼問題徹底解決就完事了,batch size無法無限往上拉,演算法會影響梯度值或推理過程數值變化,無法無限往上加大,其次是要拉高計算強度也必須把容量也同時拉高,最終幾乎百分百撞容量瓶頸而不是計算瓶頸,因為RAM容量可比堆張量計算難...這可要考慮到很多部分。

要解決中間處理過程數值變化穩定結果,需要付出更多計算代價進行統一的數值處理順序,會導致計算單元被耗費掉,不過一般ALU過剩就是了除非你任務嚴重計算瓶頸導致時間耗時佔比很巨大...直接給你再翻倍張量單元和多倍標量ALU好了。

盡管可以像插記憶體那樣肆意擴張,但最後batch size非常大的時候還有一些原本可能可以忽略的延遲類型也展現出來了,你可以同時擴張頻寬和容量但互連複雜度勢必高速上升,如果要維持互連複雜度如硬體成本和設計成本不能一直增加,就會產生管線化之類的設計,最終將延遲增加到可見程度,而不是什麼地方都能完美被batch覆蓋就會產生顯著的延遲,並最終導致整體利用率卡到某種程度就上不去了,管線必有空泡只是有大有小。

老實說目前時代硬體問題除了一系列軟體開發問題外,還有一個就是RAM的容量和頻寬始終不夠用,Tensor core的能力是最小的問題當然很好取代,當然H20這種砍廢系列的除外謝謝。

不要只會看計算,要先看容量和頻寬合不合理,你是提供服務且大批量的還是普通用戶?很多東西是可以計算的,但只是缺乏有人統一弄個簡單計算器給你估算,這東西根本沒什太多技術含量,只要用心整個流程學完實踐根本不難計算估計甚至測量。

但不是每個人都知道去哪找訊息,也很難閱讀完整,靠AI又有可能會被AI掰錯計算,也就很難估算成本、耗時了。

老實說目前AI也就部份創新架構、有用的實驗、經過驗證的理論值得花時間了,如果你還浪費在奇怪無價值重複開發的東西,就是那些沒辦法脫離大型公司實驗的變成商業產品的LLM或一些東西,我建議不用花時間去看了...

灌水論文、灌水營銷影片...建議多花點時間先看商業產品,後花時間追蹤發展軌跡,當然不是說他們絕對正確,而是說相對來說夠正確,其他的說得天花亂墜結果存在缺陷不在論文中展示,實際上很致命無法使用,那又有何討論價值呢?連審稿人都未必會發覺...

_________
理論上來說,具備有平滑性的系統可以遷移到其他系統上重現狀態,具備有高階平滑性的系統更為理想,但前提是被遷移到的目標系統上也要具備有高階平滑性。(光滑函數、平滑函數是指Smooth function)

目前Transformer改來改去還是不能完全徹底擁有此性質,例如激勵函數ReLU,到注意力機制和位置編碼,太多部份都無法被證明擁有高階平滑的屬性,處於一個『可以平滑』但不夠『平滑』的問題。

這意味著你永遠增加採樣率都無法採樣到極高頻訊號和重現,以波形這類呈現來說,又或著說你無限增加維度並把運作過程中甚至輸出入都是超級大的表格,而表格在缺失數值狀態下填充進入,永遠無法完美預測,因為永遠都有雜噪或各種因素造成預測偏差過大。

上述來說證明有些問題是無法分解和組合

AI很喜歡線性的系統,並不只是適用於硬體而高效高利用率,對AI的效果也是好容易高精度。

本質上就是複雜化的大型表格,使用各種方式填值,沒有什麼神秘的面紗和問題,有解決問題的極限能力,例如某些問題永遠不具備高階平滑性甚至不具備平滑性,無限增加採樣也不會完成該任務,那麼你打造的AI系統根本不可能預測,例如天氣大氣流水地震一系列種種問題都沒能被有效發掘出強力的平滑屬性甚至得到解析公式、精確解公式。

不過這個大表格很動態變化且沒有標示格子屬性,基本上完全靠猜和耗時耗力使用消融實驗手段等確認檢查,耗時費力幾乎不具備有商業意義,無法即時剖析定位問題修正,只能完全處理完成後採樣檢查並固定一些來修正,但是修正完一個問題又會多問題,耦合程度非常高近乎無解。

對於已經有明確解答公式甚至沒有捷徑可繞加速的解法,這類型AI毫無效率意義,例如很規則數據用SQL處理就好了,根本不需要AI或LLM這些,完全固定JSON、XML而不是會變動的要LLM處理幹嘛?

對於極端複雜甚至超出可以採樣數值歸納出規律的事情,也毫無意義例如沒辦法有經驗解的東西都是,但是對於這類問題就是人類目前都未必探索完,可以拿AI當檢驗確認。

對於太簡單的事情不需要AI可以程式化,對於極端複雜的問題AI也會失效,你永遠都需要去理解這些問題的性質甚至去轉換語言描述去數學公式驗證嚴格化。

老實說也只能逐步改進現有的東西,每個人都在想解決部份環節的問題,但是大目標不明確難理解,判斷標準不一...沒有什麼神奇的萬能藥,所有萬能藥都是過度簡化問題後才得到的幻想而非真實,你只能接觸到有限的樣本解決有限的問題...

很多時候討論問題實質都被限定在某種方向、範圍,只是人很容易不自知,最終往往需要做的事情都是超出範疇的,那麼所做的改進當然毫無意義

如果有人拋出一個實際上依賴很多東西才能完成的事物,但是說只要一點小改進就能完成非常困難且依賴巨多的問題並做到,你應該要想一件事情,這個人是騙子還是把事情想太簡單的白癡呢...

這人除非是個上帝巧妙到以很小的改動完成使用與證明有萬物共有的理論,並透過這套理論來輕鬆驗證所有事物只要怎樣做就能行,否則在不確定的情況下應該放棄萬能工具的想法。盡管現在許多公司可能大目標就是一個模型、一套模型來完成人所有需求就是了...

只是完成的工作量可能非常巨大...因為你得想辦法弄到樣本、創造樣本外,還要知道系統能做到什麼,以及系統是否能確定做不做得到,這是一條很長的路途,感覺不是單純的跑分benchmark多、分高就有用。

老實說我也不懂AGI到底是什麼和怎麼定義標準...AI這條路很長很迷茫需要太多人探索,可惜探索的幾乎所有路和地圖大多數都是無用的,瘋狂無止盡的燒錢。


____________
2025/10/6

有點懶得彙整了閒聊下問題....

現在好像很多人沒去計算思考一些限制的本質...

1.transofmrer和cnn的存取性質問題

首先對於神經網路的任意設計,只要不是局部循環而是所有權重都必須遍歷,則必然會從cache從被擠出來一直循環,大規模純粹的遍歷只能提高預取效率從而最大化硬體理論值的利用,例如理論200GB/s就能用到200GB/s,而不會節省更多絲毫,那個必須局部重複循環利用才能超越200GB達到更高效益。

無論哪個架構設計,權重越大並且都需要遍歷所有權重情況下總是有一個下限存在,也就是模型大小多大,只要超過SRAM或稱Cache部份幾乎就是爆炸徹底依賴VRAM頻寬,除非你模型小於SRAM,這時候就真『重複』了。

而分塊分層存取目的是為了減少不必要的重複,例如10GB權重最終因各種因素高效的管線利用率抵達10GB這樣理想值,實際可能只有9.5GB好了(最終等價10.5GB的量是利用率限制),在計算後等價10.5GB又因為沒辦法有效放進去分解矩陣乘法外積等進行加速,最終可能13~14GB每個token。

然後注意力機制和複雜度大增的情況下會增加注意力方面重複計算,注意力又偏向實現時有很多向量部份耗時,分解小矩陣又很適合放到SRAM或cache上,然後向量部份計算行列消耗很多頻寬,但至少比不分解一直全搬硬搬好得多。

隨著上下文增長KV cache(預填充到解碼),以及注意力計算量增長和存取模式多少有些變化,最終會導致13~14GB又往下跌到20GB/token甚至更慢,為了提升存取的局部性來恆定成本不使其繼續增長,不使最後整體成本趨近二次方增長,所以才需要這樣做。

你架構和硬體再神奇也只是在這限制上提高效率,只要你還需要所有權重都『走一次』,並反覆都這樣,那依舊卡在一定條件限制下不去。

即使CNN卷積核之類設計更大,計算強度更高本質仍然不變,統一轉換下就發現限制還是存在,只是給定頻寬限制下可以利用更多計算,或著說需要更多計算避免降低token性能而已,並獲取一些性質的提升,但跟計算/頻寬/容量並非直接關係,而是很間接例如某些指標達標可以放寬限制壓低模型權重大小,從精度或參數量壓低。

不過仔細想想以前自己一些說法確實會讓人誤會誤導,就算transfomrer爆改也不可能很local甚至比CNN還低,而CNN已經算比MLP好了,MLP幾乎是基礎不會再更低,你創新架構要脫離好幾層束縛,才可能大量權重非常稀疏很局部依賴不需要全遍歷,就目前來說幾乎沒有這種東西...

MOE算朝這條路前進,但是MOE本身減少的權重遍歷屬於MLP段,多專家拼接後和共享後還是等價相似大小的稠密模型,也就是激活部份仍然很大遠大於目前硬體的SRAM,都是4~8GB以上。

注意力方面理論上仍是bf16/fp16主導,激活和權重至少fp8甚至fp16/bf16,MLP部份權重可以壓低到fp4/fp8/int4/int8這種程度,其餘部份保持合理約fp8中間。

若tok專家和token選擇足夠的local,假設激活權重部份約3B,混合注意力+MLP部份後約9~11bit左右每參數,又能掩蓋存取其他權重進來時,假設範圍連續8個token接下來完全不一樣。

好吧懶得算,簡單來說成本大概3B*(9~11/8)*存取掩蓋的延遲效率*(接下來取得範圍/可以預測到一定範圍)?

如果要有效節省VRAM,你的可控的Cache要大於這麼大的部份,還包含一些額外如KVcache那些的,幾乎需要高性能互連解決,但高性能互連又受限各種因素幾乎不可能有到GDDR7或HBM快,不然就是超快片上網路來設計共享變大SRAM和調度...

算了老半天還不如加大HBM/GDDR,懶了...

反正預填充部份對transfomrer等價就是拉大batch size,所以偏向計算瓶頸而解碼部份則難以並行需要多用戶調度降低成本,提高解碼batch size如推測多token解碼,從而拉高計算強度利用。

兩者同樣都需要相似高的容量裝,唯一一點就是可能側重計算或側重記憶體頻寬數倍...沒了。

預填充計算完後把KV cache轉交出去,不過CPX這種2026年底產品128GB感覺可能不夠用...應該是給MOE類型模型玩的= =...

考慮到直到現在給出的硬體參數,幾乎互連與單卡內部頻寬仍差距巨大,走MOE路線並適當存取對整體系統較好,即使最初GPT4那樣推測或半公開的1.76T參數實際上就是MOE模型,稠密模型根本不建議也不要超過單卡硬體上限,互連頻寬太低了。

GPT3那樣175B稠密模型或更大,會導致實際使用上很大程度會被浪費或管線化設計分解帶來許多問題,盡管可以分層一些設計從而卸載互連頻寬開銷,但是嵌入或隱藏層維度大小仍會帶來不低成本。

也就是說稠密可以做很大,然後拆分每層送到每張卡上管線化,但延遲那叫一個高...把單層做大互連頻寬直接告訴你謝謝再聯絡的事實...

以前還能限制嵌入維度8192把層弄超深,另外llama4 405B的失敗也證明繼續拉高維度和層數意義不大還存在許多問題,當前PCIE和互連頻寬限制8192和12288就是最佳解答了,後續MOE也是往這方向限制了注意力維度和MLP維度(例如8192*n如n=2.5~3.5),不會再繼續大了而是堆整體參數大小。

你可以固定單層大小並一直加層,但是再深也要有內容差異可以區分才行,否則捕捉目標都沒有你打算捕捉什麼...捕捉空氣?

結果就是現在頭64而層80激活權重參數,B值不會太大然後追求稀疏化堆專家數量和設計更稀疏的網路更稀疏的注意力...

考慮到可能務實點遵守硬體限制,現在內部肯定都高度MOE避免複雜互連拓樸和解決方案從而帶來低延遲高性能,有一定理由去想可能MOE活動參數最終不會超過單卡容量。

也就是說實際上普遍作為推理卡成本較低的RTX 6000 ada或RTX pro 6000 blackwell,猜測激活約32B(小於48GB)或是64B(小於96GB),當然你要用H100或H200甚至GB200更貴的來推理我沒意見啦...去看下現在的雲端租金價格,還有解碼時部份頻寬與單位價格頻寬成本算一下。

搞模型就是來賺錢,合理成本下提供最大性能的,其餘免談...話說什時候能把互連設備價格降一下,雲端類似設備租金太貴了,老子要省錢。

對了,token等同於權重容量基本上可以被驗證沒有問題,一定因為所有元素都要參與計算至少一次,不考慮MOE情形下就是這樣。

然後batch size拉大可以重複利用權重,所以可以相對省下一大筆開支,等同於同時做非常多件事情且能一次做很方便做。

在訓練時權重影響VRAM不隨批次上升,但是每token的中間激活值會等比上升,batch size高相當於每次梯度更新由N個樣本只更新一次權重,故效率極高,只是會發生一點變化不同。(不同batch size優化器差異)

然後推理時預填充與解碼亦同,batch size省得就是權重那部份。

然後預測多token解碼等本質上batch size恆定,機制不太相同但消耗更多計算強度,類比等價3~5token同時解碼(相等3~5batch size)但計算強度更高一些(可能有額外浪費),並且影響不一。

盡管有非MOE稀疏類優化方法去避免存取VRAM或塊記憶體,但貢獻不大...

解碼需要大量用戶請求做時間步/層批合併...

_____
10/9

理論上來說只要能有效調度甚至手動分配最優策略(完全固定性質循環從而達可分析的最優),理論上SRAM最大節省頻寬比例同權重可以被SRAM容納部份。

但是由於動態變化和極其複雜的的大小塊和交互關係,使得幾乎會遠離該理論極限。

這導致說超大塊SRAM帶來的收益可能不夠大,只能有效解決小分塊高度循環反覆,也就是高時間局部性的任務。

而在非常複雜的容量與需求變動中得到最優解幾乎是困難的,以至於可能80%VRAM容量(或SRAM容量)可以省掉80%的頻寬,實際上變動部份再加上速度差以及各種因素直接起步只等效60%,再加上實際複雜因素直接一口氣跌到20%以內...

能省20%看起來很多,但得看面積成本收益...然後實際上如果還不夠理想速度繼續崩最終能快8-10%就不錯了。

最終因為跨設備速度差12倍,考慮各種因素延遲導致實質速度差可能16~20倍,最終可能跌到只剩相當於1/20*1.1~=1/18的速度。

如果很完美處理這些問題,80%容量假設可達64%速度,相當於省下64%資源(100%容量假設省下90%來算理想100%),簡單計算就是慢到只剩1/7的速度左右。

90%的容量可達80%的速度時->慢到只剩1/4的速度。

100%容量90~95%速度時->1/2速度甚至到達90%以上速度,幾乎沒miss...至於說為什麼100%容量還不夠,因為總是有意外且假設擠很滿且都『需要』,額外追加幾%容量後達到100%速度。

老實說就算只是局部激活的MOE模型實質也都差不多要6~8GB了..除了那種晶圓級單片的,誰都想像不了怎裝得起來。

上述是大致經驗值,當前晶圓級AI晶片有做到44GB SRAM不過天價級...不裝KV cache在推理時理論上能裝下激活剛好32B這程度...如果注意力再壓一下,一般注意力+共享MOE部份+專家MOE都可能會比這大,如果是那種數百B的大模型。
_____________________________
11/8

雖然有很多雜七雜八的東西但還是決定不放了,例如RAE那些一堆的太多,近期進步很快很期待明年。

老實說回顧之後發現fp12之類精度的預測可能要延期很久了,原本預期說參數和預訓練token總數會一直持續上升,但近期隨著看越多和一些可能跡象表達,參數增長幾乎很少了被侷限在1T規模等級的參數量,而且fp8/int8這類理論訓練可能約100T的訓練token始終沒有到達。

盡管有一些洩漏,可以猜測大概訓練規模止步在40~80T token間,可能都在40~60T token就沒有繼續往上堆訓練規模了。

而且甚至其中可能5~20T甚至更多都是合成出來的,並非真實既有的數據。

且越來越多實驗研究和實戰人員分享,稀疏這條路上要比稠密高一些精度,例如MOE也就是MLP層到了4bit就很難往下了損失太嚴重,而稠密不一定可以好跑fp8注意力但稀疏更要求精度,從而導致現在注意力方面需要bf16。

而注意力層的主要維度和MLA、GQA這類型設計後佔比參數小得多,而MOE即MLP部份大得多,從而盡可能壓低整個模型權重。

尤其主要量化部份在MLP方面平均每參數4.25bit來說(32個區塊int4+一個縮放int8/fp8甚至bf16)也就是4.25~4.5bit在MLP,比如以前標準Q4就是bf16+32個int4這樣玩,當然得看各種實施標準和命名就是了...

盡管記憶很重要,但是注意力更重要尤其維持上下文有結構、條理或邏輯推理能力和追蹤都要更高精度要求,但注意力部份又是不太能卸載出去需要長期佔據VRAM甚至是頻寬主要消耗者之一,尤其是長上下文時。

盡管Q6Q8更趨近極低損失甚至無損,但是有很多時候這極低損失似乎沒有那麼必要...而且都有辦法額外填充進去例如RAG和MCP這些方式。

而且尷尬的點在於以計算能力來說fp6跟fp8是一樣的,同理若有fp12那也會跟fp16一樣快,差別在於不用更多處理就能節省頻寬和容量而已。

只有fp4是比fp8更快,以此類推2^x。

當初預估參數越來越多,訓練token越來越高可能卡到瓶頸了,而且一般定價token多少都有規律,所以可以猜測背後運行的模型參數量多大,即使是可能最大的模型GPT4.5也可能就2~5T的參數,而且實際收益還不夠大,最終可能GPT5整體是低於1T的,而且最初GPT4一些猜測和發布洩漏很可能是1.76T的可能性證據較大,因為無論從價格或當初速度來看都可能。

但是後續幾乎沒有模型隨意突破1T甚至1.2T往上了,可能受限硬體設備互連一系列考量需要有足夠性價比,足夠高效運作提供而不是挑戰極限,實際上可能當前服務模型主流都是總參數量200~500B左右,但是活動參數不只30B可能有60B甚至更高。

然後最旗艦模型仍保持1T左右,而且大多數模型可能接近採用上述經過驗證結果,即稀疏注意力下BF16而稀疏MLP(FFN)在fp4/int4,考慮一定配比且單機8卡間互連頻寬比較充裕去想,GB200*8這種現行設備或H200*8的容量是比較合理的,在1152GB~1536GB的容量以內,甚至是H100*8可能80或96(實際低於96GB)去*8=640~768GB的容量以內。

其次即使可以用超過8卡,也會帶來管線的延遲更嚴重,單一模型在推理時的batch size都很有限(係指解碼而非預填充),即使嘗試聚合更多用戶進行解碼提高利用率,但仍會進一步將單個推理延遲繼續拉高,可能原本慢三倍左右被拉到慢六至七倍左右,響應速度慢得多。

當然不是說單一節點8卡就定死,沒有可能36-72卡單櫃這樣去搞單一模型。

尤其每張卡負責一層這樣,目前MOE開始很少破百層甚至更多...實際可行但問題在於越多卡帶來的延遲及一系列解決方案都會導致某些問題突出,理論可行推理單櫃可以玩到13TB以上,但性價比和更多問題都會接踵而來,不太可能真玩5T甚至10T總參數模型。

MOE模型可以交換到RAM上不就好了?有些人有這些想法,但是極端大量請求情況下可能不如全部加載到VRAM上跑是最快最有性價比的,尤其你基本上多少都會miss反覆交換,而從VRAM到RAM上速度總是有限且成本高昂難擴展的,除非能確保總是只有少量專家需要加載,不然大批量下怎玩卸載都多少會有問題。商業來說批次越大性價比越高,單位記憶體頻寬提供的收益大均攤成本低。

當然可能低批量和一些情況下技術改進節省資源,可能有這類場景的時候就有收益了。

短期間旗艦等級模型參數應該都在一定設備規模限制下,例如500B而較新設備1T甚至1.2T左右,未來明年可能開始大量部署GB300時總計約2304GB時估計可能到1.5~1.8T參數了。

而這類旗艦模型要透過特定條件使用且API token價格昂貴在價目表上,而大多數人僅只能使用幾分之一,甚至小型模型可能完全可以加載到專業卡規模上例如mini的總參數是小於專業卡如48GB/96GB這類大小。

因為專業卡這類只能走PCIE互連頻寬太有限,多卡互連效益不好傾向單卡可能性高,而一般用中等的模型可能在幾張卡或單卡能容納總參數量,估計只有200-300B。(猜測GPT5或claude4.5)

高等級就是旗艦模型了不多說。

所以你會看到可能Qwen 72B 80B之類往上235B然後再往上是1T(max)這種倍數跳級,大概四倍一級。

然後訓練token總數是預訓練主導還未真正超過100T token。

不過即使如此到現在為止,更新疊代版本模型一次成本可能要幾億美金,需要至少耗時數個月完成一個版本,可能期間多次重複訓練修改調整微調。

假設每10^18的算力成本約1美金,考慮各類環節加抵銷維持不變好了,那麼100T*1T*12然後假設稀疏加速16倍左右(簡化計算的結果至16倍),簡化為75T*1T=7.5*10^2*10^24=7.5*10^26。

成本可能約在7.5*10^8=7.5億美金,即使稀疏度更高得多去嘗試節省這規模也要3-4億美金左右,而現在實際規模不會達到100T這麼高直接砍半而維持參數不變,且稀疏度更高也要2億美金以上。

參數直接對砍成本也要一億美金進行一次完整訓練,主要由預訓練為主超過90-95%。(此時50T 訓練token和500B參數即很高稀疏度,可能活動僅20B加共享部份接近30B)

半導體開發一款先進製程也可能兩年一期大節點變化,花費五億甚至十億美金投產但不包括更複雜的東西,現在一個基礎模型LLM打造考慮維護僅訓練部份可能就要趕上差不多了,堪比設計一個晶片投產成本。

還沒考慮到背後推理合成和篩選數據及人工標註龐大人力集團一系列繁瑣成本,還有現在甚至開始外包搜索和一些東西都要成本。(當然也可能是在嘗試剝離一些風險和更靈活...)

即使市值數十億美金甚至百億美金的新興強盛的AI企業,其收益以億計美金都是以微調甚至大規模微調為主,不敢從頭開始研發,這不僅是可能因為程式碼小錯誤導致訓練出問題,可能成本超負荷和數據有限且現在各種割據獲取困難成本高昂,外加需要養海量人力及龐大團隊組織,管理能力已經遠超負荷。

盡管現在經常鼓吹有的沒的,好像只要少量菁英團隊就能主導一切,但背後龐大外包人力和數不清的廠商幾乎被無視貢獻和隱藏起來不為大眾所知...

很多時候好的想法不是很理想單純就能執行跑得好,還需要大量資源人力下去協助,現實中沒辦法一鍵下去所有計算資源僅靠全自動就能解決極其複雜的問題,如果有早就左腳踩右腳升天還養大量人員幹嘛,幾個菁英敲下鍵盤直接原地起飛了...

老實說現在還沒有到那種模型自己放著就會成長的地步且還不會長歪,都要人為處理改善本質上是『工人智慧』,盡管預訓練僅解碼器這種玩法很厲害,但終究還是得靠人力才能更好,無標註自行聚類這條路線在可能走不太通,無標註預訓練仍然需要清洗且後續須要構造標記微調。

而且訓練參數越大越傾向記憶,而訓練token總數並不繼續有效上漲而是維持一定倍數的結果,那最終模型泛化能力仍然會偏弱有限,只是更傾向於訓練時數據,只是數據經過精心挑選和構造出來的。

按照20~22倍T級別可能23倍左右規律來看,2027年可能玩到2T參數且至少46T以上訓練token,可能實際60~80T token,現在幾乎不公告原因之一規模也沒繼續有效上漲可能還會倒退,如果只看數值還以為走倒車了。

因為變成營銷數值,且又沒有效上升那乾脆不公布的可能性很高,其次會開始鼓吹訓練時數據品質更高,但沒辦法拿出來驗證...可能見光死。

現在一定程度上可能連網刷分數了...更多是一種傾向利用工具來穩定避免讓模型本身做太多事情,從而穩定拉高分數表現,同時微調傾向使用工具利用工具,然後節省訓練時token來省下一筆訓練成本。

參數則維持在合理範圍的高數值,提高模型整體表現的穩定性而已。
_________
12/2
把Grok4 Heavy這旗艦模型給忘了,也忘記提及opus 4.1和GPT4.5(目前是GPT5 pro)這類,之前的旗艦模型超標單機8卡到了單櫃36卡那種程度,參數量範圍在2T甚至高達5T範疇,而非500B到1T且稀疏不足100B,估計MOE後激活都有數百B的程度。

價格估計在約輸入15美金輸出75美金這種昂貴量級,而且估計毛利率不如現有更高。而且訓練資源耗費估計更加昂貴天價難以想像,也更易過擬不足,可能相對簡單但範疇遷移的狀態下不如小的模型。

除了Grok繼續狂堆要邁向5、6T這種單櫃36卡、72卡去跑才跑得好的外,其他應該沒那麼大,像是GPT5估計約2T左右甚至更高的參數量,超過單機8卡範疇互連,互連設備及一系列效率考量成本都偏高。

GPT5 pro 輸入15美金而輸出120美金...不過算算毛利應該還是高就是了,只是火力展示。

考慮旗艦模型時沒考慮到足夠新的部分,這些才算真旗艦模型已經是堆到當前設備極限,而且估計都會應用到新的量化了。

已經可能是GB200單機8卡極限跑,甚至超過的範疇...

一般人用的範疇價格是我過去預估的旗艦款價格,在輸入數美金與輸出15-30美金每百萬token計,參數規模在500B~1T,激活30~60B左右,應該是主力賺錢的部位。

mini甚至nano級則對應在參數200B範疇甚至50~100B這種,激活參數量下滑到10B甚至3B量級。

不過價格也狂砍無數倍。

另外這類商業系統batch size工作都很大,所以不能簡單計算成本,可以充分重複利用權重,單位頻寬賺到的錢是很高的,跟自己部署來說性價比一般高得多,只是延遲等因素相對較差或不穩定。

不過考慮到量化及一些理論,對於那種10-8B以下量化較敏感而往上不敏感,而且超過100B範疇後廣度甚至深度差距沒那麼大,主要看數據集甚至篩選數據和訓練方法後,懷疑目前很多權重參數的發揮效果並不好,但提前堆數量享受而已。

但是堆量好處之一就是錯誤率會持續下降一些,盡管遵守對數的規律可能下降到原有一半甚至三四分之一乃至更少。

以MOE的平方開根規律來說,像deepseek v3.2 685BA37B(應說671B但計算方式問題,自V3以來不變),大致對應稠密的邏輯能力160B,知識廣度可能更高包含更多。

Gemini3 pro 由於自身TPU HBM規模可能沒那麼大,但也考慮互連和效率與定價,估計在1~2T範疇內,激活不足100B。價格輸入2~4美金而輸出在12~18美金,還是比差不多量級的東西定價便宜數成左右,可能算一個優勢。

但是Gemini3 pro這類或其他模型有部分洩漏規模的,或一些方法推測的,等價也不過就過去稠密300-400B的級別,只是數據和訓練方法和架構改進而更強。

但是跟160B差距拉不開,而且FFN(MLP)做MOE並量化往下差距不會太大甚至可能無感,前提是不能量化到注意力部分甚至激活狀態參數和KV都不允許量化會掉精度,很多都應該做MCP對外搜索。

有些內外部人員甚至知名人士可能會透露點消息可以推測,再加上過去訓練成本公開和考量,目前會逐漸少見稠密32B以上甚至稠密70B了,更別提稠密100B以上的模型,訓練成本偏高收益不好...

現在層數即深度和寬度都沒做上去,如果硬要說寬度就是FFN(MLP)因為MOE做到超級寬,但注意力那部份始終沒上去太多,目前公開量級8192維和層數(80)那些基本上是70B稠密模型的量級的東西...可以做到1T的規模,少數百層甚至近百層配置規模可能如下...

96層又*128=12288維,同時又96層~120層,估計大小都破100B甚至更多。

往上可能就是128~144甚至更多層,然後隱藏層維度在16384這種量級,對於互連頻寬已經難以接受的程度。(8192就已經到一般PCIE5.0那種難承受了太多卡,需要NVlink專門到8卡,往上高並行難搞張量那些的。)

所以估計激活能到200B甚至更高量級(如400B)已經是最頂級模型能承受效益比下的極致,總參數量單櫃36~72卡可能到超過10T參數量級,但要如此不計成本硬堆估計要到明年下半年才可能這樣玩。

而且到這種規模已經開始過擬了,老實說規模定律那比例真是實際操作過應該發現太容易記憶了...而同時提高訓練token數破100T甚至更高會超過fp8為主精度的合理訓練範圍,訓練成本是非常誇張的,哪怕是數據中心規模提升後是過去數倍的計算能力,依然可能需要數個月起跳且耗費以百億美金計甚至更高的訓練成本,不太認為會真這樣玩,若真這麼做已經到了嚴重不計成本回報了,幾乎無法回本甚至維護的訓練規模。

不過考量到NV那性價比真要算起來好像提升不是很快...真做出這東西性價比太低了,每百萬token輸出現在100美金就已經很昂貴了,真做出來至少數百美金的價格或是得毛利大降但又不虧本的程度。

而且現在這種超過100B甚至可以說70B乃至更高往上收益較低,雖然仍有成績上的收益只論評測和一些體驗,不考慮到底怎麼樣來說...與其過度堆量不如先疊代版本再說。

可以預期像是opus 4.5這種提升至少可能來一甚至可能到兩次,節省輸出token同時降低輸出價格,即模型整體減負降低延遲,同時性能提高數%尤其是那種很難的benchmark,且其他評估幾乎不怎掉或反過來提升些許。

但對於更小型的模型來說可能只剩一次甚至半次,也就是可能提升的範疇不大了,因為已經到了過度訓練到抵達參數極致的程度了。

當然這些考量還並未考量架構可能的重大改進或一些因素,僅供參考...
_______________________
12/6

從deepseek和經常高負載來說,以及高batch size下的成本非常低廉...現在推理毛利率估計都99%以上了...

老實說200美金方案無限用理論上怎樣都不會虧錢頂多打平成本才對....

倒是訓練量上面寫的都只考慮一次甚至額外失誤率非常非常低,但實際上似乎不切實際。

可能內部訓練很正常非常多路徑,同時就算同樣的模型也會很多代很多條路徑不斷採樣檢查分支,最成功的才能到接續進行訓練。

按照這樣的計算方式成本至少是目前一次完成的訓練成本的數倍起跳。

只算成功不算失敗確實...有點奇怪,而且目前所有大型模型的企業虧錢原因跟推理都沒什麼關係,而是極度誇張過度投入訓練導致的虧損,但由於競爭因素不可能停下來靠推理慢慢賺錢,這樣做很快就被淘汰掉...

尤其是用戶進入和流失的速度很快,沒有什麼神奇的模型護城河,只要表現出弱勢幾個月可能流失率高得誇張,就像現在線上遊戲那樣快速爆火也快速冷卻一樣。

你能短時間從千萬使用者月活躍到上億使用者月活躍甚至周活躍日活躍,但同樣的也能短時間全部幾乎跑光甚至還不如以前。

整個市場非常激烈,只要你夠優秀就能上去反之跌落也快得很多。

所以很多新創短時間表現非常好估值30-40億甚至一下80億上看100億美金,結果對手甚至更大型公司投入強大的模型,使用者一兩個月流失掉80%以上,價值迅速狂衰跌不止。

除非有穩固的應用且使用者非用不可的理由,否則誰好就是一切。

目前廣為流傳的策略就是訓練成本基本上要持平推理成本,不過實際上推理成本低得可憐,應該是持平堆理賺來的錢...但是現在訓練成本幾乎遠超推理,頻繁的版本更新和各種路線與可能訓練失敗,同時並行好幾條訓練,盡管這樣成本會更高但更穩定可靠,不會說出了問題無法馬上反應切換。

那假設說我拋棄不幹訓練,只賣推理例如用開源模型甚至小量微調可否?目前openrouter上基本上都這樣玩很多,但問題是使用率不高更別提batch size很難上去利潤率不夠高,只要出硬體架設好賣推理就能躺著賺錢維護就好,甚至還有經常偷偷私底下用量化模型(16->8->4...)甚至欺騙拿其他模型或小參數模型蒙騙,導致市場都不在信任了...

導致降低智力顯著然後API價格還跟官方價格一樣,除了回應速度快之外什麼優點都沒有...同等情況下也許還不如自己去找官方同等價格更小規模的。

知道能輕鬆高毛利(如果負荷很高同時很多拉高batch size的話),所以參與者非常多,只是大多數人可能毛利過半都是問題甚至會虧,因為你租用雲端或自己買設備,結果市場太多競爭者再加上信譽等問題誰會願意來用呢?

目前那種傳統純聊天的LLM甚至多模態的LLM消耗的token速度和總量都太低了,而且現在市場真硬要算從價格和batch都包含進去去算token數量,早就溢出滿足了根本很難有超大使用量無限市場。

但是下一步AI代理(Agent),可就完全不一樣了,你短時間能消耗掉兩萬token?代理輕鬆十倍甚至三十倍開銷,如果高度自動化那可完全不一樣了,24*7都是基礎操作甚至要組建AI的團隊大規模使用,每個人都要用瞬間消耗量數十倍只是基本,起步上看一千倍起跳都是正常的。

也是為什麼目前會瘋狂一舉投入海量資金建設,因為代理的消耗非常誇張,但是問題是這種長時間穩定消耗大量的token真要以量計價用API算錢很容易破產,你不會願意為此付費。

但是如果長期穩固一直跑下去,那就能充分利用batch來壓低成本,可以壓低數十上百倍甚至更多都可以。

你眼中每百萬token要20美金?現在實質允許你0.2美金甚至0.1美金一直跑,而且再加上各種代理結合RAG節省call的成本(降低token消耗數量),然後再加上自動高效的輸入cache,從而將實質上成本壓低到0.01美金甚至更低,每分鐘成本十足低廉。

在這種情況下人均日用一億token,甚至小時消耗一億token,甚至人均一天1B token可能都是常態了。

對於長期大批量穩定使用代理的人,計價成本自然要低數十上百倍甚至更多,就我目前看法這要這樣玩必須足夠大量的人願意支出一筆不低的錢才能無限使用量。

這筆錢每個月單個使用者需要支付200~2000美金不等,可以說非常昂貴了,才能支撐的起持續的訓練與大規模基礎設施使用,而使用者數量單個企業可以超過千萬使用者付費。

這種情況下任何規模小的企業都會死亡,因為根本沒有足夠的使用者讓設施利用率維持在高位,batch size拉不上去成本變高,保守估計可能至少十萬使用者甚至百萬級使用者才能在代理的時代中活下來。

而新創夠強高估值數十億上百億都要有千萬級常駐付費用戶,而幾大大型公司持有使用者須達上億級別。

但目前代理沒有理由或能力做到生活方方面面,只能侷限於少數人群,在穩健工作甚至跨模態對齊等問題仍需改進情況下很難高普及率,當前能有數十上百分之一這樣的使用者就不錯了。

一個能穩定良好持續工作的代理,每個人都能驅動代理數個甚至數十個的時候,那時候才可能到處普及,只是能做到這程度的時候估計中階以下包含中階能力的工作者都失業了,市場至少90-95%甚至更高比例都失業,只有少數高階甚至頂級職稱的人,才有辦法繼續生活下去。

所以整體來說還是挺矛盾的,沒有足夠大規模的使用成本降不下來,或著單使用者需要支付的費用高達上萬美金甚至數萬美金一個月,並同時驅使非常誇張數量的代理。

也許那時候是一個一人企業時代。
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=6213865
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:AI

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

1喜歡★digong94 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:近期對AI的想法(小更)...

追蹤私訊切換新版閱覽

作品資料夾

angry8936雞雞
雞雞看更多我要大聲說9小時前


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】