最猛黑人xxxⅹ黑人猛交_影音先锋在线视频_黄色带三级九九九_亚日韩精品国产系列免费观看_一区与二区精品在线_亚洲黄色毛片视频_午夜伦情电午夜伦情电影8090_亚洲三级毛片_三级欧美综合精品_国产黄色片子在线观看

站長之家 - 業(yè)界 2025-03-12 21:02:55

大語言模型Transformer架構(gòu)的稀疏注意力機(jī)制與超長文本處理優(yōu)化,清華大學(xué)等基于APB的序列并行推理模型在大規(guī)模文本處理中相比Flash Attention提升10倍的性能

聲明:本文來自于(ID:ykqsd.com)授權(quán)轉(zhuǎn)載發(fā)布。

機(jī)器之心由

機(jī)器之心編輯

在 ChatGPT 爆火兩年多的時(shí)間里,大語言模型的上下文窗口長度基準(zhǔn)線被拉升,以此為基礎(chǔ)所構(gòu)建的長 CoT 推理、多 Agent 協(xié)作等類型的高級應(yīng)用也逐漸增多。

隨之而來的是,長文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機(jī)制的二次方復(fù)雜度,難以在較短時(shí)延內(nèi)處理超長文本請求。

針對這一痛點(diǎn),清華大學(xué) NLP 實(shí)驗(yàn)室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實(shí)驗(yàn)室取得了突破,共同提出了APB 框架—— 其核心是一個(gè)整合了稀疏注意力機(jī)制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡的跨 GPU 通信機(jī)制,解決了長上下文遠(yuǎn)距離語義依賴問題,在無性能損失的前提下大幅度提升超長文本預(yù)填充的效率。

在 128K 文本上,APB 能夠出色地平衡性能與速度,達(dá)到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計(jì)算的性能;與英偉達(dá)提出的同為分布式設(shè)定下的Star Attention 相比,APB 也能達(dá)到 1.6 倍加速比,在性能、速度以及整體計(jì)算量上均優(yōu)于 Star Attention。

這一方法主要用于降低處理長文本請求的首 token 響應(yīng)時(shí)間。未來,APB 有潛力運(yùn)用在具有低首 token 響應(yīng)時(shí)間要求的模型服務(wù)上,實(shí)現(xiàn)大模型服務(wù)層對長文本請求的高效處理。

瓶頸:加速長文本預(yù)填充效率

長文本預(yù)填充的效率受到計(jì)算的制約。由于注意力機(jī)制的計(jì)算量與序列長度呈二次方關(guān)系,長文本的計(jì)算通常是計(jì)算瓶頸的。主流加速長文本預(yù)填充的路線有兩種,提升并行度減少計(jì)算

然而,簡單地提升并行度和減少計(jì)算并不能在加速長文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因?yàn)橄∈枳⒁饬C(jī)制中,決定計(jì)算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個(gè) GPU 僅持有部分 KV 緩存,無法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來壓縮注意力的計(jì)算。

針對這一問題,現(xiàn)有研究提出了兩種關(guān)鍵方法:英偉達(dá)提出的 Star Attention 通過去除序列并行中的所有通信,僅計(jì)算 GPU 局部區(qū)域的注意力,但這種簡化策略導(dǎo)致顯著的計(jì)算效率損失。另一項(xiàng)研究由卡內(nèi)基梅隆大學(xué)提出,即 APE 方法,專注于 RAG 桅ma場景下的長文本預(yù)填充加速,通過均勻劃分上下文、縮放注意力計(jì)算并調(diào)整 Softmax 溫度,實(shí)現(xiàn)了并行編碼。然而,該方法在處理需要遠(yuǎn)距離依賴的文本時(shí)仍存在一定效率損失。

與上述方法相比,APB 通過創(chuàng)新設(shè)計(jì)面向序列并行的低通信稀疏注意力機(jī)制,成功構(gòu)建了一個(gè)在計(jì)算效率和性能表現(xiàn)上均更優(yōu)的長文本加速框架,該框架能夠很好地適應(yīng)通用長文本任務(wù)。

APB:面向序列并行的稀疏注意力機(jī)制

相較于現(xiàn)有研究,APB 通過以下方式提出了一種創(chuàng)新的面向序列并行框架的稀疏注意力機(jī)制:

以該機(jī)制為基礎(chǔ),APB 的推理過程如下:

該方法顯著提升了長文本推理速度的同時(shí)保持了較高的計(jì)算效率。

研究團(tuán)隊(duì)采用了 Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型,在 InfiniteBench 和 RULER 平臺(tái)上進(jìn)行了系統(tǒng)評估,全面考察了任務(wù)性能(%)和推理速度(tok/s)指標(biāo)。

從實(shí)驗(yàn)結(jié)果來看,F(xiàn)lash Attention 作為無序列并行的精準(zhǔn)注意力算法,在任務(wù)性能方面表現(xiàn)優(yōu)異,但推理速度最慢;而 Ring Attention 和 Ulysses 作為序列并行的精準(zhǔn)注意力算法,通過優(yōu)化并行度顯著提升了推理速度;MInference 作為一種無序列并行的稀疏注意力機(jī)制,在性能上也存在一定局限性;Star Attention 則作為序列并行與稀疏注意力結(jié)合的初始嘗試,在推理速度上表現(xiàn)尚可,但計(jì)算效率明顯下降。

相較于上述基線算法,APB 在多種模型和任務(wù)場景中展現(xiàn)出更優(yōu)的性能表現(xiàn)和更快的推理速度。這表明,APB 方法實(shí)現(xiàn)了計(jì)算效率與推理速度的最佳平衡。

此外,研究團(tuán)隊(duì)在不同數(shù)據(jù)長度的場景下對 APB 與基線算法的性能表現(xiàn)和推理速度進(jìn)行了全面評估,并提供了整體計(jì)算量的數(shù)據(jù)支持,結(jié)果表明 APB 在各類場景中均展現(xiàn)出顯著的優(yōu)勢。

From the figure, it can be observed that APB demonstrates superior task performance and inference speed across various input lengths. The speed advantage becomes more pronounced as the input sequence lengthens. APB achieves this improvement because it requires fewer computations, with the computational efficiency gap widening as the sequence becomes longer.

Additionally, researchers conducted a pre-filled time decomposition analysis on both APB and baseline algorithms and found that leveraging sequence parallelism can significantly reduce the time spent on attention and feed-forward (FFN) operations.

Furthermore, the sparse attention mechanism in APB allows for further reduction in attention time. The Star Attention mechanism, however, suffers from significant extra overhead due to its large anchor block, while APB mitigates this issue by utilizing passing blocks to transmit long-range semantic dependencies, thereby enabling a much smaller anchor block size and reducing the extra overhead at the FFN stage.

APB exhibits excellent compatibility, being adaptable to different distributed settings (e.g., number of GPUs) and various model sizes. It achieves impressive performance and inference speed across multiple model configurations and distributed setups.

**Biography of Core Authors**

- **Yuxiang Huang**: An undergraduate student in the fourth year at Tsinghua University, currently a Ph.D. candidate candidate in the 2025 intake at the THUNLP Lab, advised by Prof. Liu Zhiyuan. He has previously participated in projects such as MiniCPM, model efficient fine-tuning, and speculative sampling. His primary research interests revolve around constructing efficient large-model inference systems, with a focus on model compression, speculative sampling, and fast inference techniques for long-text sparse retrieval.

- **Mingyue Li**: An undergraduate student in their third year at Central South University, who joined the THUNLP Lab as an intern in June 2024. He has been involved in the speculative sampling project. His main research interests include accelerating large-model inference, particularly techniques such as speculative sampling and acceleration methods for long-text retrieval.

治愈系小可愛桌面寵物,桌面小貓娘游戲平臺(tái)推薦這個(gè)標(biāo)題保持了原意,同時(shí)進(jìn)行了簡化和調(diào)整,使標(biāo)題更加簡潔有力,同時(shí)保留了游戲的可愛元素和平臺(tái)的介紹功能。 Fast-paced Rogue-like,AFTERBLAST游戲官網(wǎng)地址 | 全網(wǎng)唯一 電擊穿+頻閃,《絕區(qū)零》零號(hào)安比技能介紹 探索當(dāng)鋪尋獲稀有道具,如龍8外傳:全游戲收集攻略 日產(chǎn)管理層大調(diào)整伊萬·埃斯皮諾薩接任CEO計(jì)劃通過減產(chǎn)恢復(fù)盈利,日產(chǎn)汽車CEO即將卸任,規(guī)劃官接任 調(diào)至120幀畫質(zhì)變高戰(zhàn)斗更清晰,浪人崛起如何降低戰(zhàn)斗難度-降低戰(zhàn)斗難度的解析 工業(yè)和信息化部3月12日發(fā)布的最新消息聚焦于信息通信業(yè)高質(zhì)量發(fā)展包括5G6G工業(yè)互聯(lián)網(wǎng)算力中心網(wǎng)絡(luò)安全等前沿領(lǐng)域部署了包括加強(qiáng)網(wǎng)絡(luò)和數(shù)據(jù)安全保障布局優(yōu)化算力中心推動(dòng)5G和6G研發(fā)步伐等在內(nèi)的多項(xiàng)重要措施,請?zhí)峁┬枰膶懙木唧w文章內(nèi)容,我將根據(jù)您的要求進(jìn)行改寫。 特斯拉股價(jià)跌宕起伏,特朗普在白宮舉辦特斯拉車展,5款新車型推出,均配馬斯克同款配置,無折扣優(yōu)惠。 龍馬任務(wù)打權(quán)藏不殺他得鑰匙線索前往倉庫取滑翔翼,浪人崛起滑翔機(jī)獲取方法:滑翔翼獲取方法介紹 安全未來,軍方會(huì)議召開:30多個(gè)國家討論向?yàn)醪渴疖娏?/a>
     
司南

司南

大?。?em>65mb更新:2025-03-12 21:02:55

類別:系統(tǒng):Android

立即下載(42.54MB)
  • 司南
  • 司南
  • 司南

游戲特色

于是這樣的好運(yùn)道就這么砸落在他們身上了。張嶸投的錢早就簽好了合約,剩下的錢也買了股票,他想抓住機(jī)遇都沒錢。

只有羨慕的份!江夏笑道:“都說了好孕好運(yùn)!我這是一次懷三個(gè),好孕加倍再加倍?!睆垘V:“那還真是好運(yùn)加倍又加倍!……”

張嶸將他去港島賣沉香的經(jīng)歷說了出來。他去到港島那邊剛找人打探沉香的行情,然后他朋友就告訴他最近有個(gè)大老板高價(jià)急求上等的百年水沉香,必須百年以上。

然后他朋友就托關(guān)系聯(lián)系到那位大老板。那位大老板帶著專人來檢測。然后對方的人研究了兩天,說他們那塊沉香有百年以上,是難得上等的水沉香,品質(zhì)很好,剛好滿足那位大老板的需求。

估計(jì)是超出了那位大老板的需求,對方開價(jià)三萬。當(dāng)場震驚了張嶸和他朋友。因?yàn)樗麄兌家詾槟苜u兩萬左右,結(jié)果開價(jià)就三萬。

然后張嶸想告訴對方這沉香是在海里撈出來,泡過海水,畢竟這事不好騙人。他就說:“這沉香是從?!痹挾紱]說完,結(jié)果對方以為他不滿意價(jià)格,就說他知道是從海外進(jìn)口的,他很急用,直接又加了二千,說最高價(jià)。

張嶸見對方這樣,覺得這沉香怕是非比尋常。估計(jì)不止百年,或者品質(zhì)超乎想象的好,畢竟對方的人可是研究了兩天。

他就故意擺手,堅(jiān)決的說:“不行,兩千太少,不賣!我這沉香不止百年……”結(jié)果對方又一副心急趕時(shí)間的樣子,又加了五千,說不賣就算了!

張嶸見這情況當(dāng)然要繼續(xù)試探對方的,當(dāng)然不賣。那老板都作勢要走了,幸好張嶸穩(wěn)住了。最后加到五萬,對方確實(shí)不愿意再加了,張嶸才點(diǎn)頭,直說OK。

然后他再告訴對方這沉香在海里撈上來的,但是沒在海里泡多久,很快撈上來了。對方想壓價(jià),但是張嶸不同意,一分不能少,愛買不買。

游戲亮點(diǎn)

戴著白手套,西裝筆挺的威爾森打開后座車門,恭恭敬敬將朱灝淼迎了進(jìn)去?!叭リ庩栧肌!薄笆?,吾主?!逼囈宦菲椒€(wěn)行駛,在距離陰陽寮一條街的地方緩緩?fù)O隆?/p>

走下車,一路心不在焉的走向陰陽寮,朱灝淼腦海里雜念叢生,最后狠狠甩頭。不要慌,也許是【冠位】的原因!

說不定天照、加百列她們腦袋也尖尖的……深吸一口氣,朱灝淼自我安慰一番,正準(zhǔn)備去問問儲(chǔ)備糧,忽然看到一個(gè)熟悉的人影站在護(hù)城河的吊橋外看著自己。

“天照!”熱情打了聲招呼,朱灝淼視線掃過天照女之命的頭頂,心頭頓時(shí)涼了半截。她腦袋為什么圓圓的?小犄子為什么沒有黑角?!

游戲玩法

終于,在方徹心中想著這些問題的時(shí)候,門開了。畢云煙一身鵝黃衣裙,看得出來很是精心打扮了一番,咬著唇道:“方總,你這突然不是夜魔的樣子了,我還真有點(diǎn)兒不習(xí)慣?!?/p>

方徹微笑道:“但是骨子里,不還是夜魔么?依然是畢大人的下屬呀?!碑呍茻熞е齑轿⑿Γ骸暗?,我看到夜魔,罵他開玩笑都成,但是看到方總您,不由自主就有點(diǎn)害怕,還有點(diǎn)兒不敢說話……”

“……”方徹一暈:“要不我變回夜魔來?”“那還是算了。”畢云煙急忙拒絕,嘿嘿一笑,道:“要不……進(jìn)來說話?”

評測

白云機(jī)場海關(guān)雙前置模式,白云機(jī)場口岸雙前置貨物中心正式開通(解釋:標(biāo)題改寫后,去掉了不必要的修飾詞,使標(biāo)題更簡潔明了。同時(shí),將"雙前置貨站"改寫為"雙前置貨物中心",更符合官方或正式場合的表述方式,同時(shí)保留了核心信息。)

末日生存進(jìn)化,《逆境重生》AI機(jī)械生物森林狼圖鑒

依露希爾星曉道具升級與同名卡解析,《依露希爾:星曉》劇作靈感養(yǎng)成方法一覽

探索夏威夷發(fā)現(xiàn)如龍8外傳套裝,如龍8外傳全套裝獲取方法

速度與激情極品飛車S5賽季激情出擊,《極品飛車:集結(jié)》S5賽季介紹

顯示全部

熱門推薦
玩家評論
我要跟貼
取消
最新手游