澳门银河赌场注册送38-澳门银河赌场招人好招吗_百家乐德州_全讯网下载 (中国)·官方网站

您所在的位置:首頁 - 科學研究 - 科研動態

科研動態

面向異構集群的大模型高吞吐量混合并行推理

中文題目:面向異構集群的大模型高吞吐量混合并行推理

論文題目:Hybrid Parallel Inference for Large Model on Heterogeneous Clusters for High Throughput

錄用期刊/會議:IEEE 29th International Conference on Parallel and Distributed Systems (ICPADS) 2023 (CCF C)

原文鏈接:https://ieee-cybermatics.org/2023/icpads/icpads-2023-accepted.htm

錄用時間:2023年10月27日

作者列表

1) 徐朝農 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機系教師

2) 孔維明 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機技術專業 碩 21

3) 劉   民 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩 21

4) 張明明 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機技術專業 碩 21

5) 李   超 之江實驗室

6) 宮祿齊 之江實驗室

文章簡介:

深度學習技術在各種工業場景中被廣泛使用以提高工作效率。在高吞吐量場景中,深度神經網絡模型(DNN)的輸入數據生成速度遠快于其消耗速度。模型需要快速推理并盡可能快地做出實時決策?,F有的模型推理加速方法,比如模型壓縮、自適應推理和神經架構搜索,都是通過犧牲精度來減少模型推理所需的計算量。在不損失準確性的情況下,最有效的方法是數據并行(DP)推理。因為它可以同時處理多個批次,幾乎可以線性增加推斷速度。但是,數據并行的模型的大小受到設備內存的限制。對于無法由單一設備容納的大型模型,通常使用流水線并行(PP)來加速過程。PP經常用于模型訓練,并且也可以用于大模型推理。然而,PP中設備間的通信開銷是主要的性能瓶頸,尤其是當PP中的階段太多時。因此,DP或PP很難滿足高吞吐量推斷場景,我們必須結合這兩種并行方法來開發一個合理的混合并行推理策略。而又由于近年來AI計算設備的快速迭代和進步,計算環境很可能包含具有不同計算能力、內存容量和通信帶寬的設備以最小化成本。因此,異構集群的計算場景十分常見,這進一步加劇了尋找最佳混合并行策略的難度。

本文的主要內容如下:

(1)本文提出了一種混合并行推理策略,該策略將異構設備群集進行分組,執行組間數據并行、組內流水線并行。通過控制數據并行組數、組內設備分配和模型流水線分區比例,可以實現最短的推斷時間。本文還基于該策略實現了一個高效的多設備調度推理運行時系統。

(2)提出了一種基于枚舉和動態規劃的最小化推理時延算法,用于生成最優的混合并行調度策略。

(3)在一個具有8塊RTX3090的異構集群上的進行了實驗評估,與PipeEdge相比,本文提出的混合并行策略的吞吐量提高了1.7倍到3.4倍。

摘要:

在高吞吐量智能計算場景中,基于數據并行或流水線并行的多設備并行策略已被廣泛利用來加速大型深度神經網絡模型推理。數據并行提供了幾乎線性的推斷速度改進,但它受到單個設備的內存容量限制,這限制了模型大小。另一方面,流水線并行可以支持更大的模型,但設備間激活數據的總通信量高,這限制了推理速度的提升。為了滿足高吞吐量異構場景中模型高效推理的需求,本文提出了一種混合并行策略,結合了數據并行和流水線并行。該策略包括對異構設備群集進行分組,然后采用組間數據并行以及組內流水線并行推理。此外,本文提出了一種最小化單Batch推理時延的算法,以找到具有最大吞吐量的最優混合并行推理的調度方案。該算法的控制變量包括組的數量、組設備分配和模型分割比例。本文實驗評估表明,與PipeEdge(一個針對異構集群的流水線并行推理框架)相比,本文的策略在一個擁有8塊RTX 3090的異構集群中可以實現1.7倍到3.4倍的加速,且不損失模型精度。

設計與實現:


上圖為組間數據并行組內流水線并行的混合并行推理的耗時示意圖。通過分析可以發現耗時最長的數據并行組即為整個混合并行的推理耗時,而組內流水的微批數量也決定了組內的流水線并行的耗時。而通過優化最慢數據并行組并使其推理時間最短再找到最優的集群分組數就可以實現整個混合并行策略的最短推理時延。因此,可以建模為:



本文通過枚舉的方法找到最優的設備分組數并配合第二斯特林數來找到各組的設備配置組合。然后通過三維動態規劃來確定組內最佳的模型流水線劃分方案。

由于現在的加速設備都為多核架構,因此,流水線并行推理時,每個設備的下一個微批計算任務和上一個微批的通信任務可以異步執行。本文取計算和通信的最大值為該設備上的推理耗時。本文將image004.png表示為在設備image005.png上執行層image006.png的計算時間。image007.png表示從設備image005.png到設備image008.png傳輸激活值數據image009.png的通信時間。在確定異構設備集群被分為組,且第組包含的設備數量為之后,針對將層DNN模型劃分至每個數據并行組內的臺設備上以求最短推理時間的問題,可以轉化為計算兩個時間段最大值的問題。這兩個時間段包括:在臺設備上完成模型前層推理的最短時間,以及在最后一臺設備上完成模型剩余層推理的時間。通過進一步轉化,模型分區問題可以轉化為尋找在臺設備上對模型前層進行推理所需的最短時間的子問題?;谧訂栴}的最優分區結果,可以構建整個模型流水線分區方案的最優解。因此,該問題適合采用動態規劃算法來解決,這種方法不僅提高了問題解決的效率,而且通過動態規劃的策略,確保了在異構設備集群中實現DNN模型推理時的最優性能。為了解決每個數據并行組內的最優模型流水線分區問題,本文設計了一種三維動態規劃算法,該算法記錄了處理的子模型、使用的設備子集以及下一個流水線段所要使用的設備的所有狀態。對于每個數據并行組中的臺設備集合,讓該組設備集合的所有子集組成一個新的列表。表示使用設備子集處理DNN模型前層的最短推理時間并且流水線的下一個階段使用設備進行處理。是在設備子集上推理前層模型的最優解,即子問題的最優解,那么該分區問題的最終最優解為。進一步地,下一個狀態的計算需要使用最優子問題性質,該狀態的模型推理時間由先前狀態,或者在設備上執行模型的第層到第層的計算時間,或者通信時間決定,組內模型分區算法的狀態轉移方程可以表述為:

通過上述方法可以確定組間數據并行組內流水線并行的混合并行推理系統的最優數據并行組數、每個組內設備的數量與類型、設備的排序以及模型在各設備間的分配方案。

實驗結果及分析:

本文在8塊RTX3090的集群上進行實驗,通過軟件工具限制其算力、帶寬和內存將其設置為異構集群。下表展示了五種異構性逐漸增加的集群配置。


本文利用ViT-Large和ViT-Huge模型在五種異構配置下進行實驗并和PipeEdge進行對比,實驗結果如下:


本文提出的多設備并行策略在每種異構情況下都優于PipeEdge,并且有1.7倍到3.4倍的提升。

結論:

本文提出的組間數據并行組內流水線并行的混合并行策略可以很好地適用于異構集群的大模型推理場景,并本文提出的算法可以感知大模型的最大峰值內存占用,可以分配最優的數據并行組數來大幅提升推理吞吐量。相關算法和多設備混合并行運行時系統可在https://github.com/kongweiming/hybrid_parallel_runtime獲取。

作者簡介:

徐朝農,博士,中國石油大學(北京)信息科學與工程學院/人工智能學院教師,主要研究領域為邊緣智能、嵌入式系統、無線網絡。

太阳城百家乐祖玛| 百家乐官网网页游戏网址| 百家乐透明发牌机| 棋牌百家乐赢钱经验技巧评测网 | 百家乐官网最常见的路子| 百家乐保单机作弊| 澳门开户| 百家乐五种路单规| 百家乐官网怎么看单| 豪门百家乐的玩法技巧和规则| 新利线上娱乐| 新思维百家乐投注法| 大发888娱乐城外挂| 百家乐官网路子技巧| 澳门百家乐要注意啥| 新葡京百家乐官网现金网| 百家乐视频连连看| 大发888下载大发888游戏平台| 百家乐官网园有限公司| 百家乐官网缩水| 香港六合彩报| 阳宅风水24向详解| 百家乐官网的代理办法| 大发888官方体育| 索雷尔百家乐官网的玩法技巧和规则 | 丽都百家乐的玩法技巧和规则| 亚洲百家乐官网博彩的玩法技巧和规则 | 威尼斯人娱乐城网上赌场| 百家乐官网视频游戏界面| 顶级赌场下载| 全讯网六| 百家乐官网最好投注法是怎样的去哪儿能了解一下啊 | 大发888真人真钱游戏| 百家乐博彩优惠论坛| 博彩百家乐官网组选六六组| 网上真钱麻将游戏| 百家乐的规则玩法| 百家乐官网扑克多少张| 澳门百家乐限红规则| 百家乐编单短信接收| 做生意 风水|