真钱游戏那个信誉好,哈皮棋牌游戏架设,疫情期间娱乐场所偷偷开业,违法吗 (中国)·官方网站

學校主頁

您所在的位置：首頁 - 科學研究 - 科研動態

科研動態

面向異構集群的大模型高吞吐量混合并行推理

日期：2024-03-14 | 訪問量：

中文題目：面向異構集群的大模型高吞吐量混合并行推理

論文題目：Hybrid Parallel Inference for Large Model on Heterogeneous Clusters for High Throughput

錄用期刊/會議：IEEE 29th International Conference on Parallel and Distributed Systems (ICPADS) 2023 (CCF C)

原文鏈接：https://ieee-cybermatics.org/2023/icpads/icpads-2023-accepted.htm

錄用時間：2023年10月27日

作者列表：

1）徐朝農中國石油大學（北京）信息科學與工程學院/人工智能學院計算機系教師

2）孔維明中國石油大學（北京）信息科學與工程學院/人工智能學院計算機技術專業碩 21

3）劉民中國石油大學（北京）信息科學與工程學院/人工智能學院計算機科學與技術專業碩 21

4）張明明中國石油大學（北京）信息科學與工程學院/人工智能學院計算機技術專業碩 21

5）李超之江實驗室

6）宮祿齊之江實驗室

文章簡介:

深度學習技術在各種工業場景中被廣泛使用以提高工作效率。在高吞吐量場景中，深度神經網絡模型（DNN）的輸入數據生成速度遠快于其消耗速度。模型需要快速推理并盡可能快地做出實時決策?，F有的模型推理加速方法，比如模型壓縮、自適應推理和神經架構搜索，都是通過犧牲精度來減少模型推理所需的計算量。在不損失準確性的情況下，最有效的方法是數據并行（DP）推理。因為它可以同時處理多個批次，幾乎可以線性增加推斷速度。但是，數據并行的模型的大小受到設備內存的限制。對于無法由單一設備容納的大型模型，通常使用流水線并行（PP）來加速過程。PP經常用于模型訓練，并且也可以用于大模型推理。然而，PP中設備間的通信開銷是主要的性能瓶頸，尤其是當PP中的階段太多時。因此，DP或PP很難滿足高吞吐量推斷場景，我們必須結合這兩種并行方法來開發一個合理的混合并行推理策略。而又由于近年來AI計算設備的快速迭代和進步，計算環境很可能包含具有不同計算能力、內存容量和通信帶寬的設備以最小化成本。因此，異構集群的計算場景十分常見，這進一步加劇了尋找最佳混合并行策略的難度。

本文的主要內容如下：

（1）本文提出了一種混合并行推理策略，該策略將異構設備群集進行分組，執行組間數據并行、組內流水線并行。通過控制數據并行組數、組內設備分配和模型流水線分區比例，可以實現最短的推斷時間。本文還基于該策略實現了一個高效的多設備調度推理運行時系統。

（2）提出了一種基于枚舉和動態規劃的最小化推理時延算法，用于生成最優的混合并行調度策略。

（3）在一個具有8塊RTX3090的異構集群上的進行了實驗評估，與PipeEdge相比，本文提出的混合并行策略的吞吐量提高了1.7倍到3.4倍。

摘要:

在高吞吐量智能計算場景中，基于數據并行或流水線并行的多設備并行策略已被廣泛利用來加速大型深度神經網絡模型推理。數據并行提供了幾乎線性的推斷速度改進，但它受到單個設備的內存容量限制，這限制了模型大小。另一方面，流水線并行可以支持更大的模型，但設備間激活數據的總通信量高，這限制了推理速度的提升。為了滿足高吞吐量異構場景中模型高效推理的需求，本文提出了一種混合并行策略，結合了數據并行和流水線并行。該策略包括對異構設備群集進行分組，然后采用組間數據并行以及組內流水線并行推理。此外，本文提出了一種最小化單Batch推理時延的算法，以找到具有最大吞吐量的最優混合并行推理的調度方案。該算法的控制變量包括組的數量、組設備分配和模型分割比例。本文實驗評估表明，與PipeEdge（一個針對異構集群的流水線并行推理框架）相比，本文的策略在一個擁有8塊RTX 3090的異構集群中可以實現1.7倍到3.4倍的加速，且不損失模型精度。

設計與實現:

上圖為組間數據并行組內流水線并行的混合并行推理的耗時示意圖。通過分析可以發現耗時最長的數據并行組即為整個混合并行的推理耗時，而組內流水的微批數量也決定了組內的流水線并行的耗時。而通過優化最慢數據并行組并使其推理時間最短再找到最優的集群分組數就可以實現整個混合并行策略的最短推理時延。因此，可以建模為：

本文通過枚舉的方法找到最優的設備分組數并配合第二斯特林數來找到各組的設備配置組合。然后通過三維動態規劃來確定組內最佳的模型流水線劃分方案。

由于現在的加速設備都為多核架構，因此，流水線并行推理時，每個設備的下一個微批計算任務和上一個微批的通信任務可以異步執行。本文取計算和通信的最大值為該設備上的推理耗時。本文將表示為在設備上執行層的計算時間。表示從設備到設備傳輸激活值數據的通信時間。在確定異構設備集群被分為組，且第組包含的設備數量為之后，針對將層DNN模型劃分至每個數據并行組內的臺設備上以求最短推理時間的問題，可以轉化為計算兩個時間段最大值的問題。這兩個時間段包括：在臺設備上完成模型前層推理的最短時間，以及在最后一臺設備上完成模型剩余層推理的時間。通過進一步轉化，模型分區問題可以轉化為尋找在臺設備上對模型前層進行推理所需的最短時間的子問題?；谧訂栴}的最優分區結果，可以構建整個模型流水線分區方案的最優解。因此，該問題適合采用動態規劃算法來解決，這種方法不僅提高了問題解決的效率，而且通過動態規劃的策略，確保了在異構設備集群中實現DNN模型推理時的最優性能。為了解決每個數據并行組內的最優模型流水線分區問題，本文設計了一種三維動態規劃算法，該算法記錄了處理的子模型、使用的設備子集以及下一個流水線段所要使用的設備的所有狀態。對于每個數據并行組中的臺設備集合，讓該組設備集合的所有子集組成一個新的列表。表示使用設備子集處理DNN模型前層的最短推理時間并且流水線的下一個階段使用設備進行處理。是在設備子集上推理前層模型的最優解，即子問題的最優解，那么該分區問題的最終最優解為。進一步地，下一個狀態的計算需要使用最優子問題性質，該狀態的模型推理時間由先前狀態，或者在設備上執行模型的第層到第層的計算時間，或者通信時間決定，組內模型分區算法的狀態轉移方程可以表述為：

通過上述方法可以確定組間數據并行組內流水線并行的混合并行推理系統的最優數據并行組數、每個組內設備的數量與類型、設備的排序以及模型在各設備間的分配方案。

實驗結果及分析:

本文在8塊RTX3090的集群上進行實驗，通過軟件工具限制其算力、帶寬和內存將其設置為異構集群。下表展示了五種異構性逐漸增加的集群配置。

本文利用ViT-Large和ViT-Huge模型在五種異構配置下進行實驗并和PipeEdge進行對比，實驗結果如下：

本文提出的多設備并行策略在每種異構情況下都優于PipeEdge，并且有1.7倍到3.4倍的提升。

結論:

本文提出的組間數據并行組內流水線并行的混合并行策略可以很好地適用于異構集群的大模型推理場景，并本文提出的算法可以感知大模型的最大峰值內存占用，可以分配最優的數據并行組數來大幅提升推理吞吐量。相關算法和多設備混合并行運行時系統可在https://github.com/kongweiming/hybrid_parallel_runtime獲取。

作者簡介:

徐朝農，博士，中國石油大學（北京）信息科學與工程學院/人工智能學院教師，主要研究領域為邊緣智能、嵌入式系統、無線網絡。

澳门银河赌场注册送38-澳门银河赌场招人好招吗_百家乐德州_全讯网下载 (中国)·官方网站

科研動態

面向異構集群的大模型高吞吐量混合并行推理