澳门银河赌场注册送38-澳门银河赌场招人好招吗_百家乐德州_全讯网下载 (中国)·官方网站

您所在的位置:首頁 - 科學研究 - 科研動態(tài)

科研動態(tài)

Cuper:利用定制數(shù)據(jù)流和感知解碼加速的高帶寬內(nèi)存FPGA上的稀疏矩陣-向量乘

中文題目Cuper:利用定制數(shù)據(jù)流和感知解碼加速的高帶寬內(nèi)存FPGA上的稀疏矩陣-向量乘

論文題目Cuper: Customized Dataflow and Perceptual Decoding for Sparse Matrix-Vector Multiplication on HBM-Equipped FPGAs

錄用期刊/會議2024 Design, Automation and Test in Europe Conference (DATE) (CCF-B類會議)

原文鏈接:https://ieeexplore.ieee.org/document/10546672

錄用/見刊時間:2024-3-25(錄用時間)

作者列表

1)伊恩鑫 中國石油大學(北京)人工智能學院 計算機技術 21

2)段懿洳 中國石油大學(北京)人工智能學院 計算機科學與技術 21

3)柏一諾 中國石油大學(北京)人工智能學院 電子信息工程 19

4)趙   康 北京郵電大學集成電路學院 集成電路系教師

5)金   洲 中國石油大學(北京)人工智能學院 計算機系教師

6)劉偉峰 中國石油大學(北京)人工智能學院 計算機系教師

摘要:

稀疏矩陣-向量乘(SpMV)是許多科學計算和工程應用的重要組成部分??紤]到SpMV的不規(guī)則數(shù)據(jù)訪問模式,其加速通常受限于有限的帶寬。 新興的高帶寬內(nèi)存(HBM)為加速SpMV提供了良機。然而,如何確保高帶寬利用率和低內(nèi)存訪問沖突仍是具有挑戰(zhàn)的。 在本文中,我們介紹了配備HBM的FPGA上的高性能SpMV加速器Cuper。通過定制HBM兼容的數(shù)據(jù)流和以感知解碼器為中心的硬件架構(gòu),充分提高帶寬利用率和向量重用性。實驗結(jié)果表明,Cuper的幾何平均吞吐量、帶寬效率和能效比配備HBM的FPGA上四種最新的SpMV加速器:HiSparse、Graphlily、Sextens和Serpens有顯著提升。與NVIDIA Tesla K80 GPU相比,Cuper實現(xiàn)了2.51倍的吞吐量提升和7.97倍的能效優(yōu)化。

背景與動機:

FPGA被認為是加速SpMV的極具吸引力的平臺。與傳統(tǒng)的CPU和GPU平臺相比,F(xiàn)PGA可以通過定制數(shù)據(jù)流和內(nèi)存結(jié)構(gòu)充分發(fā)揮SpMV的并行潛力。并且,F(xiàn)PGA通常具有較低的功耗。然而,在配備DDR內(nèi)存系統(tǒng)的傳統(tǒng)FPGA平臺上加速SpMV存在一定局限。與傳統(tǒng)的DDR內(nèi)存相比,高帶寬內(nèi)存(HBM)具有更多的內(nèi)存通道和更大的內(nèi)存帶寬,這為加速SpMV帶來了巨大的機遇。但充分利用配備HBM的FPGA的高帶寬優(yōu)勢設計高性能通用SpMV加速器還面臨著多項挑戰(zhàn),主要包括以下幾個方面:(1)現(xiàn)有的稀疏存儲格式對充分利用HBM的高帶寬潛力構(gòu)成了挑戰(zhàn);(2)固有的RAW沖突導致計算占用率低;(3)缺乏對輸入向量和片上存儲器的有效利用。

設計與實現(xiàn):

一、稀疏存儲格式

我們使用稀疏切片作為基本單位,確保PE間相對負載平衡,為了利用向量重用性,我們用CSC格式來存儲稀疏切片;為了減少額外控制開銷,我們利用COO格式存儲每個稀疏切片中的非零元信息。

二、重排算法和數(shù)據(jù)流處理方案

我們設計了一種兩步重排序算法:(1)沖突感知的行重排算法,利用無沖突滑動窗口減輕了RAW的影響;(2)重用感知的排重排算法,通過收集可重用元素提高了向量的重用性。此外,我們采用循環(huán)數(shù)據(jù)流分配方式,以減少并發(fā)訪問帶來的HBM通道沖突。

 

圖 1:稀疏存儲格式、兩步重排序算法和數(shù)據(jù)流處理方案

三、Cuper的硬件架構(gòu)設計

我們精心規(guī)劃了HBM通道的分配方案,以充分利用內(nèi)存帶寬。以感知解碼器為中心的硬件架構(gòu)可以跳過稀疏矩陣中的空白結(jié)構(gòu),以減少冗余的向量片上內(nèi)存寫入。靈活的重用寄存器暫存可復用向量元素,以提高向量重用性。此外,我們還設置了Ping-Pong緩沖區(qū),以掩蓋不同批次之間的內(nèi)存切換延遲。

 

圖 2:Cuper的硬件架構(gòu)設計

實驗結(jié)果及分析:

一、 Cuper與FPGA上的SpMV加速器對比

Cuper的幾何平均吞吐量分別比最新的SpMV加速器HiSparse、GraphLily、Sextans和Serpens高出3.28倍、1.99倍、1.75倍和1.44倍。此外,幾何平均帶寬效率分別提高了3.28倍、2.20倍、2.82倍和1.31倍,而幾何平均能效則分別優(yōu)化了3.59倍、2.08倍、2.21倍和1.44倍。

圖 3:五種SpMV加速器的吞吐量對比

 

 

表 1:五種SpMV加速器在12個評估矩陣上的帶寬效率和能效對比

二、 Cuper與K80 GPU對比

K80 GPU和Cuper的最大吞吐量分別為24.81 GFlops和46.74 GFlops。與K80 GPU相比,Cuper在2,757個SuiteSparse矩陣上的吞吐量和能效分別提高了2.51倍和7.97倍。

 

圖 4:K80 GPU和Cuper在2,757個評估矩陣上的吞吐量對比

結(jié)論:

本文中,我們在配備HBM的FPGA上提出了一種新穎的高性能SpMV加速器Cuper。定制稀疏格式的非零元存儲和稀疏塊結(jié)構(gòu)充分利用了HBM的優(yōu)勢。重排算法有效緩解了SpMV累加階段的寫后讀沖突并提高了向量重用性。以感知解碼器為中心的硬件架構(gòu)設計進一步改善了重用性和片上內(nèi)存利用率。評估結(jié)果表明,與四種最先進的高帶寬SpMV加速器和K80 GPU相比,Cuper在吞吐量、帶寬效率和能效方面都更具優(yōu)勢。

通訊作者簡介:

金洲,中國石油大學(北京)計算機系副教授,入選北京市科協(xié)青年人才托舉工程、校青年拔尖人才。主要從事集成電路設計自動化(EDA)、面向科學計算的DSA軟硬件協(xié)同設計等方面的研究工作。主持并參與國家自然科學基金青年項目、重點項目,科技部重點研發(fā)微納電子專項、高性能計算專項青年科學家項目,國家重點實驗室開放課題、企業(yè)橫向課題等。在DAC、TCAD、TODAES、SC、PPoPP、IPDPS、TCAS-II、ASP-DAC等重要國際會議和期刊上發(fā)表60余篇高水平學術論文。獲EDA2青年科技獎、SC23最佳論文獎、ISEDA23榮譽論文獎、IEEJ九州支部長獎等。

聯(lián)系方式:jinzhou@cup.edu.cn


百家乐官网数据程序| 百家乐官网看| 现金投注网| 赌球网| 百家乐北京| 百家乐官网博赌场| 战神国际娱乐城| 视频百家乐赢钱| 百家乐官网游戏介绍与分析| 最新全讯网网址| 百家乐群东方鸿运| 太阳城百家乐官网网址--| 365足球备用| 新时代百家乐的玩法技巧和规则| 百家乐官网种类| 云鼎百家乐官网程序开发有限公司| 博彩通评级| 百家乐看图赢钱| 福布斯百家乐官网的玩法技巧和规则| 百家乐大小点桌子| 百家乐官网专业豪华版| 山东省| 大发888hanpa| 博天堂百家乐的玩法技巧和规则| 棋牌百家乐官网有稳赚的方法吗| 永利博百家乐官网现金网| 大发888容易赢吗| 威尼斯人娱乐城活动lm0| 百家乐赌钱| 百家乐官网公式与赌法| 澳门百家乐官网娱乐城网址| 网上现金赌场| 香港六合彩开奖结果网| 大发888客户端下| 明珠百家乐的玩法技巧和规则| 子山午向的房子24山图| 丽都百家乐官网的玩法技巧和规则 | 大发888苹果手机下载| 乐天堂百家乐娱乐城| 百威百家乐的玩法技巧和规则| 百家乐庄闲局部失|