国产精品三级AV三级AV三级_日韩AV无码一区二区三区不卡_青青草激情在线久久久免费播放_人妻无码视频免费看

基于流水線(xiàn)光總線(xiàn)陣列的快速矩陣運(yùn)算

基于流水線(xiàn)光總線(xiàn)陣列的快速矩陣運(yùn)算

一、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文文獻(xiàn)綜述)

陳晟[1](2021)在《基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明諧波雷達(dá)是一種對(duì)目標(biāo)進(jìn)行探測(cè)、識(shí)別和判斷的裝置,軍事上常用于探測(cè)隱形飛機(jī)、隱形艦船等目標(biāo),通過(guò)接收并處理非線(xiàn)性目標(biāo)散射的諧波信號(hào),達(dá)到探測(cè)非線(xiàn)性目標(biāo)的目的。由于諧波雷達(dá)對(duì)半導(dǎo)體和金屬結(jié)極其敏感,從而能夠高效、準(zhǔn)確地探測(cè)出藏匿的通信終端、針孔攝像頭和微型起爆器等設(shè)備,因此,諧波雷達(dá)民用化的意義越來(lái)越重大。本文針對(duì)現(xiàn)有的民用諧波雷達(dá)在近場(chǎng)探測(cè)時(shí)無(wú)法完成測(cè)距的痛點(diǎn),融合了載波測(cè)距方案和二相編碼脈沖壓縮雷達(dá)方案設(shè)計(jì)了一種小型數(shù)字化低成本手持式近場(chǎng)諧波雷達(dá)系統(tǒng),并完成了該系統(tǒng)的波形設(shè)計(jì)、架構(gòu)設(shè)計(jì)和各子系統(tǒng)的數(shù)字化實(shí)現(xiàn)。為解決硬件資源不足的問(wèn)題,本文基于脈動(dòng)陣列架構(gòu),通過(guò)C/C++和Verilog混合編程的方式自主設(shè)計(jì)了一個(gè)完備的復(fù)用型硬件加速網(wǎng)絡(luò),自定義了Valid-Ready握手協(xié)議用于解決多模塊對(duì)網(wǎng)絡(luò)調(diào)度時(shí)的沖突問(wèn)題。通過(guò)將不同模塊需要計(jì)算的數(shù)據(jù)時(shí)分調(diào)度至該網(wǎng)絡(luò)上進(jìn)行運(yùn)算,提升了系統(tǒng)的實(shí)時(shí)信號(hào)處理能力,同時(shí)極大幅度壓縮了硬件資源消耗。本系統(tǒng)的發(fā)射機(jī)子系統(tǒng)實(shí)現(xiàn)了基于CORDIC算法的基帶波形生成,設(shè)計(jì)了交互邏輯和控制邏輯,并完成了對(duì)外圍芯片的驅(qū)動(dòng);載波跟蹤、同步子系統(tǒng)重構(gòu)了傳統(tǒng)載波跟蹤環(huán),用調(diào)制信號(hào)跟蹤回波并通過(guò)鏡像NCO輸出載波,為目標(biāo)檢測(cè)子系統(tǒng)和載波測(cè)距子系統(tǒng)提供相位與回波信號(hào)的載波相位相同的平穩(wěn)載波信號(hào);目標(biāo)檢測(cè)子系統(tǒng)采用二相編碼脈沖壓縮雷達(dá)接收機(jī)方案,利用分布式算法和硬件加速網(wǎng)絡(luò)在FPGA中進(jìn)行數(shù)字化實(shí)現(xiàn);載波測(cè)距子系統(tǒng)利用CORDIC算法構(gòu)建了高精度二象限鑒相器,在FPGA中實(shí)現(xiàn)了高精度測(cè)距。此外,本文利用前人在非線(xiàn)性結(jié)點(diǎn)小信號(hào)建模領(lǐng)域的相關(guān)成果簡(jiǎn)化了非線(xiàn)性結(jié)點(diǎn)在穩(wěn)態(tài)下的回波模型。通過(guò)該模型可以模擬出不同噪聲環(huán)境下諧波雷達(dá)的回波信號(hào),這彌補(bǔ)了實(shí)測(cè)數(shù)據(jù)不易覆蓋不同使用場(chǎng)景的缺陷,生成的仿真數(shù)據(jù)可以作為實(shí)測(cè)數(shù)據(jù)的補(bǔ)充。本文通過(guò)實(shí)測(cè)數(shù)據(jù)和仿真數(shù)據(jù)對(duì)各子系統(tǒng)進(jìn)行了驗(yàn)證,結(jié)果表明各子系統(tǒng)均能有效地實(shí)現(xiàn)預(yù)期的功能。

陳文杰[2](2021)在《高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明隨著技術(shù)的發(fā)展和應(yīng)用需求的提升,神經(jīng)網(wǎng)絡(luò)、數(shù)字信號(hào)處理、無(wú)線(xiàn)通信技術(shù)等領(lǐng)域中涉及到大量高精度浮點(diǎn)數(shù)運(yùn)算。而矩陣運(yùn)算作為信號(hào)處理的基礎(chǔ)運(yùn)算在各個(gè)領(lǐng)域中得到廣泛應(yīng)用。求逆運(yùn)算是矩陣運(yùn)算中最復(fù)雜的運(yùn)算。傳統(tǒng)的求逆算法由于運(yùn)算復(fù)雜度過(guò)高,過(guò)程復(fù)雜不利于硬件實(shí)現(xiàn)。因此,國(guó)內(nèi)外大量研究團(tuán)隊(duì)提出了一系列矩陣求逆的方法,并在硬件上進(jìn)行驗(yàn)證和實(shí)現(xiàn)。矩陣求逆運(yùn)算的運(yùn)算復(fù)雜度與階數(shù)三次方成正比,現(xiàn)有的矩陣求逆器的面向?qū)ο蟠蠖鄶?shù)為一些基于定點(diǎn)數(shù)的特殊矩陣或者定規(guī)模矩陣。因此,設(shè)計(jì)一款面向高精度高維度的硬件矩陣求逆器具有十分重要架構(gòu)探索意義和工程實(shí)用價(jià)值。綜上所述,本文在深入研究了現(xiàn)有矩陣求逆算法和硬件實(shí)現(xiàn)架構(gòu),開(kāi)展了以下主要工作:(1)對(duì)現(xiàn)有矩陣求逆算法進(jìn)行分析和探究,根據(jù)算法本身的運(yùn)算復(fù)雜度,硬件實(shí)現(xiàn)復(fù)雜度和數(shù)值穩(wěn)定性等特點(diǎn),選取基于按列Givens旋轉(zhuǎn)的矩陣分解算法,并在其基礎(chǔ)上綜合使用原位替換的并行Column-wise Givens Rotation(CGR)分解方法,和分塊求逆的上三角矩陣求逆方法,充分發(fā)揮算法并行特性,確保實(shí)際電路性能。(2)根據(jù)CGR算法的特性,設(shè)計(jì)了矩陣求逆運(yùn)算的硬件加速器,用于加速雙精度浮點(diǎn)方陣的求逆。在矩陣的QR分解過(guò)程中,優(yōu)化二維脈沖陣列結(jié)構(gòu),設(shè)計(jì)了一維線(xiàn)性結(jié)構(gòu),該結(jié)構(gòu)充分發(fā)揮了CGR算法的流水化計(jì)算過(guò)程特征,壓縮了分解過(guò)程中的運(yùn)算周期。(3)按照標(biāo)準(zhǔn)ASCI流程完成了仿真驗(yàn)證、綜合實(shí)現(xiàn)、后端優(yōu)化以及版圖實(shí)現(xiàn),最后在Xlinx XC7V440T FPGA平臺(tái)上搭建驗(yàn)證環(huán)境并驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的矩陣求逆器可支持任意2-32階的雙精度浮點(diǎn)數(shù)矩陣求逆運(yùn)算,在TSMC28nm工藝下,該求逆器支持工作頻率為700MHz,芯片面積為1.08mm2,可在14123個(gè)周期內(nèi)完成32階雙精度浮點(diǎn)矩陣求逆運(yùn)算,計(jì)算結(jié)果與MATLAB的平均相對(duì)誤差在10-8以下,頻率歸一后其性能是AMD Ryzen 5 3500U CPU的40倍,面積歸一后性能是NVIDIA RTX3070 GPU的118倍。

周鈺致[3](2020)在《邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)》文中研究指明隨著5G網(wǎng)絡(luò)技術(shù)的發(fā)展,接入網(wǎng)絡(luò)的設(shè)備數(shù)量以及網(wǎng)絡(luò)邊緣設(shè)備中產(chǎn)生的數(shù)據(jù)量迅速增加,這給移動(dòng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來(lái)了不小的負(fù)擔(dān)。在這種發(fā)展趨勢(shì)下,基于云計(jì)算的服務(wù)模式很難穩(wěn)定地保持對(duì)網(wǎng)絡(luò)邊緣設(shè)備請(qǐng)求處理的實(shí)時(shí)性。一種新提出的邊緣計(jì)算模型采取了將部分計(jì)算處理的過(guò)程遷移至終端設(shè)備或者網(wǎng)絡(luò)鏈路中的方法,通過(guò)這種方法降低了終端設(shè)備的數(shù)據(jù)處理響應(yīng)的延遲。人機(jī)交互系統(tǒng)的性能對(duì)用戶(hù)體驗(yàn)的影響尤為重要,而顯示設(shè)備又是人機(jī)交互的重要橋梁。因此低時(shí)延高可靠的顯示系統(tǒng)對(duì)于邊緣計(jì)算來(lái)說(shuō)非常重要。本文重點(diǎn)針對(duì)邊緣計(jì)算設(shè)備中人機(jī)交互顯示系統(tǒng)的實(shí)時(shí)性、低功耗、可靠性三個(gè)方面的關(guān)鍵技術(shù)展開(kāi)研究,通過(guò)算法、架構(gòu)、系統(tǒng)、芯片四個(gè)層次協(xié)同優(yōu)化的設(shè)計(jì)方法,最終實(shí)現(xiàn)了低時(shí)延、低功耗、高可靠的邊緣計(jì)算顯示芯片。本文主要的研究工作和創(chuàng)新點(diǎn)如下:(1)針對(duì)實(shí)時(shí)性需求,提出了一種適用于邊緣計(jì)算的異構(gòu)圖形運(yùn)算系統(tǒng)的架構(gòu),通過(guò)均衡流水線(xiàn)不同階段的運(yùn)算負(fù)載及頂點(diǎn)片元異構(gòu)加速器架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了高能效的圖形處理。通過(guò)自研的芯片開(kāi)發(fā)板在常溫室內(nèi)條件下對(duì)芯片中的圖形處理核進(jìn)行了測(cè)試,測(cè)試過(guò)程中關(guān)閉了其他運(yùn)算單元模塊,圖形處理核最高頻率能達(dá)到200MHz。通過(guò)選取典型的邊緣計(jì)算的界面進(jìn)行測(cè)試,最高處理速率為152MPixels/s,性能功耗比相比于面向低成本顯示系統(tǒng)的ARM架構(gòu)微處理器芯片 STM32L476 提升了 5.8 倍。(2)針對(duì)功耗及內(nèi)存帶寬的限制,提出了一種基于塊的實(shí)時(shí)幀緩存壓縮算法,設(shè)計(jì)了壓縮器的架構(gòu)。通過(guò)在幀像素點(diǎn)產(chǎn)生的過(guò)程中同步進(jìn)行壓縮的方法,在不影響系統(tǒng)性能的前提下降低了運(yùn)算單元的帶寬需求。在基于Kintex-7 FPGA的測(cè)試平臺(tái)上移植了圖形處理系統(tǒng)和幀緩存壓縮器并運(yùn)行典型界面進(jìn)行測(cè)試,壓縮后系統(tǒng)功耗節(jié)省的效果相比于采用JPEG格式的幀緩存壓縮方法提升了 2.3倍。(3)針對(duì)可靠性需求,提出了一種多周期累加冗余信息的脈動(dòng)陣列容錯(cuò)算法,設(shè)計(jì)了容錯(cuò)脈動(dòng)陣列架構(gòu)。通過(guò)軟件仿真注入錯(cuò)誤驗(yàn)證錯(cuò)誤恢復(fù)率,實(shí)驗(yàn)結(jié)果表明錯(cuò)誤恢復(fù)率能達(dá)到99%,錯(cuò)誤恢復(fù)情況優(yōu)于時(shí)間空間冗余算法,能滿(mǎn)足面向深度學(xué)習(xí)應(yīng)用的脈動(dòng)陣列的需求。采用Synopsys公司的綜合工具進(jìn)行綜合并對(duì)比面積,在乘法器精度為32bit的情況下,冗余面積為61.5%,對(duì)比雙模冗余架構(gòu)節(jié)省了 38.5%的冗余面積,相比于錯(cuò)誤遷移方法可以實(shí)現(xiàn)軟錯(cuò)誤的錯(cuò)誤檢測(cè)及錯(cuò)誤恢復(fù)。(4)設(shè)計(jì)并流片了一款基于RISC-V擴(kuò)展指令集的高能效顯示芯片。在常溫常壓條件下,對(duì)芯片進(jìn)行了測(cè)試。測(cè)試結(jié)果表明芯片系統(tǒng)的運(yùn)行功耗為65mW,相比于學(xué)術(shù)界中統(tǒng)一著色器架構(gòu)的圖形處理器芯片的研究成果功耗降低了 3倍。通過(guò)面向邊緣計(jì)算的典型場(chǎng)景進(jìn)行測(cè)試,性能功耗比相比于主流基于ARM的微處理器芯片STM32L476提升了 1.49倍。通過(guò)算法、架構(gòu)、系統(tǒng)多個(gè)層面進(jìn)行了軟硬件協(xié)同優(yōu)化設(shè)計(jì),并在芯片設(shè)計(jì)層面上采用了低功耗的設(shè)計(jì)方法,本文最終實(shí)現(xiàn)了面向邊緣計(jì)算的高能效、高可靠顯示芯片。

沈俊忠[4](2020)在《面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究》文中指出近年來(lái),人工智能技術(shù)迅猛發(fā)展,在全球范圍內(nèi)受到了廣泛關(guān)注。以卷積經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Networks)為代表的深度學(xué)習(xí)算法的不斷更新迭代對(duì)計(jì)算機(jī)系統(tǒng)的計(jì)算性能與能耗要求急劇提高。然而,由于近年來(lái)摩爾定律發(fā)展的停滯以及馮諾伊曼結(jié)構(gòu)限制,現(xiàn)有的數(shù)據(jù)中心架構(gòu)無(wú)法高效地實(shí)現(xiàn)深度學(xué)習(xí)與大數(shù)據(jù)相結(jié)合的應(yīng)用加速。以FPGA為代表的定制化硬件為解決上述問(wèn)題提供了新思路,一方面,FPGA特有的可重構(gòu)特性使其能夠適應(yīng)算法的快速發(fā)展變化,克服了ASIC解決方案對(duì)新興算法適應(yīng)性差的的問(wèn)題;另一方面,FPGA在加速深度學(xué)習(xí)算法體現(xiàn)出的高能效特性也讓其備受研究人員的青睞。隨著國(guó)內(nèi)外各大科技公司紛紛在數(shù)據(jù)中心部署FPGA設(shè)備構(gòu)建異構(gòu)計(jì)算加速集群,CPU+FPGA體系結(jié)構(gòu)在處理大數(shù)據(jù)應(yīng)用方面的優(yōu)勢(shì)逐漸得到肯定,CPU+FPGA異構(gòu)計(jì)算體現(xiàn)出非常好的發(fā)展前景。本文基于CPU-多FPGA異構(gòu)融合體系結(jié)構(gòu),面向深度學(xué)習(xí)與大數(shù)據(jù)相結(jié)合的典型應(yīng)用,圍繞加速器體系結(jié)構(gòu)、算法到硬件映射方案、數(shù)據(jù)流加速器、性能模型、分布式加速方案等關(guān)鍵技術(shù)進(jìn)行分析研究。本文的研究?jī)?nèi)容及創(chuàng)新點(diǎn)如下:·研究三維卷積神經(jīng)網(wǎng)絡(luò)的FPGA加速技術(shù)。本文提出了一種面向二維/三維卷積神經(jīng)網(wǎng)絡(luò)加速的模板化體系結(jié)構(gòu)和設(shè)計(jì)方法。首先,為了減少卷積神經(jīng)網(wǎng)絡(luò)的算法復(fù)雜度,我們對(duì)Winograd快速算法進(jìn)行擴(kuò)展使其能運(yùn)用到三維卷積神經(jīng)網(wǎng)絡(luò)中。其次,我們從二維/三維卷積神經(jīng)網(wǎng)絡(luò)中抽取了公共算子,并基于此設(shè)計(jì)了一系列可重構(gòu)計(jì)算模板。最后,我們采用高層次綜合語(yǔ)言對(duì)計(jì)算模板進(jìn)行實(shí)現(xiàn),并基于這些計(jì)算模板構(gòu)建了加速引擎,實(shí)現(xiàn)了模板化加速器的快速生成。由于二維、三維卷積神經(jīng)網(wǎng)絡(luò)算法復(fù)雜度的差異,先前的工作針對(duì)二維卷積神經(jīng)網(wǎng)絡(luò)加速器提出的設(shè)計(jì)空間探索方法對(duì)于三維卷積神經(jīng)網(wǎng)絡(luò)加速器可能不再適用。針對(duì)該問(wèn)題,我們提出了一種統(tǒng)一的性能分析模型,實(shí)現(xiàn)了對(duì)二維/三維卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)空間探索并給出了最優(yōu)設(shè)計(jì)參數(shù)的搜索方法。實(shí)驗(yàn)結(jié)果表明針對(duì)VGG和C3D網(wǎng)絡(luò),我們的加速器在較低的計(jì)算資源開(kāi)銷(xiāo)下獲得了與目前先進(jìn)的神經(jīng)網(wǎng)絡(luò)加速器相當(dāng)?shù)男阅堋T谟?jì)算吞吐方面,C3D網(wǎng)絡(luò)加速器獲得了13倍于CPU的性能提升;在計(jì)算能效方面,C3D網(wǎng)絡(luò)加速器相對(duì)于CPU和GPU分別獲得了60倍和30倍的提升?!ぱ芯客暾亩S/三維卷積神經(jīng)網(wǎng)絡(luò)到FPGA硬件的映射方案。本文提出了一種將完整的二維/三維卷積神經(jīng)網(wǎng)絡(luò)高效映射到流水化多加速器結(jié)構(gòu)的方案。為了解決網(wǎng)絡(luò)層規(guī)模差異而導(dǎo)致加速器計(jì)算效率降低的問(wèn)題,我們?cè)诘谝豁?xiàng)研究?jī)?nèi)容的基礎(chǔ)上進(jìn)一步提出了一種流水化多加速器方案,該方案最主要的特點(diǎn)是將所有的層間數(shù)據(jù)存于片上,從而增加了層間數(shù)據(jù)復(fù)用率,有效降低了片外訪(fǎng)存開(kāi)銷(xiāo),與之前的工作相比,我們進(jìn)一步提升了加速器的吞吐和效能。為了降低層間數(shù)據(jù)的片上存儲(chǔ)開(kāi)銷(xiāo),我們首先提出了一種層融合確定算法,通過(guò)改變?nèi)诤蠈樱ㄏ噜彽膬蓚€(gè)卷積層)中的循環(huán)順序,實(shí)現(xiàn)了層間分塊數(shù)據(jù)的有效利用。其次,為了實(shí)現(xiàn)網(wǎng)絡(luò)層到多個(gè)加速器的高效映射,我們基于K-means聚類(lèi)思想提出了一種層聚類(lèi)方法,將分塊參數(shù)接近的網(wǎng)絡(luò)層進(jìn)行聚類(lèi)并映射到同一個(gè)加速器。此外,為了解決加速器之間的負(fù)載不均衡狀況,我們還提出了一種簡(jiǎn)單而高效的負(fù)載均衡調(diào)度,進(jìn)一步提升加速器整體的計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,相比于之前提出的加速器方案,本文提出的流水化多加速器方案獲得了最高2.3倍性能提升,在計(jì)算效能方面,我們相比于CPU、GPU分別提升了64倍和5倍?!ぱ芯恳匀S卷積神經(jīng)網(wǎng)絡(luò)為核心的醫(yī)療影像識(shí)別應(yīng)用的并行加速方案。深度學(xué)習(xí)算法已成功運(yùn)用到醫(yī)療影像分析應(yīng)用中,然而,應(yīng)用性能提升的同時(shí),其算法的計(jì)算、存儲(chǔ)開(kāi)銷(xiāo)也不可避免地增加,導(dǎo)致了應(yīng)用處理延遲開(kāi)銷(xiāo)的增大。為了解決上述問(wèn)題,我們以基于三維卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)檢測(cè)應(yīng)用為例展開(kāi)研究,提出了一套基于CPU-多FPGA異構(gòu)計(jì)算平臺(tái)的肺結(jié)節(jié)檢測(cè)加速方案。我們首先對(duì)算法并行性進(jìn)行了深入的分析,提取了核心計(jì)算負(fù)載——兩種三維卷積神經(jīng)網(wǎng)絡(luò):LNS-net和LNC-net,并針對(duì)兩種網(wǎng)絡(luò)的不同特征,分別提出了“模型并行”以及“數(shù)據(jù)并行”的映射方案。其次,我們?cè)诘诙绿岢龅娜S卷積神經(jīng)網(wǎng)絡(luò)加速器基礎(chǔ)上進(jìn)行了改進(jìn),節(jié)省了硬件資源,提高加速器資源利用率。此外,我們?cè)贔PGA節(jié)點(diǎn)間設(shè)計(jì)了兩種互連類(lèi)型——常規(guī)通路和快速通路:滿(mǎn)足了算法映射方案對(duì)FPGA節(jié)點(diǎn)間通信的需求。最后,我們采用依托項(xiàng)目開(kāi)發(fā)的定制FPGA加速板卡進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的異構(gòu)系統(tǒng)具有良好的擴(kuò)展性,并且面向LNS-net和LNC-net的加速方案都獲得了高于CPU、GPU的計(jì)算吞吐和能效比。與此同時(shí),系統(tǒng)還達(dá)到了世界先進(jìn)水平檢測(cè)精度?!ぱ芯棵嫦蛏疃葓D卷積神經(jīng)網(wǎng)絡(luò)的并行加速方案。我們提出了一種面向深度圖卷積神經(jīng)網(wǎng)絡(luò)的分布式并行加速方案。我們選取了一個(gè)典型的深度圖卷積神經(jīng)網(wǎng)絡(luò)算法——DAGCN作為主要研究對(duì)象,從算法的計(jì)算特征、稀疏性等方面對(duì)其進(jìn)行了分析,并通過(guò)實(shí)驗(yàn)驗(yàn)證了網(wǎng)絡(luò)層精度與網(wǎng)絡(luò)深度之間存在正相關(guān)關(guān)系。我們提出了一種高效的網(wǎng)絡(luò)映射方案,CPU負(fù)責(zé)網(wǎng)絡(luò)層結(jié)果的聚合操作,而FPGA則對(duì)主要的計(jì)算負(fù)載——圖卷積層進(jìn)行加速。與前面提到的流水化并行加速方案類(lèi)似,我們?cè)诿總€(gè)FPGA節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)了多個(gè)圖卷積層加速引擎,以實(shí)現(xiàn)多個(gè)圖卷積層的并行加速。我們將所有節(jié)點(diǎn)內(nèi)的加速引擎組織成橫跨所有FPGA節(jié)點(diǎn)的長(zhǎng)流水線(xiàn),旨在提高FPGA節(jié)點(diǎn)的計(jì)算吞吐。為了找到最優(yōu)設(shè)計(jì)參數(shù),實(shí)現(xiàn)加速器性能最大化,我們建立了數(shù)學(xué)模型評(píng)估加速器的性能與FPGA資源開(kāi)銷(xiāo)。實(shí)驗(yàn)結(jié)果表明,我們?cè)诹铀俟?jié)點(diǎn)配置下可達(dá)到2.6 TFLOPS的實(shí)測(cè)性能;我們與當(dāng)前最先進(jìn)的基于FPGA的圖卷積神經(jīng)網(wǎng)絡(luò)加速器工作進(jìn)行對(duì)比,進(jìn)一步表明了我們的加速器方案在計(jì)算吞吐和計(jì)算效率方面都達(dá)到了先進(jìn)的水平。

邱俊豪[5](2020)在《高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明隨著大數(shù)據(jù)時(shí)代的到來(lái),人工智能、云計(jì)算等新興技術(shù)被廣泛使用,現(xiàn)代數(shù)字信號(hào)處理系統(tǒng)需要實(shí)時(shí)處理高維度、高精度以及高帶寬的復(fù)雜信號(hào)。矩陣運(yùn)算作為信號(hào)處理系統(tǒng)的重要基礎(chǔ)運(yùn)算,有著廣泛的應(yīng)用。其中矩陣求逆是最復(fù)雜也是應(yīng)用最廣的運(yùn)算之一,受到國(guó)內(nèi)外學(xué)者重點(diǎn)關(guān)注,提出了大量有效的矩陣求逆算法,并通過(guò)不同的硬件平臺(tái)進(jìn)行了驗(yàn)證與實(shí)現(xiàn)。矩陣求逆的運(yùn)算量隨矩陣規(guī)模的增大呈指數(shù)增大,而硬件實(shí)現(xiàn)的資源有限。故常見(jiàn)的矩陣求逆多以特殊矩陣或者小規(guī)模矩陣為對(duì)象,用于大規(guī)模任意矩陣求逆的方法及其硬件實(shí)現(xiàn)的研究較為少見(jiàn)。在當(dāng)今時(shí)代背景下,大規(guī)模非奇異矩陣求逆是數(shù)字信號(hào)處理中極具挑戰(zhàn)且不可避免的課題之一,具有重要的現(xiàn)實(shí)意義與工程價(jià)值。針對(duì)上述問(wèn)題,本文對(duì)矩陣求逆算法以及其硬件架構(gòu)設(shè)計(jì)進(jìn)行了深入研究。主要內(nèi)容如下:(1)分析研究矩陣求逆的各類(lèi)算法,根據(jù)數(shù)值穩(wěn)定性、運(yùn)算復(fù)雜度以及硬件實(shí)現(xiàn)難度等因素,選定基于Givens-QR分解的矩陣求逆算法。然后,根據(jù)算法的運(yùn)行特性,設(shè)計(jì)了基于原位替換的混合粒度并行Givens-QR分解算法和上三角矩陣求逆的分塊遞歸算法,充分挖掘算法的運(yùn)算并行度。(2)根據(jù)優(yōu)化的求逆算法,設(shè)計(jì)了以矩陣求逆為核心的矩陣運(yùn)算硬件加速器。論文在二維脈動(dòng)陣列結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了一種一維線(xiàn)性流水結(jié)構(gòu),有效壓縮運(yùn)算資源。運(yùn)算器可以直接加速2-32階雙精度浮點(diǎn)矩陣求逆,兼容了線(xiàn)性矩陣運(yùn)算、矩陣陣乘以及矩陣轉(zhuǎn)置操作。(3)完成矩陣運(yùn)算器的全部前后端設(shè)計(jì)工作,并在Xilinx XC7V2000T型FPGA平臺(tái)上搭建驗(yàn)證環(huán)境并完成驗(yàn)證。結(jié)果表明,本文設(shè)計(jì)的矩陣運(yùn)算器在TSMC28nm工藝下,工作主頻700MHz,芯片面積為2.25mm2,能夠完成全部預(yù)定矩陣運(yùn)算功能,其中32階雙精度浮點(diǎn)矩陣求逆耗時(shí)14910個(gè)周期內(nèi),計(jì)算精度達(dá)到10-15,其速度是NVIDIA RTX2070 GPU的140倍。

余振波[6](2020)在《基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)》文中提出可重構(gòu)系統(tǒng)通常由可重構(gòu)陣列和通用處理器兩部分構(gòu)成,在運(yùn)行時(shí)程序中的計(jì)算密集型代碼塊在可重構(gòu)陣列上執(zhí)行,程序中的其余部分在通用處理器上執(zhí)行,因而可重構(gòu)系統(tǒng)兼有專(zhuān)用計(jì)算的高性能和通用計(jì)算的靈活性,是新型計(jì)算的一個(gè)重要發(fā)展方向。在設(shè)計(jì)一個(gè)可重構(gòu)系統(tǒng)的過(guò)程中,往往涉及粒度、拓?fù)浣Y(jié)構(gòu)、內(nèi)存系統(tǒng)和編程模型等諸多方面的平衡考量,這使得可重構(gòu)系統(tǒng)的設(shè)計(jì)非常復(fù)雜,設(shè)計(jì)人員需要在設(shè)計(jì)進(jìn)入RTL級(jí)之前尋找用于評(píng)估系統(tǒng)性能和探索架構(gòu)的方法。解決這個(gè)問(wèn)題,可以使用SytemC語(yǔ)言進(jìn)行事務(wù)級(jí)建模(Transaction Level Modeling,TLM)。TLM是一種基于高抽象層次的快速建模方法,當(dāng)目標(biāo)系統(tǒng)十分復(fù)雜時(shí),利用SystemC事務(wù)級(jí)模型,在體系架構(gòu)階段就可以對(duì)系統(tǒng)進(jìn)行驗(yàn)證,加快仿真速度,縮短設(shè)計(jì)周期。本文設(shè)計(jì)了一款可重構(gòu)通用浮點(diǎn)處理器(Reconfigurable General-purpose Floating-point Processor,RGFP),可用作多核系統(tǒng)的可重構(gòu)運(yùn)算節(jié)點(diǎn)以提供更高的算力支持。為了能夠在設(shè)計(jì)早期對(duì)RGFP進(jìn)行功能仿真和性能模擬,本文采用SystemC建模語(yǔ)言,基于事務(wù)級(jí)建模思想,對(duì)RGFP進(jìn)行事務(wù)級(jí)建模。建模工作分為兩個(gè)部分:一是搭建以通用處理器為核心的SoC系統(tǒng)平臺(tái);二是設(shè)計(jì)使用動(dòng)態(tài)調(diào)度方案的可重構(gòu)硬件子系統(tǒng)。首先,SoC系統(tǒng)平臺(tái)的搭建包括RISC-V內(nèi)核、總線(xiàn)、中斷控制器以及外設(shè)適配接口的建模。本文的RISC-V內(nèi)核實(shí)現(xiàn)了RV32IMAC指令集,SoC系統(tǒng)平臺(tái)內(nèi)各個(gè)模塊之間的通信均符合TLM2.0規(guī)范;其次,在可重構(gòu)硬件子系統(tǒng)設(shè)計(jì)部分,采用一維陣列的形式將各種浮點(diǎn)運(yùn)算單元組織成可重構(gòu)陣列,提出一種基于兩級(jí)配置信息的動(dòng)態(tài)調(diào)度方案,使用動(dòng)態(tài)調(diào)度的方法將計(jì)算任務(wù)映射到可重構(gòu)陣列。在建模工作完成之后,采用兩種測(cè)試方案對(duì)RGFP進(jìn)行測(cè)試:一是在SoC系統(tǒng)平臺(tái)(TLM模型)和PULPino平臺(tái)(RTL模型)上運(yùn)行基準(zhǔn)測(cè)試程序,通過(guò)對(duì)比仿真速度證明SystemC事務(wù)級(jí)模型在功能仿真和性能模擬方面的高效性。二是在可重構(gòu)系統(tǒng)上運(yùn)行多種浮點(diǎn)計(jì)算任務(wù)來(lái)驗(yàn)證RGFP的數(shù)據(jù)路徑動(dòng)態(tài)重構(gòu)特性,并行計(jì)算能力以及算法適應(yīng)能力。最后通過(guò)實(shí)驗(yàn)得出,可重構(gòu)系統(tǒng)的事務(wù)級(jí)模型在仿真速度上相比于傳統(tǒng)的RTL模型提高2~3個(gè)數(shù)量級(jí),本文的可重構(gòu)通用浮點(diǎn)處理器對(duì)浮點(diǎn)計(jì)算任務(wù)有良好的加速效果。

汪楊[7](2020)在《基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)》文中研究表明隨著陣列信號(hào)規(guī)模的急劇擴(kuò)大,數(shù)字信號(hào)系統(tǒng)對(duì)大規(guī)模數(shù)據(jù)運(yùn)算的性能要求不斷提升,實(shí)現(xiàn)一個(gè)高性能的并行計(jì)算系統(tǒng)具有重要的現(xiàn)實(shí)意義和工程價(jià)值。在密集型計(jì)算中,傳統(tǒng)單核處理系統(tǒng)已經(jīng)難以滿(mǎn)足運(yùn)算性能的要求,因此,利用多核技術(shù)和并行算法協(xié)同處理的方法來(lái)實(shí)現(xiàn)密集型計(jì)算是時(shí)代背景下必須解決的課題之一。矩陣運(yùn)算是密集型計(jì)算的核心問(wèn)題之一。本文研究了矩陣運(yùn)算中并行算法和多核系統(tǒng)的關(guān)系,對(duì)多核系統(tǒng)的設(shè)計(jì)方法進(jìn)行了初步探索,并以大維度的矩陣為研究對(duì)象,分析矩陣乘法的并行算法在同構(gòu)多核系統(tǒng)中數(shù)據(jù)的分配、傳輸和運(yùn)算形式,實(shí)現(xiàn)了矩陣乘法在多核系統(tǒng)中的任務(wù)調(diào)度和資源分配,充分發(fā)揮了多核系統(tǒng)的并行計(jì)算能力。論文的主要工作如下:首先分析了多種矩陣乘并行算法,根據(jù)算法的并行度和硬件實(shí)現(xiàn)的可行性選定了基于Systolic陣列算法作為矩陣乘法的并行計(jì)算方法,并對(duì)多核系統(tǒng)的存儲(chǔ)方式、數(shù)據(jù)傳輸以及運(yùn)算方式進(jìn)行抽象模型的搭建。其次根據(jù)矩陣乘并行算法的存儲(chǔ)、通信及運(yùn)算模型設(shè)計(jì)了2D-Mesh NoC同構(gòu)多核系統(tǒng),通過(guò)三層網(wǎng)絡(luò)實(shí)現(xiàn)了系統(tǒng)控制層和數(shù)據(jù)傳輸層的分離,提高了系統(tǒng)整體的通信效率,同時(shí)通過(guò)流、脈動(dòng)、存儲(chǔ)三種運(yùn)算模式使得運(yùn)算系統(tǒng)具有良好的靈活性。最后在有限的帶寬資源和運(yùn)算資源下實(shí)現(xiàn)了不同維度矩陣乘法在NoC多核系統(tǒng)中的算法映射,針對(duì)各個(gè)算法在系統(tǒng)中的運(yùn)算結(jié)果進(jìn)行驗(yàn)證、對(duì)比、分析和總結(jié),并提出了進(jìn)一步的優(yōu)化方向。

張磊磊[8](2020)在《大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證》文中進(jìn)行了進(jìn)一步梳理現(xiàn)代數(shù)字信號(hào)處理技術(shù)所面對(duì)的是大規(guī)模復(fù)雜的實(shí)時(shí)圖像處理、高密度大體量的語(yǔ)音信號(hào)處理、雷達(dá)信號(hào)技術(shù)等數(shù)據(jù)流量頻繁交互的工作場(chǎng)景,每個(gè)領(lǐng)域均對(duì)系統(tǒng)高效率、低延遲的實(shí)時(shí)性處理能力提出要求,且對(duì)于硬件性能提升的需求永不止步;隨著芯片設(shè)計(jì)規(guī)模的不斷增加,設(shè)計(jì)難度不斷提升,所面臨的各種挑戰(zhàn)層出不窮,上市時(shí)間的期限又相對(duì)縮短,在鼓勵(lì)So C設(shè)計(jì)的IP核可集成的同時(shí),大規(guī)模So C不可避免地對(duì)IP復(fù)用性、專(zhuān)業(yè)性和快速集成性提出了更高的要求,這就對(duì)應(yīng)用于各種不同專(zhuān)業(yè)場(chǎng)景的IP內(nèi)核開(kāi)發(fā)帶來(lái)了巨大的需求。快速傅里葉變換作為數(shù)字信號(hào)處理領(lǐng)域里一種不可或缺的處理手段,相比于軟件實(shí)現(xiàn)的方式,專(zhuān)用的硬件加速I(mǎi)P設(shè)計(jì)能夠提高系統(tǒng)的處理效率、降低設(shè)備的功耗、減少系統(tǒng)的延時(shí)等待時(shí)間,因此研究高性能、高精度、低延遲且易于工程快速實(shí)現(xiàn)的FFT加速I(mǎi)P核的工作變得極具市場(chǎng)應(yīng)用價(jià)值。本文首先通過(guò)深入探討目前較為常用地實(shí)現(xiàn)FFT運(yùn)算的各種算法原理和特點(diǎn),針對(duì)經(jīng)典CTA算法的幾種固定基-2n實(shí)現(xiàn)原理進(jìn)行深入分析,總結(jié)了一維固定基-2算法、一維固定基-4算法的各級(jí)運(yùn)算規(guī)律;結(jié)合項(xiàng)目的具體要求,選定CTA算法中的一維固定基-2/8蝶形運(yùn)算作為FFT求解的關(guān)鍵步驟;研究了目前較為常用的FFT運(yùn)算硬件架構(gòu):基于流水線(xiàn)結(jié)構(gòu)、基于存儲(chǔ)器結(jié)構(gòu)以及基于并行、陣列結(jié)構(gòu)等,詳細(xì)分析了一維固定基-2算法SDF/MDC流水結(jié)構(gòu)的運(yùn)算特征;充分考慮加速器運(yùn)算性能、占用資源等因素,選定基于存儲(chǔ)器、地址無(wú)沖突設(shè)計(jì)的硬件復(fù)用結(jié)構(gòu)進(jìn)行實(shí)現(xiàn);然后對(duì)運(yùn)算實(shí)現(xiàn)的關(guān)鍵部分:存儲(chǔ)控制模塊、蝶形運(yùn)算模塊、操作數(shù)/結(jié)果數(shù)地址無(wú)沖突存儲(chǔ)規(guī)律、基于旋轉(zhuǎn)因子壓縮算法的存儲(chǔ)模塊、操作數(shù)/結(jié)果數(shù)/旋轉(zhuǎn)因子的地址生成模塊、IFFT運(yùn)算實(shí)現(xiàn)等原理進(jìn)行了詳細(xì)地設(shè)計(jì)說(shuō)明;最后完成了對(duì)RTL代碼的測(cè)試驗(yàn)證工作:在工作頻率為400Mhz條件下,軟件仿真的結(jié)果表明最大32K點(diǎn)的運(yùn)行時(shí)間為51.63μs,在誤差允許的范圍內(nèi)功能正確;同時(shí)借助FPGA進(jìn)行軟硬件聯(lián)合驗(yàn)證,實(shí)驗(yàn)數(shù)據(jù)表明硬件實(shí)際執(zhí)行周期數(shù)與軟件結(jié)果一致,確保了設(shè)計(jì)結(jié)果的可靠性、準(zhǔn)確性。通過(guò)對(duì)1K、2K、4K、8K、16K、32K點(diǎn)FFT運(yùn)算進(jìn)行可靈活配置的設(shè)計(jì),完全滿(mǎn)足在工作頻率為400MHz條件下,80μs內(nèi)完成一次32K點(diǎn)FFT/IFFT運(yùn)算的要求,為運(yùn)算IP的高效復(fù)用、縮短處理器的研發(fā)周期,幫助解決信號(hào)與信息處理等領(lǐng)域的硬件加速問(wèn)題奠定了基礎(chǔ)。

劉斌[9](2020)在《一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化》文中研究指明近年來(lái),繼理論科學(xué)和實(shí)驗(yàn)科學(xué)之后,高性能計(jì)算成為人類(lèi)科學(xué)研究的第三大范式。浮點(diǎn)矩陣運(yùn)算作為高性能嵌入式系統(tǒng)中的基礎(chǔ)運(yùn)算也備受關(guān)注,因而針對(duì)浮點(diǎn)矩陣運(yùn)算的硬件加速器的設(shè)計(jì)實(shí)現(xiàn)是當(dāng)代高新技術(shù)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。針對(duì)運(yùn)算、訪(fǎng)存和數(shù)據(jù)密集型矩陣運(yùn)算,設(shè)計(jì)專(zhuān)用的ASIC芯片以及對(duì)大型矩陣運(yùn)算進(jìn)行細(xì)顆粒度的運(yùn)算拆分提高資源的利用率是實(shí)現(xiàn)大規(guī)模矩陣運(yùn)算加速的有效方案之一。論文在深入研究了32位RISC通用主處理器及通用浮點(diǎn)運(yùn)算加速器的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器,能夠?qū)崿F(xiàn)滿(mǎn)足IEEE-754標(biāo)準(zhǔn)的單/雙精度浮點(diǎn)矩陣加法、減法、乘法、負(fù)乘、乘加、乘減、負(fù)乘加和負(fù)乘減的運(yùn)算。論文的主要研究工作及成果包含以下幾個(gè)方面:1.設(shè)計(jì)實(shí)現(xiàn)了基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器。其內(nèi)部設(shè)計(jì)了16個(gè)FMAC并發(fā)單元和48個(gè)64位寄存器,FMAC結(jié)構(gòu)排布參考二維矩陣式脈動(dòng)陣列結(jié)構(gòu)并進(jìn)行了結(jié)構(gòu)優(yōu)化,在保留原系統(tǒng)功耗低、響應(yīng)快等特點(diǎn)的基礎(chǔ)上,解決了單一的通用浮點(diǎn)運(yùn)算加速器在取數(shù)據(jù)和執(zhí)行并行度上的瓶頸,向量浮點(diǎn)運(yùn)算加速器有效的解決了數(shù)據(jù)密集型運(yùn)算所面臨的“算力”問(wèn)題。2.專(zhuān)門(mén)開(kāi)辟了向量浮點(diǎn)運(yùn)算加速器與主處理器片內(nèi)SRAM的高位寬快捷訪(fǎng)問(wèn)通道,數(shù)據(jù)直接從片內(nèi)SRAM取;同時(shí)向量浮點(diǎn)運(yùn)算加速器還設(shè)計(jì)了AHB的master接口可以訪(fǎng)問(wèn)總線(xiàn)上的存儲(chǔ)數(shù)據(jù),只有少量的控制指令走協(xié)處理器通道,有效解決了數(shù)據(jù)密集型運(yùn)算所面臨的“數(shù)據(jù)吞吐效率”問(wèn)題。3.根據(jù)向量浮點(diǎn)運(yùn)算加速器的硬件結(jié)構(gòu),借鑒Goto-BLAS函數(shù)庫(kù)的思想,設(shè)計(jì)并優(yōu)化了通用GEMM匯編函數(shù)庫(kù),能夠?qū)崿F(xiàn)對(duì)任意維度矩陣的運(yùn)算拆分。測(cè)試結(jié)果顯示向量浮點(diǎn)運(yùn)算加速器采用匯編函數(shù)庫(kù)實(shí)現(xiàn)浮點(diǎn)矩陣運(yùn)算的性能是采用C語(yǔ)言函數(shù)庫(kù)性能的1044倍;通用浮點(diǎn)運(yùn)算加速器采用匯編函數(shù)庫(kù)實(shí)現(xiàn)浮點(diǎn)矩陣運(yùn)算的性能是采用C語(yǔ)言函數(shù)庫(kù)性能的210倍。4.論文對(duì)單/雙精度浮點(diǎn)矩陣加/減法運(yùn)算、轉(zhuǎn)置運(yùn)算以及乘法運(yùn)算進(jìn)行了詳細(xì)的性能測(cè)試對(duì)比分析,結(jié)果顯示向量浮點(diǎn)運(yùn)算加速器的性能分別是通用浮點(diǎn)運(yùn)算加速器性能的3.13.5倍、2.52.9倍以及6.17.6倍數(shù),實(shí)現(xiàn)了良好的浮點(diǎn)矩陣運(yùn)算加速。5.最后,對(duì)論文設(shè)計(jì)的向量浮點(diǎn)運(yùn)算加速器使用SMIC40nm CMOS工藝庫(kù)進(jìn)行綜合,其綜合的面積為1.1100863088mm2,工作頻率達(dá)到600MHz,總功耗為719.3m W,其浮點(diǎn)矩陣運(yùn)算性能能夠達(dá)到2000MFLOPS以上。

林洪訓(xùn)[10](2020)在《基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究》文中研究表明超聲彈性成像技術(shù)可以定量地計(jì)算組織的運(yùn)動(dòng)場(chǎng),進(jìn)而獲取定量、可視化的病變區(qū)組織彈性信息。超聲彈性成像技術(shù)自從被提出以來(lái)就得到了迅速的發(fā)展,目前超聲彈性成像被廣泛用于人體軟組織病變的診斷,對(duì)人體軟組織癌癥腫瘤等病變的臨床診斷意義重大。組織運(yùn)動(dòng)場(chǎng)的計(jì)算是彈性成像算法的核心,選擇準(zhǔn)確的運(yùn)動(dòng)模型和高并行算法以及高性能的處理平臺(tái)對(duì)組織運(yùn)動(dòng)快速計(jì)算具有十分重要的意義。將仿射運(yùn)動(dòng)模型和光流法結(jié)合,不但從根源上解決了組織運(yùn)動(dòng)描述不精確的問(wèn)題,而且從一定程度上提高了算法的并行性,進(jìn)一步提高了組織運(yùn)動(dòng)估計(jì)的速度。不過(guò),目前上述算法的最大問(wèn)題是在通用的串行處理器上計(jì)算仍然比較耗時(shí),速度慢,其主要原因是每幀超聲回波數(shù)據(jù)量大以及算法涉及大量矩陣運(yùn)算,導(dǎo)致仿射光流算法在軟件串行下運(yùn)算速度下降很快,從而限制了其在實(shí)際系統(tǒng)中的應(yīng)用。通用的串行處理器無(wú)法滿(mǎn)足組織運(yùn)動(dòng)快速計(jì)算的需求。FPGA細(xì)粒度并行、可重構(gòu)的靈活特性,使得基于FPGA的嵌入式應(yīng)用系統(tǒng)被廣泛關(guān)注。首先理論分析,使用前沿的HLS高級(jí)綜合語(yǔ)言設(shè)計(jì)實(shí)現(xiàn)了仿射光流組織運(yùn)動(dòng)計(jì)算硬件加速器;并從軟硬協(xié)同設(shè)計(jì)角度,實(shí)現(xiàn)了基于ZYNQ異構(gòu)加速平臺(tái)的仿射光流硬件加速器的系統(tǒng)級(jí)封裝和測(cè)試,驗(yàn)證了仿射光流IP的移植性和通用性。本文最后通過(guò)綜合實(shí)驗(yàn)可知,當(dāng)處理的兩幀壓縮前后RF數(shù)據(jù)大小為1625*449時(shí),并在選取的壓縮前后ROI塊上做一次仿射光流計(jì)算相比軟件串行,速度提高了一個(gè)數(shù)量級(jí)。通過(guò)系統(tǒng)級(jí)的測(cè)試,整個(gè)組織運(yùn)動(dòng)計(jì)算系統(tǒng)完成所有塊上的仿射光流計(jì)算,從原始數(shù)據(jù)到生成組織位移和應(yīng)變圖像(插值前)的速度比軟件串行提高了4倍。

二、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文開(kāi)題報(bào)告)

(1)論文研究背景及目的

此處內(nèi)容要求:

首先簡(jiǎn)單簡(jiǎn)介論文所研究問(wèn)題的基本概念和背景,再而簡(jiǎn)單明了地指出論文所要研究解決的具體問(wèn)題,并提出你的論文準(zhǔn)備的觀點(diǎn)或解決方法。

寫(xiě)法范例:

本文主要提出一款精簡(jiǎn)64位RISC處理器存儲(chǔ)管理單元結(jié)構(gòu)并詳細(xì)分析其設(shè)計(jì)過(guò)程。在該MMU結(jié)構(gòu)中,TLB采用叁個(gè)分離的TLB,TLB采用基于內(nèi)容查找的相聯(lián)存儲(chǔ)器并行查找,支持粗粒度為64KB和細(xì)粒度為4KB兩種頁(yè)面大小,采用多級(jí)分層頁(yè)表結(jié)構(gòu)映射地址空間,并詳細(xì)論述了四級(jí)頁(yè)表轉(zhuǎn)換過(guò)程,TLB結(jié)構(gòu)組織等。該MMU結(jié)構(gòu)將作為該處理器存儲(chǔ)系統(tǒng)實(shí)現(xiàn)的一個(gè)重要組成部分。

(2)本文研究方法

調(diào)查法:該方法是有目的、有系統(tǒng)的搜集有關(guān)研究對(duì)象的具體信息。

觀察法:用自己的感官和輔助工具直接觀察研究對(duì)象從而得到有關(guān)信息。

實(shí)驗(yàn)法:通過(guò)主支變革、控制研究對(duì)象來(lái)發(fā)現(xiàn)與確認(rèn)事物間的因果關(guān)系。

文獻(xiàn)研究法:通過(guò)調(diào)查文獻(xiàn)來(lái)獲得資料,從而全面的、正確的了解掌握研究方法。

實(shí)證研究法:依據(jù)現(xiàn)有的科學(xué)理論和實(shí)踐的需要提出設(shè)計(jì)。

定性分析法:對(duì)研究對(duì)象進(jìn)行“質(zhì)”的方面的研究,這個(gè)方法需要計(jì)算的數(shù)據(jù)較少。

定量分析法:通過(guò)具體的數(shù)字,使人們對(duì)研究對(duì)象的認(rèn)識(shí)進(jìn)一步精確化。

跨學(xué)科研究法:運(yùn)用多學(xué)科的理論、方法和成果從整體上對(duì)某一課題進(jìn)行研究。

功能分析法:這是社會(huì)科學(xué)用來(lái)分析社會(huì)現(xiàn)象的一種方法,從某一功能出發(fā)研究多個(gè)方面的影響。

模擬法:通過(guò)創(chuàng)設(shè)一個(gè)與原型相似的模型來(lái)間接研究原型某種特性的一種形容方法。

三、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文提綱范文)

(1)基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)

摘要
Abstract
第一章 緒論
    §1.1 課題研究背景及意義
    §1.2 國(guó)內(nèi)外研究現(xiàn)狀及進(jìn)展
    §1.3 論文的主要內(nèi)容與創(chuàng)新點(diǎn)
第二章 非線(xiàn)性結(jié)點(diǎn)諧波再輻射模型建模與環(huán)路驗(yàn)證
    §2.1 非線(xiàn)性目標(biāo)等效模型與諧波再輻射原理分析
    §2.2 非線(xiàn)性結(jié)點(diǎn)的小信號(hào)模型與簡(jiǎn)化
        §2.2.1 半導(dǎo)體PN結(jié)的小信號(hào)模型分析與簡(jiǎn)化
        §2.2.2 金屬結(jié)點(diǎn)的小信號(hào)模型分析
    §2.3 非線(xiàn)性結(jié)點(diǎn)穩(wěn)態(tài)下的回波仿真模型
    §2.4 本章小結(jié)
第三章 諧波雷達(dá)總體設(shè)計(jì)方案
    §3.1 傳統(tǒng)脈沖壓縮雷達(dá)方案的局限性
        §3.1.1 脈沖壓縮雷達(dá)在諧波探測(cè)場(chǎng)景下的數(shù)學(xué)建模
        §3.1.2 脈沖壓縮雷達(dá)在近場(chǎng)探測(cè)時(shí)的局限性分析
    §3.2 一種新型的近場(chǎng)諧波雷達(dá)設(shè)計(jì)方案
        §3.2.1 諧波雷達(dá)系統(tǒng)發(fā)射波形設(shè)計(jì)
        §3.2.2 諧波雷達(dá)系統(tǒng)整體設(shè)計(jì)
    §3.3 本章小結(jié)
第四章 發(fā)射機(jī)子系統(tǒng)設(shè)計(jì)與數(shù)字化實(shí)現(xiàn)
    §4.1 發(fā)射機(jī)子系統(tǒng)總體方案設(shè)計(jì)
    §4.2 波形生成模塊設(shè)計(jì)與實(shí)現(xiàn)
        §4.2.1 CORDIC Mode NCO設(shè)計(jì)與實(shí)現(xiàn)
        §4.2.2 偽隨機(jī)編碼生成器設(shè)計(jì)與實(shí)現(xiàn)
        §4.2.3 無(wú)乘法器的測(cè)試波形生成模塊設(shè)計(jì)與實(shí)現(xiàn)
        §4.2.4 無(wú)乘法器的工作波形生成模塊設(shè)計(jì)與實(shí)現(xiàn)
    §4.3 交互設(shè)計(jì)
        §4.3.1 交互接口設(shè)計(jì)
        §4.3.2 專(zhuān)用寄存器設(shè)計(jì)
    §4.4 驅(qū)動(dòng)設(shè)計(jì)
        §4.4.1 AD9117 時(shí)序優(yōu)化
        §4.4.2 ADF4351 時(shí)序優(yōu)化
    §4.5 發(fā)射機(jī)子系統(tǒng)的板級(jí)驗(yàn)證
        §4.5.1 發(fā)射機(jī)子系統(tǒng)射頻測(cè)試
        §4.5.2 發(fā)射機(jī)子系統(tǒng)環(huán)路測(cè)試
    §4.6 本章小結(jié)
第五章 載波跟蹤、同步子系統(tǒng)環(huán)路建模與數(shù)字化實(shí)現(xiàn)
    §5.1 載波跟蹤、同步子系統(tǒng)總體方案設(shè)計(jì)
    §5.2 載波跟蹤、同步子系統(tǒng)環(huán)路建模與核心參數(shù)計(jì)算
    §5.3 載波跟蹤、同步子系統(tǒng)核心模塊數(shù)字化實(shí)現(xiàn)
        §5.3.1 基于脈動(dòng)陣列架構(gòu)的相干積分器設(shè)計(jì)
        §5.3.2 環(huán)路濾波器設(shè)計(jì)
    §5.4 載波跟蹤、同步子系統(tǒng)數(shù)字化實(shí)現(xiàn)和測(cè)試
    §5.5 本章小結(jié)
第六章 基于脈動(dòng)陣列的目標(biāo)檢測(cè)子系統(tǒng)設(shè)計(jì)與數(shù)字化實(shí)現(xiàn)
    §6.1 目標(biāo)檢測(cè)子系統(tǒng)總體方案設(shè)計(jì)
        §6.1.1 子系統(tǒng)總體設(shè)計(jì)導(dǎo)論
        §6.1.2 子系統(tǒng)設(shè)計(jì)方案
    §6.2 基于雙緩沖積分器的抽取濾波器設(shè)計(jì)
        §6.2.1 模塊有效性的理論推導(dǎo)與仿真驗(yàn)證
        §6.2.2 模塊的數(shù)字化實(shí)現(xiàn)
        §6.2.3 相較傳統(tǒng)的CIC抽取濾波器的優(yōu)勢(shì)
    §6.3 基于復(fù)用型硬件加速網(wǎng)絡(luò)的數(shù)字匹配濾波模塊設(shè)計(jì)
        §6.3.1 二相編碼諧波雷達(dá)匹配濾波器權(quán)系數(shù)序列的理論推導(dǎo)
        §6.3.2 基于復(fù)用型硬件加速網(wǎng)絡(luò)的數(shù)字匹配濾波調(diào)度設(shè)計(jì)
        §6.3.3 本方案相較傳統(tǒng)方案的增益
    §6.4 基于復(fù)用型硬件加速網(wǎng)絡(luò)和分布式結(jié)構(gòu)的CFAR模塊設(shè)計(jì)
        §6.4.1基于復(fù)用型硬件加速網(wǎng)絡(luò)的CA-CFAR模塊的優(yōu)勢(shì)和設(shè)計(jì)方案
        §6.4.2基于分布式結(jié)構(gòu)實(shí)現(xiàn)位拓展的CA-CFAR模塊理論推導(dǎo)
        §6.4.3基于復(fù)用型硬件加速網(wǎng)絡(luò)的CA-CFAR矩陣運(yùn)算調(diào)度設(shè)計(jì)
        §6.4.4 CA-CFAR獨(dú)占子模塊的數(shù)字化實(shí)現(xiàn)
    §6.5 基于脈動(dòng)陣列的512 階全流水復(fù)用型硬件加速網(wǎng)絡(luò)設(shè)計(jì)和實(shí)現(xiàn)
        §6.5.1 復(fù)用型硬件加速網(wǎng)絡(luò)胞元結(jié)構(gòu)設(shè)計(jì)
        §6.5.2 復(fù)用型硬件加速網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
        §6.5.3 復(fù)用型硬件加速網(wǎng)絡(luò)數(shù)據(jù)交互設(shè)計(jì)
    §6.6 基于復(fù)用型硬件加速網(wǎng)絡(luò)的目標(biāo)檢測(cè)子系統(tǒng)數(shù)字化實(shí)現(xiàn)與測(cè)試
        §6.6.1 目標(biāo)檢測(cè)子系統(tǒng)狀態(tài)機(jī)設(shè)計(jì)
        §6.6.2 目標(biāo)檢測(cè)子系統(tǒng)測(cè)試和結(jié)果分析
    §6.7 本章小結(jié)
第七章 載波測(cè)距子系統(tǒng)建模與數(shù)字化實(shí)現(xiàn)
    §7.1 載波測(cè)距子系統(tǒng)總體方案設(shè)計(jì)
    §7.2 載波測(cè)距子系統(tǒng)的數(shù)學(xué)建模
    §7.3 載波測(cè)距子系統(tǒng)的數(shù)字化實(shí)現(xiàn)
        §7.3.1基于CORDIC算法的高精度二象限鑒相器設(shè)計(jì)
        §7.3.2 載波測(cè)距子系統(tǒng)頂層模塊設(shè)計(jì)和測(cè)試
    §7.4 本章小結(jié)
第八章 工作總結(jié)與展望
    §8.1 工作總結(jié)
    §8.2 展望
致謝
攻讀碩士期間主要研究成果
參考文獻(xiàn)
附錄

(2)高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)

致謝
摘要
abstract
第一章 緒論
    1.1 研究背景
    1.2 研究現(xiàn)狀
    1.3 課題來(lái)源
    1.4 主要工作內(nèi)容
    1.5 論文結(jié)構(gòu)
第二章 矩陣求逆介紹
    2.1 矩陣求逆運(yùn)算
        2.1.1 矩陣求逆方法介紹
        2.1.2 矩陣求逆方法對(duì)比
        2.1.3 三角矩陣求逆方法
    2.2 矩陣求逆算法優(yōu)化
        2.2.1 基于CGR(Column-wise Givens Rotation)翻轉(zhuǎn)的QR算法
        2.2.2 上三角矩陣求逆算法優(yōu)化
        2.2.3 矩陣乘優(yōu)化
        2.2.4 優(yōu)化分析
    2.3 線(xiàn)性矩陣求逆分析
        2.3.1 線(xiàn)性矩陣分析
    2.4 本章小結(jié)
第三章 高速高精度矩陣求逆器的硬件實(shí)現(xiàn)
    3.1 矩陣求逆器硬件實(shí)現(xiàn)介紹
    3.2 矩陣求逆器的硬件架構(gòu)和工作流程
        3.2.1 硬件架構(gòu)
        3.2.2 矩陣求逆器的工作流程
    3.3 控制邏輯單元設(shè)計(jì)
    3.4 不可逆矩陣判斷單元設(shè)計(jì)
        3.4.1 線(xiàn)性矩陣判斷
    3.5 CGR分解單元設(shè)計(jì)
        3.5.1 細(xì)粒度并行結(jié)構(gòu)介紹
        3.5.2 基于Givens-QRD算法的二維脈動(dòng)陣列分解結(jié)構(gòu)介紹
        3.5.3 基于CGR-RD算法的一維分解結(jié)構(gòu)介紹
    3.6 矩陣乘和三角矩陣求逆設(shè)計(jì)
    3.7 存儲(chǔ)單元及存儲(chǔ)規(guī)則設(shè)計(jì)
    3.8 地址生成單元及地址規(guī)則設(shè)計(jì)
        3.8.1 源矩陣存儲(chǔ)地址規(guī)則
        3.8.2 CGR-QR分解地址規(guī)則
        3.8.3 上三角矩陣求逆地址規(guī)則
        3.8.4 矩陣陣乘地址規(guī)則
    3.9 交叉開(kāi)關(guān)設(shè)計(jì)
第四章 矩陣求逆器的驗(yàn)證與性能分析
    4.1 驗(yàn)證方案
    4.2 MATLAB算法驗(yàn)證
    4.3 UVM驗(yàn)證
        4.3.1 UVM簡(jiǎn)介
        4.3.2 驗(yàn)證平臺(tái)框架
        4.3.3 驗(yàn)證平臺(tái)搭建
        4.3.4 代碼覆蓋率收集
    4.4 硬件驗(yàn)證
        4.4.1 ASIC驗(yàn)證版圖
        4.4.2 硬件資源分析
        4.4.3 不可逆矩陣測(cè)試
        4.4.4 誤差分析
        4.4.5 運(yùn)算周期分析
    4.5 性能分析
    4.6 本章小結(jié)
第五章 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況

(3)邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)(論文提綱范文)

摘要
abstract
符號(hào)說(shuō)明
第1章 緒論
    1.1 研究背景及意義
        1.1.1 邊緣計(jì)算的發(fā)展概述
        1.1.2 邊緣計(jì)算的研究?jī)r(jià)值
        1.1.3 邊緣計(jì)算中的人機(jī)交互系統(tǒng)面臨的挑戰(zhàn)
        1.1.4 論文的研究方法
    1.2 關(guān)鍵技術(shù)及研究現(xiàn)狀
        1.2.1 圖形運(yùn)算加速技術(shù)
        1.2.2 緩存壓縮技術(shù)
        1.2.3 容錯(cuò)技術(shù)
    1.3 本文研究成果及文章結(jié)構(gòu)
第2章 面向邊緣計(jì)算的圖形處理技術(shù)研究
    2.1 相關(guān)技術(shù)概述
        2.1.1 基于嵌入式CPU的圖形繪制技術(shù)
        2.1.2 移動(dòng)GPU的圖形繪制流水線(xiàn)概述
        2.1.3 IMR與TBR渲染模式
        2.1.4 降低圖形運(yùn)算功耗的研究
    2.2 面向邊緣計(jì)算的圖形處理算法研究
        2.2.1 邊緣計(jì)算圖形化界面需求分析
        2.2.2 面向邊緣計(jì)算的圖形處理流水線(xiàn)設(shè)計(jì)
        2.2.3 模型描述
        2.2.4 頂點(diǎn)處理流程
        2.2.5 像素著色流程
    2.3 面向邊緣計(jì)算的圖形處理IP核設(shè)計(jì)
        2.3.1 流水線(xiàn)瓶頸分析
        2.3.2 基于TBR的GPU整體架構(gòu)設(shè)計(jì)
        2.3.3 頂點(diǎn)處理器架構(gòu)設(shè)計(jì)
        2.3.4 像素著色引擎架構(gòu)設(shè)計(jì)
    2.4 實(shí)驗(yàn)結(jié)果與分析
        2.4.1 軟件模型與流水線(xiàn)測(cè)試
        2.4.2 IP綜合與分析
    2.5 本章小結(jié)
第3章 幀緩存壓縮技術(shù)研究
    3.1 相關(guān)技術(shù)概述
        3.1.1 無(wú)損幀緩存壓縮技術(shù)
        3.1.2 GPU系統(tǒng)中幀緩存壓縮需求
        3.1.3 基于塊的紋理壓縮技術(shù)
        3.1.4 基于頻域的壓縮技術(shù)
    3.2 實(shí)時(shí)幀緩存壓縮算法研究
        3.2.1 場(chǎng)景分析
        3.2.2 算法設(shè)計(jì)
    3.3 幀緩存壓縮IP核設(shè)計(jì)
        3.3.1 幀緩存壓縮器整體設(shè)計(jì)
        3.3.2 子模塊設(shè)計(jì)
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 壓縮算法評(píng)估
        3.4.2 帶寬壓縮及性能提升
        3.4.3 功耗評(píng)估
        3.4.4 IP綜合及評(píng)估
    3.5 本章小結(jié)
第4章 脈動(dòng)陣列容錯(cuò)技術(shù)研究
    4.1 面向脈動(dòng)陣列的容錯(cuò)技術(shù)研究現(xiàn)狀
        4.1.1 面向硬錯(cuò)誤的容錯(cuò)架構(gòu)
        4.1.2 面向軟錯(cuò)誤的容錯(cuò)架構(gòu)
    4.2 脈動(dòng)陣列容錯(cuò)架構(gòu)設(shè)計(jì)
        4.2.1 背景描述
        4.2.2 容錯(cuò)算法
        4.2.3 容錯(cuò)架構(gòu)設(shè)計(jì)
        4.2.4 系統(tǒng)分塊冗余架構(gòu)設(shè)計(jì)
    4.3 實(shí)驗(yàn)結(jié)果與分析
        4.3.1 實(shí)驗(yàn)方法
        4.3.2 錯(cuò)誤恢復(fù)率
        4.3.3 額外面積消耗
    4.4 本章小結(jié)
第5章 面向邊緣計(jì)算的高能效顯示芯片系統(tǒng)的研究與設(shè)計(jì)
    5.1 顯示芯片中微處理器指令集研究
        5.1.1 微處理器指令集概述
        5.1.2 指令集選擇的研究
        5.1.3 指令集擴(kuò)展的研究
        5.1.4 RISC-V處理器IP核設(shè)計(jì)
    5.2 顯示芯片存儲(chǔ)系統(tǒng)架構(gòu)研究
        5.2.1 邊緣計(jì)算中數(shù)據(jù)處理瓶頸分析
        5.2.2 分層存儲(chǔ)系統(tǒng)架構(gòu)設(shè)計(jì)
    5.3 顯示芯片總線(xiàn)系統(tǒng)架構(gòu)研究
        5.3.1 片上總線(xiàn)概述
        5.3.2 設(shè)備互聯(lián)與仲裁研究
        5.3.3 系統(tǒng)互聯(lián)架構(gòu)設(shè)計(jì)
    5.4 顯示芯片整體系統(tǒng)架構(gòu)設(shè)計(jì)
    5.5 本章小結(jié)
第6章 面向邊緣計(jì)算的高能效顯示芯片的實(shí)現(xiàn)與驗(yàn)證
    6.1 顯示芯片低功耗設(shè)計(jì)
        6.1.1 功耗來(lái)源分析
        6.1.2 門(mén)控時(shí)鐘
        6.1.3 多電壓設(shè)計(jì)
    6.2 顯示芯片綜合與實(shí)現(xiàn)
        6.2.1 邏輯綜合
        6.2.2 后端設(shè)計(jì)及流片
    6.3 顯示芯片的測(cè)試與驗(yàn)證
        6.3.1 綜合及版圖設(shè)計(jì)
        6.3.2 測(cè)試平臺(tái)介紹
        6.3.3 邊緣計(jì)算場(chǎng)景測(cè)試
        6.3.4 顯示芯片性能測(cè)試
        6.3.5 性能對(duì)比
    6.4 本章小結(jié)
第7章 總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果

(4)面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究(論文提綱范文)

摘要
Abstract
第一章 緒論
    1.1 研究背景
    1.2 相關(guān)研究
        1.2.1 新興異構(gòu)系統(tǒng)結(jié)構(gòu)
        1.2.2 卷積神經(jīng)網(wǎng)絡(luò)及其加速方法相關(guān)研究
        1.2.3 圖神經(jīng)網(wǎng)絡(luò)研究
        1.2.4 高級(jí)綜合工具
    1.3 本文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn)
    1.4 論文組織結(jié)構(gòu)
第二章 面向二維/三維卷積神經(jīng)網(wǎng)絡(luò)的可重構(gòu)模板化加速器研究
    2.1 引言
    2.2 三維卷積神經(jīng)網(wǎng)絡(luò)算法分析
    2.3 Winograd算法擴(kuò)展
    2.4 模板化設(shè)計(jì)方法
        2.4.1 算法考量
        2.4.2 提取公共算子
        2.4.3 可重構(gòu)模板設(shè)計(jì)
        2.4.4 模板化加速器
        2.4.5 基于高級(jí)綜合工具的優(yōu)化方法
    2.5 加速器設(shè)計(jì)空間探索
        2.5.1 天花板模型
        2.5.2 性能模型
        2.5.3 資源模型
    2.6 實(shí)驗(yàn)評(píng)估
        2.6.1 實(shí)驗(yàn)設(shè)置
        2.6.2 評(píng)估結(jié)果
    2.7 相關(guān)工作
    2.8 本章小節(jié)
第三章 支持全網(wǎng)絡(luò)并行加速的多加速器流水線(xiàn)設(shè)計(jì)
    3.1 引言
    3.2 神經(jīng)網(wǎng)絡(luò)加速器工作方式
    3.3 層融合技術(shù)概述
    3.4 網(wǎng)絡(luò)映射方案
        3.4.1 CNN網(wǎng)絡(luò)層間數(shù)據(jù)重用方式分析
        3.4.2 融合層的確定算法
        3.4.3 網(wǎng)絡(luò)層聚類(lèi)
        3.4.4 負(fù)載均衡調(diào)度方案
    3.5 加速器設(shè)計(jì)空間探索
        3.5.1 性能模型
        3.5.2 資源模型
    3.6 實(shí)驗(yàn)評(píng)估
        3.6.1 實(shí)驗(yàn)設(shè)置
        3.6.2 性能分析
        3.6.3 相關(guān)工作
    3.7 本章小節(jié)
第四章 基于CPU-FPGA異構(gòu)平臺(tái)的醫(yī)療影像識(shí)別加速方案
    4.1 引言
    4.2 肺結(jié)節(jié)檢測(cè)
        4.2.1 算法概述
        4.2.2 算法分析
    4.3 稀疏三維Winograd算法
    4.4 CPU-多 FPGA異構(gòu)并行加速系統(tǒng)
        4.4.1 系統(tǒng)總覽
        4.4.2 三維反卷積層加速器
        4.4.3 網(wǎng)絡(luò)接口模塊
        4.4.4 網(wǎng)絡(luò)模型映射方案
        4.4.5 節(jié)點(diǎn)通信優(yōu)化
    4.5 實(shí)驗(yàn)評(píng)估
        4.5.1 實(shí)驗(yàn)設(shè)置
        4.5.2 實(shí)驗(yàn)結(jié)果
    4.6 相關(guān)工作
    4.7 本章小節(jié)
第五章 面向深度圖卷積神經(jīng)網(wǎng)絡(luò)的分布式并行加速研究
    5.1 引言
    5.2 圖卷積神經(jīng)網(wǎng)絡(luò)變體模型
        5.2.1 圖卷積神經(jīng)網(wǎng)絡(luò)的稀疏性分析
        5.2.2 網(wǎng)絡(luò)精度與網(wǎng)絡(luò)深度的關(guān)系
    5.3 稀疏矩陣壓縮方法
    5.4 矩陣乘并行分塊算法
    5.5 分布式并行加速方案
        5.5.1 系統(tǒng)結(jié)構(gòu)
        5.5.2 深度圖卷積神經(jīng)網(wǎng)絡(luò)映射方案
        5.5.3 圖卷積神經(jīng)網(wǎng)絡(luò)加速器
    5.6 系統(tǒng)性能與資源評(píng)估
        5.6.1 性能模型
        5.6.2 資源模型
    5.7 實(shí)驗(yàn)評(píng)測(cè)
        5.7.1 實(shí)驗(yàn)設(shè)置
        5.7.2 性能分析
    5.8 相關(guān)工作
    5.9 本章小節(jié)
第六章 工作總結(jié)與未來(lái)展望
    6.1 工作總結(jié)
    6.2 未來(lái)展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果

(5)高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)

致謝
摘要
abstract
第一章 緒論
    1.1 研究背景
    1.2 研究現(xiàn)狀
    1.3 主要工作內(nèi)容
    1.4 課題來(lái)源
    1.5 論文結(jié)構(gòu)
第二章 矩陣運(yùn)算介紹
    2.1 矩陣運(yùn)算算法分析
    2.2 矩陣求逆運(yùn)算
        2.2.1 矩陣求逆方法介紹
        2.2.2 矩陣分解算法分析
        2.2.3 三角矩陣求逆
    2.3 非求逆矩陣運(yùn)算
        2.3.1 線(xiàn)性矩陣運(yùn)算
        2.3.2 矩陣陣乘
        2.3.3 矩陣轉(zhuǎn)置
    2.4 矩陣運(yùn)算算法優(yōu)化
        2.4.1 基于原位存儲(chǔ)的混合粒度并行Givens-QR分解算法
        2.4.2 三角矩陣的分塊遞推求逆
        2.4.3 其余矩陣運(yùn)算優(yōu)化
        2.4.4 優(yōu)化算法分析
    2.5 本章小結(jié)
第三章 矩陣運(yùn)算器的硬件設(shè)計(jì)與實(shí)現(xiàn)
    3.1 矩陣運(yùn)算器硬件實(shí)現(xiàn)設(shè)計(jì)
    3.2 矩陣運(yùn)算器的硬件架構(gòu)與工作流程
        3.2.1 矩陣運(yùn)算器的硬件架構(gòu)
        3.2.2 矩陣運(yùn)算器的工作流程
    3.3 控制邏輯單元設(shè)計(jì)
    3.4 可重構(gòu)運(yùn)算單元設(shè)計(jì)
        3.4.1 Givens-QR分解運(yùn)算單元設(shè)計(jì)
        3.4.2 三角矩陣求逆及矩陣陣乘運(yùn)算單元設(shè)計(jì)
        3.4.3 其余矩陣運(yùn)算計(jì)算單元設(shè)計(jì)
    3.5 存儲(chǔ)單元及存儲(chǔ)規(guī)則設(shè)計(jì)
    3.6 地址生成單元及尋址規(guī)則設(shè)計(jì)
        3.6.1 源矩陣存儲(chǔ)地址跳變規(guī)則
        3.6.2 Givens-QR分解地址跳變規(guī)則
        3.6.3 上三角矩陣求逆地址跳變規(guī)則
        3.6.4 矩陣陣乘地址跳變規(guī)則
        3.6.5 其余矩陣運(yùn)算地址規(guī)則
    3.7 交叉開(kāi)關(guān)設(shè)計(jì)
    3.8 外部接口設(shè)計(jì)
        3.8.1 AXI接口設(shè)計(jì)
        3.8.2 AXI配置信息
    3.9 本章小結(jié)
第四章 矩陣運(yùn)算加速器的驗(yàn)證與性能分析
    4.1 驗(yàn)證方案
    4.2 Matlab模型驗(yàn)證
    4.3 硬件驗(yàn)證
        4.3.1 驗(yàn)證流程以及ASIC版圖
        4.3.2 資源占用分析
        4.3.3 運(yùn)算誤差分析
        4.3.4 運(yùn)算周期分析
    4.4 性能分析
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況

(6)基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)(論文提綱范文)

致謝
摘要
abstract
第一章 緒論
    1.1 研究背景
        1.1.1 可重構(gòu)計(jì)算
        1.1.2 SystemC事務(wù)級(jí)建模
    1.2 研究現(xiàn)狀
    1.3 課題來(lái)源
    1.4 論文主要研究?jī)?nèi)容及組織結(jié)構(gòu)
第二章 粗粒度可重構(gòu)系統(tǒng)總體方案
    2.1 典型粗粒度可重構(gòu)系統(tǒng)結(jié)構(gòu)
        2.1.1 Morpho Sys結(jié)構(gòu)介紹
        2.1.2 HARTMP結(jié)構(gòu)介紹
    2.2 SystemC事務(wù)級(jí)建模相關(guān)機(jī)制
        2.2.1 SystemC
        2.2.2TLM2.0
    2.3 總體模型設(shè)計(jì)方案
        2.3.1 硬件結(jié)構(gòu)
        2.3.2 任務(wù)調(diào)度方案
    2.4 本章小結(jié)
第三章 SoC系統(tǒng)平臺(tái)建模
    3.1 SoC系統(tǒng)平臺(tái)的硬件部分
        3.1.1 RISC-V內(nèi)核
        3.1.2 總線(xiàn)
        3.1.3 中斷控制器
        3.1.4 外設(shè)適配接口
    3.2 SoC系統(tǒng)平臺(tái)的軟件部分
        3.2.1 系統(tǒng)調(diào)用的實(shí)現(xiàn)
        3.2.2 中斷和軟硬件交互
    3.3 本章小結(jié)
第四章 RFU可重構(gòu)硬件子系統(tǒng)建模
    4.1 整數(shù)和浮點(diǎn)數(shù)可重構(gòu)陣列的比較
    4.2 RFU設(shè)計(jì)
        4.2.1 重構(gòu)控制器
        4.2.2 數(shù)據(jù)加載單元
        4.2.3 互聯(lián)單元
        4.2.4 計(jì)算單元
    4.3 RFU動(dòng)態(tài)調(diào)度過(guò)程
    4.4 本章小結(jié)
第五章 可重構(gòu)系統(tǒng)性能仿真與測(cè)試
    5.1 SoC系統(tǒng)平臺(tái)性能測(cè)試
        5.1.1 實(shí)驗(yàn)結(jié)果與性能分析
    5.2 點(diǎn)積實(shí)驗(yàn)
        5.2.1 參數(shù)設(shè)置
        5.2.2 任務(wù)流程和軟件編程
        5.2.3 實(shí)驗(yàn)結(jié)果與性能分析
    5.3 矩陣乘法實(shí)驗(yàn)
        5.3.1 算法映射方案
        5.3.2 實(shí)驗(yàn)結(jié)果與性能分析
    5.4 實(shí)對(duì)稱(chēng)矩陣特征分解實(shí)驗(yàn)
        5.4.1 算法介紹
        5.4.2 實(shí)驗(yàn)結(jié)果與性能分析
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
附錄1
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況

(7)基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)(論文提綱范文)

致謝
摘要
abstract
第一章 緒論
    1.1 NoC相關(guān)研究
    1.2 NoC通信協(xié)議
        1.2.1 路由算法
        1.2.2 交換機(jī)制
    1.3 NoC映射問(wèn)題
    1.4 同構(gòu)多核系統(tǒng)及優(yōu)勢(shì)
    1.5 本文課題來(lái)源
    1.6 本文工作及論文結(jié)構(gòu)安排
第二章 同構(gòu)多核在并行計(jì)算中應(yīng)用概述
    2.1 矩陣計(jì)算的應(yīng)用
    2.2 并行算法
        2.2.1 并行算法的概念和類(lèi)別
        2.2.2 并行算法的發(fā)展
        2.2.3 并行算法的基本設(shè)計(jì)方法及性能度量
    2.3 多核系統(tǒng)在矩陣乘法中的應(yīng)用
    2.4 矩陣乘法的簡(jiǎn)述
    2.5 本章小結(jié)
第三章 面向矩陣乘法的MPSOC硬件設(shè)計(jì)
    3.1 矩陣乘運(yùn)算方法
        3.1.1 矩陣乘并行算法
        3.1.2 并行分塊矩陣
    3.2 矩陣乘法硬件架構(gòu)
        3.2.1 存儲(chǔ)方式
        3.2.2 數(shù)據(jù)交互
        3.2.3 運(yùn)算模式
        3.2.4 結(jié)構(gòu)擴(kuò)展
    3.3 本章小結(jié)
第四章 NoC同構(gòu)多核系統(tǒng)設(shè)計(jì)
    4.1 NoC系統(tǒng)概述
    4.2 NoC同構(gòu)多核系統(tǒng)設(shè)計(jì)
        4.2.1 主控制器
        4.2.2 存儲(chǔ)單元
        4.2.3 片上網(wǎng)絡(luò)
        4.2.4 可重構(gòu)計(jì)算單元(RCU)
    4.3 本章小結(jié)
第五章 基于NoC多核系統(tǒng)的矩陣乘法映射
    5.1 工作目的及思路
    5.2 矩陣乘法的映射
        5.2.1 基于I/O帶寬結(jié)構(gòu)
        5.2.2 基于運(yùn)算資源結(jié)構(gòu)
    5.3 實(shí)驗(yàn)環(huán)境及流程
    5.4 實(shí)驗(yàn)結(jié)果和性能分析
        5.4.1 資源占用分析
        5.4.2 系統(tǒng)運(yùn)算性能分析
        5.4.3 I/O帶寬的影響
        5.4.4 運(yùn)算資源的影響
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況

(8)大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證(論文提綱范文)

摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 FFT算法分析
        1.2.2 硬件加速設(shè)計(jì)結(jié)構(gòu)
    1.3 論文工作與結(jié)構(gòu)安排
        1.3.1 本文主要工作
        1.3.2 論文結(jié)構(gòu)安排
第二章 FFT運(yùn)算理論分析
    2.1 常用的FFT算法
        2.1.1 一維固定基-2FFT算法
        2.1.2 二維固定基-2FFT算法
        2.1.3 一維固定基-4FFT算法
        2.1.4 分裂基FFT算法
        2.1.5 一維固定基-8算法原理
    2.2 常用的FFT運(yùn)算處理架構(gòu)
        2.2.1 基于流水線(xiàn)結(jié)構(gòu)
        2.2.2 基于存儲(chǔ)器結(jié)構(gòu)
        2.2.3 其他常用的FFT結(jié)構(gòu)
    2.3 逆IFFT變換
    2.4 方案分析與確定
    2.5 IEEE754標(biāo)準(zhǔn)簡(jiǎn)介
    2.6 本章小結(jié)
第三章 FFT運(yùn)算的設(shè)計(jì)實(shí)現(xiàn)
    3.1 存儲(chǔ)單元設(shè)計(jì)
    3.2 蝶形運(yùn)算單元設(shè)計(jì)
    3.3 旋轉(zhuǎn)因子生成設(shè)計(jì)
    3.4 存儲(chǔ)管理單元設(shè)計(jì)
    3.5 地址無(wú)沖突生成設(shè)計(jì)
        3.5.1 基-2地址無(wú)沖突設(shè)計(jì)
        3.5.2 基-8地址無(wú)沖突設(shè)計(jì)
    3.6 地址產(chǎn)生模塊設(shè)計(jì)
    3.7 本章小結(jié)
第四章 FFT運(yùn)算的驗(yàn)證分析
    4.1 軟件仿真驗(yàn)證
    4.2 AXI總線(xiàn)接口
        4.2.1 AXI簡(jiǎn)介
        4.2.2 基于AXI的 FFT運(yùn)算數(shù)據(jù)交互
    4.3 FPGA測(cè)試
        4.3.1 FPGA測(cè)試平臺(tái)
        4.3.2 FPGA測(cè)試流程
    4.4 軟硬件測(cè)試結(jié)果分析
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 工作總結(jié)
    5.2 未來(lái)展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介

(9)一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化(論文提綱范文)

摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀
    1.3 本文的主要研究?jī)?nèi)容及章節(jié)安排
第二章 浮點(diǎn)運(yùn)算與通用矩陣乘法原理
    2.1 IEEE-754標(biāo)準(zhǔn)簡(jiǎn)介
        2.1.1 浮點(diǎn)數(shù)編碼格式
        2.1.2 浮點(diǎn)數(shù)舍入模式
        2.1.3 浮點(diǎn)數(shù)異常處理
    2.2 浮點(diǎn)數(shù)運(yùn)算流程
        2.2.1 浮點(diǎn)數(shù)加/減法運(yùn)算
        2.2.2 浮點(diǎn)數(shù)乘法運(yùn)算
        2.2.3 浮點(diǎn)數(shù)乘加運(yùn)算
    2.3 通用矩陣乘法
        2.3.1 GEMM優(yōu)化策略
        2.3.2 SIMD技術(shù)
    2.4 本章小結(jié)
第三章 向量浮點(diǎn)運(yùn)算加速器的硬件結(jié)構(gòu)設(shè)計(jì)
    3.1 通用浮點(diǎn)運(yùn)算加速器
    3.2 基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器設(shè)計(jì)
        3.2.1 向量浮點(diǎn)運(yùn)算加速器詳細(xì)設(shè)計(jì)
        3.2.2 向量浮點(diǎn)運(yùn)算加速器控制模塊設(shè)計(jì)
        3.2.3 RegFile模塊設(shè)計(jì)
        3.2.4 Functional Unit模塊設(shè)計(jì)
        3.2.5 片內(nèi)SRAM與Reg File的數(shù)據(jù)交互
        3.2.6 AHB與Reg File的數(shù)據(jù)交互
    3.3 指令格式及接口時(shí)序
        3.3.1 AHB總線(xiàn)接口時(shí)序
        3.3.2 MCR及MRC指令格式及接口時(shí)序
        3.3.3 LDC/STC指令格式及接口時(shí)序
        3.3.4 CDP指令格式及接口時(shí)序
    3.4 異常處理
    3.5 本章小結(jié)
第四章 基于Goto-BLAS的通用矩陣匯編函數(shù)庫(kù)設(shè)計(jì)
    4.1 通用矩陣分塊方案
    4.2 GEMM函數(shù)庫(kù)基本運(yùn)算體設(shè)計(jì)
    4.3 通用匯編函數(shù)庫(kù)優(yōu)化
    4.4 本章小結(jié)
第五章 性能測(cè)試分析與綜合
    5.1 測(cè)試平臺(tái)設(shè)計(jì)
    5.2 性能測(cè)試及分析
        5.2.1 矩陣加法與矩陣減法運(yùn)算性能測(cè)試
        5.2.2 矩陣轉(zhuǎn)置運(yùn)算性能測(cè)試
        5.2.3 矩陣乘法運(yùn)算性能測(cè)試
    5.3 綜合及分析
    5.4 本章小結(jié)
第六章 總結(jié)及展望
    6.1 工作總結(jié)
    6.2 研究展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介

(10)基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究(論文提綱范文)

摘要
Abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文研究?jī)?nèi)容
    1.4 本文組織結(jié)構(gòu)
第二章 基于仿射模型的光流超聲彈性成像算法分析
    2.1 光流法的理論模型
        2.1.1 光流法基本等式
        2.1.2 全局約束(Horn-Schunck算法)
        2.1.3 局部約束(Lucas-Kanade算法)
    2.2 仿射運(yùn)動(dòng)模型
    2.3 基于仿射模型的光流法
    2.4 大位移光流計(jì)算的技術(shù)策略
        2.4.1 多尺度分層細(xì)化策略
        2.4.2 先驗(yàn)估計(jì)
第三章 基于FPGA仿射光流計(jì)算硬件設(shè)計(jì)
    3.1 仿射光流法計(jì)算組織運(yùn)動(dòng)的工作流程
        3.1.1 梯度計(jì)算階段(s1)
        3.1.2 參數(shù)矩陣構(gòu)造階段(s2)
        3.1.3 運(yùn)動(dòng)張量計(jì)算階段(s3)
    3.2 通用模塊的硬件設(shè)計(jì)
        3.2.1 卷積加速器
        3.2.2 矩陣乘法加速器
        3.2.3 矩陣求逆加速器
    3.3 AXI接口協(xié)議
        3.3.1 AXI4.0
        3.3.2 AXI Interconnect模式
    3.4 數(shù)據(jù)通路設(shè)計(jì)
    3.5 控制通路設(shè)計(jì)
第四章 基于FPGA加速的仿射光流組織運(yùn)動(dòng)快速計(jì)算系統(tǒng)軟硬協(xié)同實(shí)現(xiàn)
    4.1 基于ZYNQ仿射光流組織運(yùn)動(dòng)快速計(jì)算系統(tǒng)硬件設(shè)計(jì)
    4.2 仿射光流組織運(yùn)動(dòng)計(jì)算軟件系統(tǒng)SDK軟件設(shè)計(jì)與實(shí)現(xiàn)
第五章 綜合實(shí)驗(yàn)與結(jié)果分析
    5.1 仿射光流IP的性能優(yōu)化與評(píng)估
        5.1.1 時(shí)延和吞吐量
        5.1.2 資源利用率
    5.2 系統(tǒng)性能評(píng)估
        5.2.1 執(zhí)行時(shí)間
        5.2.2 成像效果
        5.2.3 資源消耗和能耗情況
第六章 總結(jié)與展望
本研究的創(chuàng)新型自我評(píng)價(jià)
參考文獻(xiàn)
綜述
    參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
個(gè)人簡(jiǎn)歷

四、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文參考文獻(xiàn))

  • [1]基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳晟. 桂林電子科技大學(xué), 2021(02)
  • [2]高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳文杰. 合肥工業(yè)大學(xué), 2021(02)
  • [3]邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)[D]. 周鈺致. 中國(guó)科學(xué)技術(shù)大學(xué), 2020(01)
  • [4]面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究[D]. 沈俊忠. 國(guó)防科技大學(xué), 2020(01)
  • [5]高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 邱俊豪. 合肥工業(yè)大學(xué), 2020
  • [6]基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)[D]. 余振波. 合肥工業(yè)大學(xué), 2020(02)
  • [7]基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)[D]. 汪楊. 合肥工業(yè)大學(xué), 2020
  • [8]大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證[D]. 張磊磊. 西安電子科技大學(xué), 2020(05)
  • [9]一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化[D]. 劉斌. 西安電子科技大學(xué), 2020(05)
  • [10]基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究[D]. 林洪訓(xùn). 中國(guó)醫(yī)科大學(xué), 2020(01)

標(biāo)簽:;  ;  ;  ;  ;  

基于流水線(xiàn)光總線(xiàn)陣列的快速矩陣運(yùn)算
下載Doc文檔

猜你喜歡