一、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文文獻(xiàn)綜述)
陳晟[1](2021)在《基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明諧波雷達(dá)是一種對(duì)目標(biāo)進(jìn)行探測(cè)、識(shí)別和判斷的裝置,軍事上常用于探測(cè)隱形飛機(jī)、隱形艦船等目標(biāo),通過(guò)接收并處理非線(xiàn)性目標(biāo)散射的諧波信號(hào),達(dá)到探測(cè)非線(xiàn)性目標(biāo)的目的。由于諧波雷達(dá)對(duì)半導(dǎo)體和金屬結(jié)極其敏感,從而能夠高效、準(zhǔn)確地探測(cè)出藏匿的通信終端、針孔攝像頭和微型起爆器等設(shè)備,因此,諧波雷達(dá)民用化的意義越來(lái)越重大。本文針對(duì)現(xiàn)有的民用諧波雷達(dá)在近場(chǎng)探測(cè)時(shí)無(wú)法完成測(cè)距的痛點(diǎn),融合了載波測(cè)距方案和二相編碼脈沖壓縮雷達(dá)方案設(shè)計(jì)了一種小型數(shù)字化低成本手持式近場(chǎng)諧波雷達(dá)系統(tǒng),并完成了該系統(tǒng)的波形設(shè)計(jì)、架構(gòu)設(shè)計(jì)和各子系統(tǒng)的數(shù)字化實(shí)現(xiàn)。為解決硬件資源不足的問(wèn)題,本文基于脈動(dòng)陣列架構(gòu),通過(guò)C/C++和Verilog混合編程的方式自主設(shè)計(jì)了一個(gè)完備的復(fù)用型硬件加速網(wǎng)絡(luò),自定義了Valid-Ready握手協(xié)議用于解決多模塊對(duì)網(wǎng)絡(luò)調(diào)度時(shí)的沖突問(wèn)題。通過(guò)將不同模塊需要計(jì)算的數(shù)據(jù)時(shí)分調(diào)度至該網(wǎng)絡(luò)上進(jìn)行運(yùn)算,提升了系統(tǒng)的實(shí)時(shí)信號(hào)處理能力,同時(shí)極大幅度壓縮了硬件資源消耗。本系統(tǒng)的發(fā)射機(jī)子系統(tǒng)實(shí)現(xiàn)了基于CORDIC算法的基帶波形生成,設(shè)計(jì)了交互邏輯和控制邏輯,并完成了對(duì)外圍芯片的驅(qū)動(dòng);載波跟蹤、同步子系統(tǒng)重構(gòu)了傳統(tǒng)載波跟蹤環(huán),用調(diào)制信號(hào)跟蹤回波并通過(guò)鏡像NCO輸出載波,為目標(biāo)檢測(cè)子系統(tǒng)和載波測(cè)距子系統(tǒng)提供相位與回波信號(hào)的載波相位相同的平穩(wěn)載波信號(hào);目標(biāo)檢測(cè)子系統(tǒng)采用二相編碼脈沖壓縮雷達(dá)接收機(jī)方案,利用分布式算法和硬件加速網(wǎng)絡(luò)在FPGA中進(jìn)行數(shù)字化實(shí)現(xiàn);載波測(cè)距子系統(tǒng)利用CORDIC算法構(gòu)建了高精度二象限鑒相器,在FPGA中實(shí)現(xiàn)了高精度測(cè)距。此外,本文利用前人在非線(xiàn)性結(jié)點(diǎn)小信號(hào)建模領(lǐng)域的相關(guān)成果簡(jiǎn)化了非線(xiàn)性結(jié)點(diǎn)在穩(wěn)態(tài)下的回波模型。通過(guò)該模型可以模擬出不同噪聲環(huán)境下諧波雷達(dá)的回波信號(hào),這彌補(bǔ)了實(shí)測(cè)數(shù)據(jù)不易覆蓋不同使用場(chǎng)景的缺陷,生成的仿真數(shù)據(jù)可以作為實(shí)測(cè)數(shù)據(jù)的補(bǔ)充。本文通過(guò)實(shí)測(cè)數(shù)據(jù)和仿真數(shù)據(jù)對(duì)各子系統(tǒng)進(jìn)行了驗(yàn)證,結(jié)果表明各子系統(tǒng)均能有效地實(shí)現(xiàn)預(yù)期的功能。
陳文杰[2](2021)在《高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明隨著技術(shù)的發(fā)展和應(yīng)用需求的提升,神經(jīng)網(wǎng)絡(luò)、數(shù)字信號(hào)處理、無(wú)線(xiàn)通信技術(shù)等領(lǐng)域中涉及到大量高精度浮點(diǎn)數(shù)運(yùn)算。而矩陣運(yùn)算作為信號(hào)處理的基礎(chǔ)運(yùn)算在各個(gè)領(lǐng)域中得到廣泛應(yīng)用。求逆運(yùn)算是矩陣運(yùn)算中最復(fù)雜的運(yùn)算。傳統(tǒng)的求逆算法由于運(yùn)算復(fù)雜度過(guò)高,過(guò)程復(fù)雜不利于硬件實(shí)現(xiàn)。因此,國(guó)內(nèi)外大量研究團(tuán)隊(duì)提出了一系列矩陣求逆的方法,并在硬件上進(jìn)行驗(yàn)證和實(shí)現(xiàn)。矩陣求逆運(yùn)算的運(yùn)算復(fù)雜度與階數(shù)三次方成正比,現(xiàn)有的矩陣求逆器的面向?qū)ο蟠蠖鄶?shù)為一些基于定點(diǎn)數(shù)的特殊矩陣或者定規(guī)模矩陣。因此,設(shè)計(jì)一款面向高精度高維度的硬件矩陣求逆器具有十分重要架構(gòu)探索意義和工程實(shí)用價(jià)值。綜上所述,本文在深入研究了現(xiàn)有矩陣求逆算法和硬件實(shí)現(xiàn)架構(gòu),開(kāi)展了以下主要工作:(1)對(duì)現(xiàn)有矩陣求逆算法進(jìn)行分析和探究,根據(jù)算法本身的運(yùn)算復(fù)雜度,硬件實(shí)現(xiàn)復(fù)雜度和數(shù)值穩(wěn)定性等特點(diǎn),選取基于按列Givens旋轉(zhuǎn)的矩陣分解算法,并在其基礎(chǔ)上綜合使用原位替換的并行Column-wise Givens Rotation(CGR)分解方法,和分塊求逆的上三角矩陣求逆方法,充分發(fā)揮算法并行特性,確保實(shí)際電路性能。(2)根據(jù)CGR算法的特性,設(shè)計(jì)了矩陣求逆運(yùn)算的硬件加速器,用于加速雙精度浮點(diǎn)方陣的求逆。在矩陣的QR分解過(guò)程中,優(yōu)化二維脈沖陣列結(jié)構(gòu),設(shè)計(jì)了一維線(xiàn)性結(jié)構(gòu),該結(jié)構(gòu)充分發(fā)揮了CGR算法的流水化計(jì)算過(guò)程特征,壓縮了分解過(guò)程中的運(yùn)算周期。(3)按照標(biāo)準(zhǔn)ASCI流程完成了仿真驗(yàn)證、綜合實(shí)現(xiàn)、后端優(yōu)化以及版圖實(shí)現(xiàn),最后在Xlinx XC7V440T FPGA平臺(tái)上搭建驗(yàn)證環(huán)境并驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的矩陣求逆器可支持任意2-32階的雙精度浮點(diǎn)數(shù)矩陣求逆運(yùn)算,在TSMC28nm工藝下,該求逆器支持工作頻率為700MHz,芯片面積為1.08mm2,可在14123個(gè)周期內(nèi)完成32階雙精度浮點(diǎn)矩陣求逆運(yùn)算,計(jì)算結(jié)果與MATLAB的平均相對(duì)誤差在10-8以下,頻率歸一后其性能是AMD Ryzen 5 3500U CPU的40倍,面積歸一后性能是NVIDIA RTX3070 GPU的118倍。
周鈺致[3](2020)在《邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)》文中研究指明隨著5G網(wǎng)絡(luò)技術(shù)的發(fā)展,接入網(wǎng)絡(luò)的設(shè)備數(shù)量以及網(wǎng)絡(luò)邊緣設(shè)備中產(chǎn)生的數(shù)據(jù)量迅速增加,這給移動(dòng)網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來(lái)了不小的負(fù)擔(dān)。在這種發(fā)展趨勢(shì)下,基于云計(jì)算的服務(wù)模式很難穩(wěn)定地保持對(duì)網(wǎng)絡(luò)邊緣設(shè)備請(qǐng)求處理的實(shí)時(shí)性。一種新提出的邊緣計(jì)算模型采取了將部分計(jì)算處理的過(guò)程遷移至終端設(shè)備或者網(wǎng)絡(luò)鏈路中的方法,通過(guò)這種方法降低了終端設(shè)備的數(shù)據(jù)處理響應(yīng)的延遲。人機(jī)交互系統(tǒng)的性能對(duì)用戶(hù)體驗(yàn)的影響尤為重要,而顯示設(shè)備又是人機(jī)交互的重要橋梁。因此低時(shí)延高可靠的顯示系統(tǒng)對(duì)于邊緣計(jì)算來(lái)說(shuō)非常重要。本文重點(diǎn)針對(duì)邊緣計(jì)算設(shè)備中人機(jī)交互顯示系統(tǒng)的實(shí)時(shí)性、低功耗、可靠性三個(gè)方面的關(guān)鍵技術(shù)展開(kāi)研究,通過(guò)算法、架構(gòu)、系統(tǒng)、芯片四個(gè)層次協(xié)同優(yōu)化的設(shè)計(jì)方法,最終實(shí)現(xiàn)了低時(shí)延、低功耗、高可靠的邊緣計(jì)算顯示芯片。本文主要的研究工作和創(chuàng)新點(diǎn)如下:(1)針對(duì)實(shí)時(shí)性需求,提出了一種適用于邊緣計(jì)算的異構(gòu)圖形運(yùn)算系統(tǒng)的架構(gòu),通過(guò)均衡流水線(xiàn)不同階段的運(yùn)算負(fù)載及頂點(diǎn)片元異構(gòu)加速器架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了高能效的圖形處理。通過(guò)自研的芯片開(kāi)發(fā)板在常溫室內(nèi)條件下對(duì)芯片中的圖形處理核進(jìn)行了測(cè)試,測(cè)試過(guò)程中關(guān)閉了其他運(yùn)算單元模塊,圖形處理核最高頻率能達(dá)到200MHz。通過(guò)選取典型的邊緣計(jì)算的界面進(jìn)行測(cè)試,最高處理速率為152MPixels/s,性能功耗比相比于面向低成本顯示系統(tǒng)的ARM架構(gòu)微處理器芯片 STM32L476 提升了 5.8 倍。(2)針對(duì)功耗及內(nèi)存帶寬的限制,提出了一種基于塊的實(shí)時(shí)幀緩存壓縮算法,設(shè)計(jì)了壓縮器的架構(gòu)。通過(guò)在幀像素點(diǎn)產(chǎn)生的過(guò)程中同步進(jìn)行壓縮的方法,在不影響系統(tǒng)性能的前提下降低了運(yùn)算單元的帶寬需求。在基于Kintex-7 FPGA的測(cè)試平臺(tái)上移植了圖形處理系統(tǒng)和幀緩存壓縮器并運(yùn)行典型界面進(jìn)行測(cè)試,壓縮后系統(tǒng)功耗節(jié)省的效果相比于采用JPEG格式的幀緩存壓縮方法提升了 2.3倍。(3)針對(duì)可靠性需求,提出了一種多周期累加冗余信息的脈動(dòng)陣列容錯(cuò)算法,設(shè)計(jì)了容錯(cuò)脈動(dòng)陣列架構(gòu)。通過(guò)軟件仿真注入錯(cuò)誤驗(yàn)證錯(cuò)誤恢復(fù)率,實(shí)驗(yàn)結(jié)果表明錯(cuò)誤恢復(fù)率能達(dá)到99%,錯(cuò)誤恢復(fù)情況優(yōu)于時(shí)間空間冗余算法,能滿(mǎn)足面向深度學(xué)習(xí)應(yīng)用的脈動(dòng)陣列的需求。采用Synopsys公司的綜合工具進(jìn)行綜合并對(duì)比面積,在乘法器精度為32bit的情況下,冗余面積為61.5%,對(duì)比雙模冗余架構(gòu)節(jié)省了 38.5%的冗余面積,相比于錯(cuò)誤遷移方法可以實(shí)現(xiàn)軟錯(cuò)誤的錯(cuò)誤檢測(cè)及錯(cuò)誤恢復(fù)。(4)設(shè)計(jì)并流片了一款基于RISC-V擴(kuò)展指令集的高能效顯示芯片。在常溫常壓條件下,對(duì)芯片進(jìn)行了測(cè)試。測(cè)試結(jié)果表明芯片系統(tǒng)的運(yùn)行功耗為65mW,相比于學(xué)術(shù)界中統(tǒng)一著色器架構(gòu)的圖形處理器芯片的研究成果功耗降低了 3倍。通過(guò)面向邊緣計(jì)算的典型場(chǎng)景進(jìn)行測(cè)試,性能功耗比相比于主流基于ARM的微處理器芯片STM32L476提升了 1.49倍。通過(guò)算法、架構(gòu)、系統(tǒng)多個(gè)層面進(jìn)行了軟硬件協(xié)同優(yōu)化設(shè)計(jì),并在芯片設(shè)計(jì)層面上采用了低功耗的設(shè)計(jì)方法,本文最終實(shí)現(xiàn)了面向邊緣計(jì)算的高能效、高可靠顯示芯片。
沈俊忠[4](2020)在《面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究》文中指出近年來(lái),人工智能技術(shù)迅猛發(fā)展,在全球范圍內(nèi)受到了廣泛關(guān)注。以卷積經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Networks)為代表的深度學(xué)習(xí)算法的不斷更新迭代對(duì)計(jì)算機(jī)系統(tǒng)的計(jì)算性能與能耗要求急劇提高。然而,由于近年來(lái)摩爾定律發(fā)展的停滯以及馮諾伊曼結(jié)構(gòu)限制,現(xiàn)有的數(shù)據(jù)中心架構(gòu)無(wú)法高效地實(shí)現(xiàn)深度學(xué)習(xí)與大數(shù)據(jù)相結(jié)合的應(yīng)用加速。以FPGA為代表的定制化硬件為解決上述問(wèn)題提供了新思路,一方面,FPGA特有的可重構(gòu)特性使其能夠適應(yīng)算法的快速發(fā)展變化,克服了ASIC解決方案對(duì)新興算法適應(yīng)性差的的問(wèn)題;另一方面,FPGA在加速深度學(xué)習(xí)算法體現(xiàn)出的高能效特性也讓其備受研究人員的青睞。隨著國(guó)內(nèi)外各大科技公司紛紛在數(shù)據(jù)中心部署FPGA設(shè)備構(gòu)建異構(gòu)計(jì)算加速集群,CPU+FPGA體系結(jié)構(gòu)在處理大數(shù)據(jù)應(yīng)用方面的優(yōu)勢(shì)逐漸得到肯定,CPU+FPGA異構(gòu)計(jì)算體現(xiàn)出非常好的發(fā)展前景。本文基于CPU-多FPGA異構(gòu)融合體系結(jié)構(gòu),面向深度學(xué)習(xí)與大數(shù)據(jù)相結(jié)合的典型應(yīng)用,圍繞加速器體系結(jié)構(gòu)、算法到硬件映射方案、數(shù)據(jù)流加速器、性能模型、分布式加速方案等關(guān)鍵技術(shù)進(jìn)行分析研究。本文的研究?jī)?nèi)容及創(chuàng)新點(diǎn)如下:·研究三維卷積神經(jīng)網(wǎng)絡(luò)的FPGA加速技術(shù)。本文提出了一種面向二維/三維卷積神經(jīng)網(wǎng)絡(luò)加速的模板化體系結(jié)構(gòu)和設(shè)計(jì)方法。首先,為了減少卷積神經(jīng)網(wǎng)絡(luò)的算法復(fù)雜度,我們對(duì)Winograd快速算法進(jìn)行擴(kuò)展使其能運(yùn)用到三維卷積神經(jīng)網(wǎng)絡(luò)中。其次,我們從二維/三維卷積神經(jīng)網(wǎng)絡(luò)中抽取了公共算子,并基于此設(shè)計(jì)了一系列可重構(gòu)計(jì)算模板。最后,我們采用高層次綜合語(yǔ)言對(duì)計(jì)算模板進(jìn)行實(shí)現(xiàn),并基于這些計(jì)算模板構(gòu)建了加速引擎,實(shí)現(xiàn)了模板化加速器的快速生成。由于二維、三維卷積神經(jīng)網(wǎng)絡(luò)算法復(fù)雜度的差異,先前的工作針對(duì)二維卷積神經(jīng)網(wǎng)絡(luò)加速器提出的設(shè)計(jì)空間探索方法對(duì)于三維卷積神經(jīng)網(wǎng)絡(luò)加速器可能不再適用。針對(duì)該問(wèn)題,我們提出了一種統(tǒng)一的性能分析模型,實(shí)現(xiàn)了對(duì)二維/三維卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)空間探索并給出了最優(yōu)設(shè)計(jì)參數(shù)的搜索方法。實(shí)驗(yàn)結(jié)果表明針對(duì)VGG和C3D網(wǎng)絡(luò),我們的加速器在較低的計(jì)算資源開(kāi)銷(xiāo)下獲得了與目前先進(jìn)的神經(jīng)網(wǎng)絡(luò)加速器相當(dāng)?shù)男阅堋T谟?jì)算吞吐方面,C3D網(wǎng)絡(luò)加速器獲得了13倍于CPU的性能提升;在計(jì)算能效方面,C3D網(wǎng)絡(luò)加速器相對(duì)于CPU和GPU分別獲得了60倍和30倍的提升?!ぱ芯客暾亩S/三維卷積神經(jīng)網(wǎng)絡(luò)到FPGA硬件的映射方案。本文提出了一種將完整的二維/三維卷積神經(jīng)網(wǎng)絡(luò)高效映射到流水化多加速器結(jié)構(gòu)的方案。為了解決網(wǎng)絡(luò)層規(guī)模差異而導(dǎo)致加速器計(jì)算效率降低的問(wèn)題,我們?cè)诘谝豁?xiàng)研究?jī)?nèi)容的基礎(chǔ)上進(jìn)一步提出了一種流水化多加速器方案,該方案最主要的特點(diǎn)是將所有的層間數(shù)據(jù)存于片上,從而增加了層間數(shù)據(jù)復(fù)用率,有效降低了片外訪(fǎng)存開(kāi)銷(xiāo),與之前的工作相比,我們進(jìn)一步提升了加速器的吞吐和效能。為了降低層間數(shù)據(jù)的片上存儲(chǔ)開(kāi)銷(xiāo),我們首先提出了一種層融合確定算法,通過(guò)改變?nèi)诤蠈樱ㄏ噜彽膬蓚€(gè)卷積層)中的循環(huán)順序,實(shí)現(xiàn)了層間分塊數(shù)據(jù)的有效利用。其次,為了實(shí)現(xiàn)網(wǎng)絡(luò)層到多個(gè)加速器的高效映射,我們基于K-means聚類(lèi)思想提出了一種層聚類(lèi)方法,將分塊參數(shù)接近的網(wǎng)絡(luò)層進(jìn)行聚類(lèi)并映射到同一個(gè)加速器。此外,為了解決加速器之間的負(fù)載不均衡狀況,我們還提出了一種簡(jiǎn)單而高效的負(fù)載均衡調(diào)度,進(jìn)一步提升加速器整體的計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,相比于之前提出的加速器方案,本文提出的流水化多加速器方案獲得了最高2.3倍性能提升,在計(jì)算效能方面,我們相比于CPU、GPU分別提升了64倍和5倍?!ぱ芯恳匀S卷積神經(jīng)網(wǎng)絡(luò)為核心的醫(yī)療影像識(shí)別應(yīng)用的并行加速方案。深度學(xué)習(xí)算法已成功運(yùn)用到醫(yī)療影像分析應(yīng)用中,然而,應(yīng)用性能提升的同時(shí),其算法的計(jì)算、存儲(chǔ)開(kāi)銷(xiāo)也不可避免地增加,導(dǎo)致了應(yīng)用處理延遲開(kāi)銷(xiāo)的增大。為了解決上述問(wèn)題,我們以基于三維卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)檢測(cè)應(yīng)用為例展開(kāi)研究,提出了一套基于CPU-多FPGA異構(gòu)計(jì)算平臺(tái)的肺結(jié)節(jié)檢測(cè)加速方案。我們首先對(duì)算法并行性進(jìn)行了深入的分析,提取了核心計(jì)算負(fù)載——兩種三維卷積神經(jīng)網(wǎng)絡(luò):LNS-net和LNC-net,并針對(duì)兩種網(wǎng)絡(luò)的不同特征,分別提出了“模型并行”以及“數(shù)據(jù)并行”的映射方案。其次,我們?cè)诘诙绿岢龅娜S卷積神經(jīng)網(wǎng)絡(luò)加速器基礎(chǔ)上進(jìn)行了改進(jìn),節(jié)省了硬件資源,提高加速器資源利用率。此外,我們?cè)贔PGA節(jié)點(diǎn)間設(shè)計(jì)了兩種互連類(lèi)型——常規(guī)通路和快速通路:滿(mǎn)足了算法映射方案對(duì)FPGA節(jié)點(diǎn)間通信的需求。最后,我們采用依托項(xiàng)目開(kāi)發(fā)的定制FPGA加速板卡進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的異構(gòu)系統(tǒng)具有良好的擴(kuò)展性,并且面向LNS-net和LNC-net的加速方案都獲得了高于CPU、GPU的計(jì)算吞吐和能效比。與此同時(shí),系統(tǒng)還達(dá)到了世界先進(jìn)水平檢測(cè)精度?!ぱ芯棵嫦蛏疃葓D卷積神經(jīng)網(wǎng)絡(luò)的并行加速方案。我們提出了一種面向深度圖卷積神經(jīng)網(wǎng)絡(luò)的分布式并行加速方案。我們選取了一個(gè)典型的深度圖卷積神經(jīng)網(wǎng)絡(luò)算法——DAGCN作為主要研究對(duì)象,從算法的計(jì)算特征、稀疏性等方面對(duì)其進(jìn)行了分析,并通過(guò)實(shí)驗(yàn)驗(yàn)證了網(wǎng)絡(luò)層精度與網(wǎng)絡(luò)深度之間存在正相關(guān)關(guān)系。我們提出了一種高效的網(wǎng)絡(luò)映射方案,CPU負(fù)責(zé)網(wǎng)絡(luò)層結(jié)果的聚合操作,而FPGA則對(duì)主要的計(jì)算負(fù)載——圖卷積層進(jìn)行加速。與前面提到的流水化并行加速方案類(lèi)似,我們?cè)诿總€(gè)FPGA節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)了多個(gè)圖卷積層加速引擎,以實(shí)現(xiàn)多個(gè)圖卷積層的并行加速。我們將所有節(jié)點(diǎn)內(nèi)的加速引擎組織成橫跨所有FPGA節(jié)點(diǎn)的長(zhǎng)流水線(xiàn),旨在提高FPGA節(jié)點(diǎn)的計(jì)算吞吐。為了找到最優(yōu)設(shè)計(jì)參數(shù),實(shí)現(xiàn)加速器性能最大化,我們建立了數(shù)學(xué)模型評(píng)估加速器的性能與FPGA資源開(kāi)銷(xiāo)。實(shí)驗(yàn)結(jié)果表明,我們?cè)诹铀俟?jié)點(diǎn)配置下可達(dá)到2.6 TFLOPS的實(shí)測(cè)性能;我們與當(dāng)前最先進(jìn)的基于FPGA的圖卷積神經(jīng)網(wǎng)絡(luò)加速器工作進(jìn)行對(duì)比,進(jìn)一步表明了我們的加速器方案在計(jì)算吞吐和計(jì)算效率方面都達(dá)到了先進(jìn)的水平。
邱俊豪[5](2020)在《高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)》文中研究表明隨著大數(shù)據(jù)時(shí)代的到來(lái),人工智能、云計(jì)算等新興技術(shù)被廣泛使用,現(xiàn)代數(shù)字信號(hào)處理系統(tǒng)需要實(shí)時(shí)處理高維度、高精度以及高帶寬的復(fù)雜信號(hào)。矩陣運(yùn)算作為信號(hào)處理系統(tǒng)的重要基礎(chǔ)運(yùn)算,有著廣泛的應(yīng)用。其中矩陣求逆是最復(fù)雜也是應(yīng)用最廣的運(yùn)算之一,受到國(guó)內(nèi)外學(xué)者重點(diǎn)關(guān)注,提出了大量有效的矩陣求逆算法,并通過(guò)不同的硬件平臺(tái)進(jìn)行了驗(yàn)證與實(shí)現(xiàn)。矩陣求逆的運(yùn)算量隨矩陣規(guī)模的增大呈指數(shù)增大,而硬件實(shí)現(xiàn)的資源有限。故常見(jiàn)的矩陣求逆多以特殊矩陣或者小規(guī)模矩陣為對(duì)象,用于大規(guī)模任意矩陣求逆的方法及其硬件實(shí)現(xiàn)的研究較為少見(jiàn)。在當(dāng)今時(shí)代背景下,大規(guī)模非奇異矩陣求逆是數(shù)字信號(hào)處理中極具挑戰(zhàn)且不可避免的課題之一,具有重要的現(xiàn)實(shí)意義與工程價(jià)值。針對(duì)上述問(wèn)題,本文對(duì)矩陣求逆算法以及其硬件架構(gòu)設(shè)計(jì)進(jìn)行了深入研究。主要內(nèi)容如下:(1)分析研究矩陣求逆的各類(lèi)算法,根據(jù)數(shù)值穩(wěn)定性、運(yùn)算復(fù)雜度以及硬件實(shí)現(xiàn)難度等因素,選定基于Givens-QR分解的矩陣求逆算法。然后,根據(jù)算法的運(yùn)行特性,設(shè)計(jì)了基于原位替換的混合粒度并行Givens-QR分解算法和上三角矩陣求逆的分塊遞歸算法,充分挖掘算法的運(yùn)算并行度。(2)根據(jù)優(yōu)化的求逆算法,設(shè)計(jì)了以矩陣求逆為核心的矩陣運(yùn)算硬件加速器。論文在二維脈動(dòng)陣列結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了一種一維線(xiàn)性流水結(jié)構(gòu),有效壓縮運(yùn)算資源。運(yùn)算器可以直接加速2-32階雙精度浮點(diǎn)矩陣求逆,兼容了線(xiàn)性矩陣運(yùn)算、矩陣陣乘以及矩陣轉(zhuǎn)置操作。(3)完成矩陣運(yùn)算器的全部前后端設(shè)計(jì)工作,并在Xilinx XC7V2000T型FPGA平臺(tái)上搭建驗(yàn)證環(huán)境并完成驗(yàn)證。結(jié)果表明,本文設(shè)計(jì)的矩陣運(yùn)算器在TSMC28nm工藝下,工作主頻700MHz,芯片面積為2.25mm2,能夠完成全部預(yù)定矩陣運(yùn)算功能,其中32階雙精度浮點(diǎn)矩陣求逆耗時(shí)14910個(gè)周期內(nèi),計(jì)算精度達(dá)到10-15,其速度是NVIDIA RTX2070 GPU的140倍。
余振波[6](2020)在《基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)》文中提出可重構(gòu)系統(tǒng)通常由可重構(gòu)陣列和通用處理器兩部分構(gòu)成,在運(yùn)行時(shí)程序中的計(jì)算密集型代碼塊在可重構(gòu)陣列上執(zhí)行,程序中的其余部分在通用處理器上執(zhí)行,因而可重構(gòu)系統(tǒng)兼有專(zhuān)用計(jì)算的高性能和通用計(jì)算的靈活性,是新型計(jì)算的一個(gè)重要發(fā)展方向。在設(shè)計(jì)一個(gè)可重構(gòu)系統(tǒng)的過(guò)程中,往往涉及粒度、拓?fù)浣Y(jié)構(gòu)、內(nèi)存系統(tǒng)和編程模型等諸多方面的平衡考量,這使得可重構(gòu)系統(tǒng)的設(shè)計(jì)非常復(fù)雜,設(shè)計(jì)人員需要在設(shè)計(jì)進(jìn)入RTL級(jí)之前尋找用于評(píng)估系統(tǒng)性能和探索架構(gòu)的方法。解決這個(gè)問(wèn)題,可以使用SytemC語(yǔ)言進(jìn)行事務(wù)級(jí)建模(Transaction Level Modeling,TLM)。TLM是一種基于高抽象層次的快速建模方法,當(dāng)目標(biāo)系統(tǒng)十分復(fù)雜時(shí),利用SystemC事務(wù)級(jí)模型,在體系架構(gòu)階段就可以對(duì)系統(tǒng)進(jìn)行驗(yàn)證,加快仿真速度,縮短設(shè)計(jì)周期。本文設(shè)計(jì)了一款可重構(gòu)通用浮點(diǎn)處理器(Reconfigurable General-purpose Floating-point Processor,RGFP),可用作多核系統(tǒng)的可重構(gòu)運(yùn)算節(jié)點(diǎn)以提供更高的算力支持。為了能夠在設(shè)計(jì)早期對(duì)RGFP進(jìn)行功能仿真和性能模擬,本文采用SystemC建模語(yǔ)言,基于事務(wù)級(jí)建模思想,對(duì)RGFP進(jìn)行事務(wù)級(jí)建模。建模工作分為兩個(gè)部分:一是搭建以通用處理器為核心的SoC系統(tǒng)平臺(tái);二是設(shè)計(jì)使用動(dòng)態(tài)調(diào)度方案的可重構(gòu)硬件子系統(tǒng)。首先,SoC系統(tǒng)平臺(tái)的搭建包括RISC-V內(nèi)核、總線(xiàn)、中斷控制器以及外設(shè)適配接口的建模。本文的RISC-V內(nèi)核實(shí)現(xiàn)了RV32IMAC指令集,SoC系統(tǒng)平臺(tái)內(nèi)各個(gè)模塊之間的通信均符合TLM2.0規(guī)范;其次,在可重構(gòu)硬件子系統(tǒng)設(shè)計(jì)部分,采用一維陣列的形式將各種浮點(diǎn)運(yùn)算單元組織成可重構(gòu)陣列,提出一種基于兩級(jí)配置信息的動(dòng)態(tài)調(diào)度方案,使用動(dòng)態(tài)調(diào)度的方法將計(jì)算任務(wù)映射到可重構(gòu)陣列。在建模工作完成之后,采用兩種測(cè)試方案對(duì)RGFP進(jìn)行測(cè)試:一是在SoC系統(tǒng)平臺(tái)(TLM模型)和PULPino平臺(tái)(RTL模型)上運(yùn)行基準(zhǔn)測(cè)試程序,通過(guò)對(duì)比仿真速度證明SystemC事務(wù)級(jí)模型在功能仿真和性能模擬方面的高效性。二是在可重構(gòu)系統(tǒng)上運(yùn)行多種浮點(diǎn)計(jì)算任務(wù)來(lái)驗(yàn)證RGFP的數(shù)據(jù)路徑動(dòng)態(tài)重構(gòu)特性,并行計(jì)算能力以及算法適應(yīng)能力。最后通過(guò)實(shí)驗(yàn)得出,可重構(gòu)系統(tǒng)的事務(wù)級(jí)模型在仿真速度上相比于傳統(tǒng)的RTL模型提高2~3個(gè)數(shù)量級(jí),本文的可重構(gòu)通用浮點(diǎn)處理器對(duì)浮點(diǎn)計(jì)算任務(wù)有良好的加速效果。
汪楊[7](2020)在《基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)》文中研究表明隨著陣列信號(hào)規(guī)模的急劇擴(kuò)大,數(shù)字信號(hào)系統(tǒng)對(duì)大規(guī)模數(shù)據(jù)運(yùn)算的性能要求不斷提升,實(shí)現(xiàn)一個(gè)高性能的并行計(jì)算系統(tǒng)具有重要的現(xiàn)實(shí)意義和工程價(jià)值。在密集型計(jì)算中,傳統(tǒng)單核處理系統(tǒng)已經(jīng)難以滿(mǎn)足運(yùn)算性能的要求,因此,利用多核技術(shù)和并行算法協(xié)同處理的方法來(lái)實(shí)現(xiàn)密集型計(jì)算是時(shí)代背景下必須解決的課題之一。矩陣運(yùn)算是密集型計(jì)算的核心問(wèn)題之一。本文研究了矩陣運(yùn)算中并行算法和多核系統(tǒng)的關(guān)系,對(duì)多核系統(tǒng)的設(shè)計(jì)方法進(jìn)行了初步探索,并以大維度的矩陣為研究對(duì)象,分析矩陣乘法的并行算法在同構(gòu)多核系統(tǒng)中數(shù)據(jù)的分配、傳輸和運(yùn)算形式,實(shí)現(xiàn)了矩陣乘法在多核系統(tǒng)中的任務(wù)調(diào)度和資源分配,充分發(fā)揮了多核系統(tǒng)的并行計(jì)算能力。論文的主要工作如下:首先分析了多種矩陣乘并行算法,根據(jù)算法的并行度和硬件實(shí)現(xiàn)的可行性選定了基于Systolic陣列算法作為矩陣乘法的并行計(jì)算方法,并對(duì)多核系統(tǒng)的存儲(chǔ)方式、數(shù)據(jù)傳輸以及運(yùn)算方式進(jìn)行抽象模型的搭建。其次根據(jù)矩陣乘并行算法的存儲(chǔ)、通信及運(yùn)算模型設(shè)計(jì)了2D-Mesh NoC同構(gòu)多核系統(tǒng),通過(guò)三層網(wǎng)絡(luò)實(shí)現(xiàn)了系統(tǒng)控制層和數(shù)據(jù)傳輸層的分離,提高了系統(tǒng)整體的通信效率,同時(shí)通過(guò)流、脈動(dòng)、存儲(chǔ)三種運(yùn)算模式使得運(yùn)算系統(tǒng)具有良好的靈活性。最后在有限的帶寬資源和運(yùn)算資源下實(shí)現(xiàn)了不同維度矩陣乘法在NoC多核系統(tǒng)中的算法映射,針對(duì)各個(gè)算法在系統(tǒng)中的運(yùn)算結(jié)果進(jìn)行驗(yàn)證、對(duì)比、分析和總結(jié),并提出了進(jìn)一步的優(yōu)化方向。
張磊磊[8](2020)在《大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證》文中進(jìn)行了進(jìn)一步梳理現(xiàn)代數(shù)字信號(hào)處理技術(shù)所面對(duì)的是大規(guī)模復(fù)雜的實(shí)時(shí)圖像處理、高密度大體量的語(yǔ)音信號(hào)處理、雷達(dá)信號(hào)技術(shù)等數(shù)據(jù)流量頻繁交互的工作場(chǎng)景,每個(gè)領(lǐng)域均對(duì)系統(tǒng)高效率、低延遲的實(shí)時(shí)性處理能力提出要求,且對(duì)于硬件性能提升的需求永不止步;隨著芯片設(shè)計(jì)規(guī)模的不斷增加,設(shè)計(jì)難度不斷提升,所面臨的各種挑戰(zhàn)層出不窮,上市時(shí)間的期限又相對(duì)縮短,在鼓勵(lì)So C設(shè)計(jì)的IP核可集成的同時(shí),大規(guī)模So C不可避免地對(duì)IP復(fù)用性、專(zhuān)業(yè)性和快速集成性提出了更高的要求,這就對(duì)應(yīng)用于各種不同專(zhuān)業(yè)場(chǎng)景的IP內(nèi)核開(kāi)發(fā)帶來(lái)了巨大的需求。快速傅里葉變換作為數(shù)字信號(hào)處理領(lǐng)域里一種不可或缺的處理手段,相比于軟件實(shí)現(xiàn)的方式,專(zhuān)用的硬件加速I(mǎi)P設(shè)計(jì)能夠提高系統(tǒng)的處理效率、降低設(shè)備的功耗、減少系統(tǒng)的延時(shí)等待時(shí)間,因此研究高性能、高精度、低延遲且易于工程快速實(shí)現(xiàn)的FFT加速I(mǎi)P核的工作變得極具市場(chǎng)應(yīng)用價(jià)值。本文首先通過(guò)深入探討目前較為常用地實(shí)現(xiàn)FFT運(yùn)算的各種算法原理和特點(diǎn),針對(duì)經(jīng)典CTA算法的幾種固定基-2n實(shí)現(xiàn)原理進(jìn)行深入分析,總結(jié)了一維固定基-2算法、一維固定基-4算法的各級(jí)運(yùn)算規(guī)律;結(jié)合項(xiàng)目的具體要求,選定CTA算法中的一維固定基-2/8蝶形運(yùn)算作為FFT求解的關(guān)鍵步驟;研究了目前較為常用的FFT運(yùn)算硬件架構(gòu):基于流水線(xiàn)結(jié)構(gòu)、基于存儲(chǔ)器結(jié)構(gòu)以及基于并行、陣列結(jié)構(gòu)等,詳細(xì)分析了一維固定基-2算法SDF/MDC流水結(jié)構(gòu)的運(yùn)算特征;充分考慮加速器運(yùn)算性能、占用資源等因素,選定基于存儲(chǔ)器、地址無(wú)沖突設(shè)計(jì)的硬件復(fù)用結(jié)構(gòu)進(jìn)行實(shí)現(xiàn);然后對(duì)運(yùn)算實(shí)現(xiàn)的關(guān)鍵部分:存儲(chǔ)控制模塊、蝶形運(yùn)算模塊、操作數(shù)/結(jié)果數(shù)地址無(wú)沖突存儲(chǔ)規(guī)律、基于旋轉(zhuǎn)因子壓縮算法的存儲(chǔ)模塊、操作數(shù)/結(jié)果數(shù)/旋轉(zhuǎn)因子的地址生成模塊、IFFT運(yùn)算實(shí)現(xiàn)等原理進(jìn)行了詳細(xì)地設(shè)計(jì)說(shuō)明;最后完成了對(duì)RTL代碼的測(cè)試驗(yàn)證工作:在工作頻率為400Mhz條件下,軟件仿真的結(jié)果表明最大32K點(diǎn)的運(yùn)行時(shí)間為51.63μs,在誤差允許的范圍內(nèi)功能正確;同時(shí)借助FPGA進(jìn)行軟硬件聯(lián)合驗(yàn)證,實(shí)驗(yàn)數(shù)據(jù)表明硬件實(shí)際執(zhí)行周期數(shù)與軟件結(jié)果一致,確保了設(shè)計(jì)結(jié)果的可靠性、準(zhǔn)確性。通過(guò)對(duì)1K、2K、4K、8K、16K、32K點(diǎn)FFT運(yùn)算進(jìn)行可靈活配置的設(shè)計(jì),完全滿(mǎn)足在工作頻率為400MHz條件下,80μs內(nèi)完成一次32K點(diǎn)FFT/IFFT運(yùn)算的要求,為運(yùn)算IP的高效復(fù)用、縮短處理器的研發(fā)周期,幫助解決信號(hào)與信息處理等領(lǐng)域的硬件加速問(wèn)題奠定了基礎(chǔ)。
劉斌[9](2020)在《一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化》文中研究指明近年來(lái),繼理論科學(xué)和實(shí)驗(yàn)科學(xué)之后,高性能計(jì)算成為人類(lèi)科學(xué)研究的第三大范式。浮點(diǎn)矩陣運(yùn)算作為高性能嵌入式系統(tǒng)中的基礎(chǔ)運(yùn)算也備受關(guān)注,因而針對(duì)浮點(diǎn)矩陣運(yùn)算的硬件加速器的設(shè)計(jì)實(shí)現(xiàn)是當(dāng)代高新技術(shù)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。針對(duì)運(yùn)算、訪(fǎng)存和數(shù)據(jù)密集型矩陣運(yùn)算,設(shè)計(jì)專(zhuān)用的ASIC芯片以及對(duì)大型矩陣運(yùn)算進(jìn)行細(xì)顆粒度的運(yùn)算拆分提高資源的利用率是實(shí)現(xiàn)大規(guī)模矩陣運(yùn)算加速的有效方案之一。論文在深入研究了32位RISC通用主處理器及通用浮點(diǎn)運(yùn)算加速器的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器,能夠?qū)崿F(xiàn)滿(mǎn)足IEEE-754標(biāo)準(zhǔn)的單/雙精度浮點(diǎn)矩陣加法、減法、乘法、負(fù)乘、乘加、乘減、負(fù)乘加和負(fù)乘減的運(yùn)算。論文的主要研究工作及成果包含以下幾個(gè)方面:1.設(shè)計(jì)實(shí)現(xiàn)了基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器。其內(nèi)部設(shè)計(jì)了16個(gè)FMAC并發(fā)單元和48個(gè)64位寄存器,FMAC結(jié)構(gòu)排布參考二維矩陣式脈動(dòng)陣列結(jié)構(gòu)并進(jìn)行了結(jié)構(gòu)優(yōu)化,在保留原系統(tǒng)功耗低、響應(yīng)快等特點(diǎn)的基礎(chǔ)上,解決了單一的通用浮點(diǎn)運(yùn)算加速器在取數(shù)據(jù)和執(zhí)行并行度上的瓶頸,向量浮點(diǎn)運(yùn)算加速器有效的解決了數(shù)據(jù)密集型運(yùn)算所面臨的“算力”問(wèn)題。2.專(zhuān)門(mén)開(kāi)辟了向量浮點(diǎn)運(yùn)算加速器與主處理器片內(nèi)SRAM的高位寬快捷訪(fǎng)問(wèn)通道,數(shù)據(jù)直接從片內(nèi)SRAM取;同時(shí)向量浮點(diǎn)運(yùn)算加速器還設(shè)計(jì)了AHB的master接口可以訪(fǎng)問(wèn)總線(xiàn)上的存儲(chǔ)數(shù)據(jù),只有少量的控制指令走協(xié)處理器通道,有效解決了數(shù)據(jù)密集型運(yùn)算所面臨的“數(shù)據(jù)吞吐效率”問(wèn)題。3.根據(jù)向量浮點(diǎn)運(yùn)算加速器的硬件結(jié)構(gòu),借鑒Goto-BLAS函數(shù)庫(kù)的思想,設(shè)計(jì)并優(yōu)化了通用GEMM匯編函數(shù)庫(kù),能夠?qū)崿F(xiàn)對(duì)任意維度矩陣的運(yùn)算拆分。測(cè)試結(jié)果顯示向量浮點(diǎn)運(yùn)算加速器采用匯編函數(shù)庫(kù)實(shí)現(xiàn)浮點(diǎn)矩陣運(yùn)算的性能是采用C語(yǔ)言函數(shù)庫(kù)性能的1044倍;通用浮點(diǎn)運(yùn)算加速器采用匯編函數(shù)庫(kù)實(shí)現(xiàn)浮點(diǎn)矩陣運(yùn)算的性能是采用C語(yǔ)言函數(shù)庫(kù)性能的210倍。4.論文對(duì)單/雙精度浮點(diǎn)矩陣加/減法運(yùn)算、轉(zhuǎn)置運(yùn)算以及乘法運(yùn)算進(jìn)行了詳細(xì)的性能測(cè)試對(duì)比分析,結(jié)果顯示向量浮點(diǎn)運(yùn)算加速器的性能分別是通用浮點(diǎn)運(yùn)算加速器性能的3.13.5倍、2.52.9倍以及6.17.6倍數(shù),實(shí)現(xiàn)了良好的浮點(diǎn)矩陣運(yùn)算加速。5.最后,對(duì)論文設(shè)計(jì)的向量浮點(diǎn)運(yùn)算加速器使用SMIC40nm CMOS工藝庫(kù)進(jìn)行綜合,其綜合的面積為1.1100863088mm2,工作頻率達(dá)到600MHz,總功耗為719.3m W,其浮點(diǎn)矩陣運(yùn)算性能能夠達(dá)到2000MFLOPS以上。
林洪訓(xùn)[10](2020)在《基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究》文中研究表明超聲彈性成像技術(shù)可以定量地計(jì)算組織的運(yùn)動(dòng)場(chǎng),進(jìn)而獲取定量、可視化的病變區(qū)組織彈性信息。超聲彈性成像技術(shù)自從被提出以來(lái)就得到了迅速的發(fā)展,目前超聲彈性成像被廣泛用于人體軟組織病變的診斷,對(duì)人體軟組織癌癥腫瘤等病變的臨床診斷意義重大。組織運(yùn)動(dòng)場(chǎng)的計(jì)算是彈性成像算法的核心,選擇準(zhǔn)確的運(yùn)動(dòng)模型和高并行算法以及高性能的處理平臺(tái)對(duì)組織運(yùn)動(dòng)快速計(jì)算具有十分重要的意義。將仿射運(yùn)動(dòng)模型和光流法結(jié)合,不但從根源上解決了組織運(yùn)動(dòng)描述不精確的問(wèn)題,而且從一定程度上提高了算法的并行性,進(jìn)一步提高了組織運(yùn)動(dòng)估計(jì)的速度。不過(guò),目前上述算法的最大問(wèn)題是在通用的串行處理器上計(jì)算仍然比較耗時(shí),速度慢,其主要原因是每幀超聲回波數(shù)據(jù)量大以及算法涉及大量矩陣運(yùn)算,導(dǎo)致仿射光流算法在軟件串行下運(yùn)算速度下降很快,從而限制了其在實(shí)際系統(tǒng)中的應(yīng)用。通用的串行處理器無(wú)法滿(mǎn)足組織運(yùn)動(dòng)快速計(jì)算的需求。FPGA細(xì)粒度并行、可重構(gòu)的靈活特性,使得基于FPGA的嵌入式應(yīng)用系統(tǒng)被廣泛關(guān)注。首先理論分析,使用前沿的HLS高級(jí)綜合語(yǔ)言設(shè)計(jì)實(shí)現(xiàn)了仿射光流組織運(yùn)動(dòng)計(jì)算硬件加速器;并從軟硬協(xié)同設(shè)計(jì)角度,實(shí)現(xiàn)了基于ZYNQ異構(gòu)加速平臺(tái)的仿射光流硬件加速器的系統(tǒng)級(jí)封裝和測(cè)試,驗(yàn)證了仿射光流IP的移植性和通用性。本文最后通過(guò)綜合實(shí)驗(yàn)可知,當(dāng)處理的兩幀壓縮前后RF數(shù)據(jù)大小為1625*449時(shí),并在選取的壓縮前后ROI塊上做一次仿射光流計(jì)算相比軟件串行,速度提高了一個(gè)數(shù)量級(jí)。通過(guò)系統(tǒng)級(jí)的測(cè)試,整個(gè)組織運(yùn)動(dòng)計(jì)算系統(tǒng)完成所有塊上的仿射光流計(jì)算,從原始數(shù)據(jù)到生成組織位移和應(yīng)變圖像(插值前)的速度比軟件串行提高了4倍。
二、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文開(kāi)題報(bào)告)
(1)論文研究背景及目的
此處內(nèi)容要求:
首先簡(jiǎn)單簡(jiǎn)介論文所研究問(wèn)題的基本概念和背景,再而簡(jiǎn)單明了地指出論文所要研究解決的具體問(wèn)題,并提出你的論文準(zhǔn)備的觀點(diǎn)或解決方法。
寫(xiě)法范例:
本文主要提出一款精簡(jiǎn)64位RISC處理器存儲(chǔ)管理單元結(jié)構(gòu)并詳細(xì)分析其設(shè)計(jì)過(guò)程。在該MMU結(jié)構(gòu)中,TLB采用叁個(gè)分離的TLB,TLB采用基于內(nèi)容查找的相聯(lián)存儲(chǔ)器并行查找,支持粗粒度為64KB和細(xì)粒度為4KB兩種頁(yè)面大小,采用多級(jí)分層頁(yè)表結(jié)構(gòu)映射地址空間,并詳細(xì)論述了四級(jí)頁(yè)表轉(zhuǎn)換過(guò)程,TLB結(jié)構(gòu)組織等。該MMU結(jié)構(gòu)將作為該處理器存儲(chǔ)系統(tǒng)實(shí)現(xiàn)的一個(gè)重要組成部分。
(2)本文研究方法
調(diào)查法:該方法是有目的、有系統(tǒng)的搜集有關(guān)研究對(duì)象的具體信息。
觀察法:用自己的感官和輔助工具直接觀察研究對(duì)象從而得到有關(guān)信息。
實(shí)驗(yàn)法:通過(guò)主支變革、控制研究對(duì)象來(lái)發(fā)現(xiàn)與確認(rèn)事物間的因果關(guān)系。
文獻(xiàn)研究法:通過(guò)調(diào)查文獻(xiàn)來(lái)獲得資料,從而全面的、正確的了解掌握研究方法。
實(shí)證研究法:依據(jù)現(xiàn)有的科學(xué)理論和實(shí)踐的需要提出設(shè)計(jì)。
定性分析法:對(duì)研究對(duì)象進(jìn)行“質(zhì)”的方面的研究,這個(gè)方法需要計(jì)算的數(shù)據(jù)較少。
定量分析法:通過(guò)具體的數(shù)字,使人們對(duì)研究對(duì)象的認(rèn)識(shí)進(jìn)一步精確化。
跨學(xué)科研究法:運(yùn)用多學(xué)科的理論、方法和成果從整體上對(duì)某一課題進(jìn)行研究。
功能分析法:這是社會(huì)科學(xué)用來(lái)分析社會(huì)現(xiàn)象的一種方法,從某一功能出發(fā)研究多個(gè)方面的影響。
模擬法:通過(guò)創(chuàng)設(shè)一個(gè)與原型相似的模型來(lái)間接研究原型某種特性的一種形容方法。
三、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文提綱范文)
(1)基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
§1.1 課題研究背景及意義 |
§1.2 國(guó)內(nèi)外研究現(xiàn)狀及進(jìn)展 |
§1.3 論文的主要內(nèi)容與創(chuàng)新點(diǎn) |
第二章 非線(xiàn)性結(jié)點(diǎn)諧波再輻射模型建模與環(huán)路驗(yàn)證 |
§2.1 非線(xiàn)性目標(biāo)等效模型與諧波再輻射原理分析 |
§2.2 非線(xiàn)性結(jié)點(diǎn)的小信號(hào)模型與簡(jiǎn)化 |
§2.2.1 半導(dǎo)體PN結(jié)的小信號(hào)模型分析與簡(jiǎn)化 |
§2.2.2 金屬結(jié)點(diǎn)的小信號(hào)模型分析 |
§2.3 非線(xiàn)性結(jié)點(diǎn)穩(wěn)態(tài)下的回波仿真模型 |
§2.4 本章小結(jié) |
第三章 諧波雷達(dá)總體設(shè)計(jì)方案 |
§3.1 傳統(tǒng)脈沖壓縮雷達(dá)方案的局限性 |
§3.1.1 脈沖壓縮雷達(dá)在諧波探測(cè)場(chǎng)景下的數(shù)學(xué)建模 |
§3.1.2 脈沖壓縮雷達(dá)在近場(chǎng)探測(cè)時(shí)的局限性分析 |
§3.2 一種新型的近場(chǎng)諧波雷達(dá)設(shè)計(jì)方案 |
§3.2.1 諧波雷達(dá)系統(tǒng)發(fā)射波形設(shè)計(jì) |
§3.2.2 諧波雷達(dá)系統(tǒng)整體設(shè)計(jì) |
§3.3 本章小結(jié) |
第四章 發(fā)射機(jī)子系統(tǒng)設(shè)計(jì)與數(shù)字化實(shí)現(xiàn) |
§4.1 發(fā)射機(jī)子系統(tǒng)總體方案設(shè)計(jì) |
§4.2 波形生成模塊設(shè)計(jì)與實(shí)現(xiàn) |
§4.2.1 CORDIC Mode NCO設(shè)計(jì)與實(shí)現(xiàn) |
§4.2.2 偽隨機(jī)編碼生成器設(shè)計(jì)與實(shí)現(xiàn) |
§4.2.3 無(wú)乘法器的測(cè)試波形生成模塊設(shè)計(jì)與實(shí)現(xiàn) |
§4.2.4 無(wú)乘法器的工作波形生成模塊設(shè)計(jì)與實(shí)現(xiàn) |
§4.3 交互設(shè)計(jì) |
§4.3.1 交互接口設(shè)計(jì) |
§4.3.2 專(zhuān)用寄存器設(shè)計(jì) |
§4.4 驅(qū)動(dòng)設(shè)計(jì) |
§4.4.1 AD9117 時(shí)序優(yōu)化 |
§4.4.2 ADF4351 時(shí)序優(yōu)化 |
§4.5 發(fā)射機(jī)子系統(tǒng)的板級(jí)驗(yàn)證 |
§4.5.1 發(fā)射機(jī)子系統(tǒng)射頻測(cè)試 |
§4.5.2 發(fā)射機(jī)子系統(tǒng)環(huán)路測(cè)試 |
§4.6 本章小結(jié) |
第五章 載波跟蹤、同步子系統(tǒng)環(huán)路建模與數(shù)字化實(shí)現(xiàn) |
§5.1 載波跟蹤、同步子系統(tǒng)總體方案設(shè)計(jì) |
§5.2 載波跟蹤、同步子系統(tǒng)環(huán)路建模與核心參數(shù)計(jì)算 |
§5.3 載波跟蹤、同步子系統(tǒng)核心模塊數(shù)字化實(shí)現(xiàn) |
§5.3.1 基于脈動(dòng)陣列架構(gòu)的相干積分器設(shè)計(jì) |
§5.3.2 環(huán)路濾波器設(shè)計(jì) |
§5.4 載波跟蹤、同步子系統(tǒng)數(shù)字化實(shí)現(xiàn)和測(cè)試 |
§5.5 本章小結(jié) |
第六章 基于脈動(dòng)陣列的目標(biāo)檢測(cè)子系統(tǒng)設(shè)計(jì)與數(shù)字化實(shí)現(xiàn) |
§6.1 目標(biāo)檢測(cè)子系統(tǒng)總體方案設(shè)計(jì) |
§6.1.1 子系統(tǒng)總體設(shè)計(jì)導(dǎo)論 |
§6.1.2 子系統(tǒng)設(shè)計(jì)方案 |
§6.2 基于雙緩沖積分器的抽取濾波器設(shè)計(jì) |
§6.2.1 模塊有效性的理論推導(dǎo)與仿真驗(yàn)證 |
§6.2.2 模塊的數(shù)字化實(shí)現(xiàn) |
§6.2.3 相較傳統(tǒng)的CIC抽取濾波器的優(yōu)勢(shì) |
§6.3 基于復(fù)用型硬件加速網(wǎng)絡(luò)的數(shù)字匹配濾波模塊設(shè)計(jì) |
§6.3.1 二相編碼諧波雷達(dá)匹配濾波器權(quán)系數(shù)序列的理論推導(dǎo) |
§6.3.2 基于復(fù)用型硬件加速網(wǎng)絡(luò)的數(shù)字匹配濾波調(diào)度設(shè)計(jì) |
§6.3.3 本方案相較傳統(tǒng)方案的增益 |
§6.4 基于復(fù)用型硬件加速網(wǎng)絡(luò)和分布式結(jié)構(gòu)的CFAR模塊設(shè)計(jì) |
§6.4.1基于復(fù)用型硬件加速網(wǎng)絡(luò)的CA-CFAR模塊的優(yōu)勢(shì)和設(shè)計(jì)方案 |
§6.4.2基于分布式結(jié)構(gòu)實(shí)現(xiàn)位拓展的CA-CFAR模塊理論推導(dǎo) |
§6.4.3基于復(fù)用型硬件加速網(wǎng)絡(luò)的CA-CFAR矩陣運(yùn)算調(diào)度設(shè)計(jì) |
§6.4.4 CA-CFAR獨(dú)占子模塊的數(shù)字化實(shí)現(xiàn) |
§6.5 基于脈動(dòng)陣列的512 階全流水復(fù)用型硬件加速網(wǎng)絡(luò)設(shè)計(jì)和實(shí)現(xiàn) |
§6.5.1 復(fù)用型硬件加速網(wǎng)絡(luò)胞元結(jié)構(gòu)設(shè)計(jì) |
§6.5.2 復(fù)用型硬件加速網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) |
§6.5.3 復(fù)用型硬件加速網(wǎng)絡(luò)數(shù)據(jù)交互設(shè)計(jì) |
§6.6 基于復(fù)用型硬件加速網(wǎng)絡(luò)的目標(biāo)檢測(cè)子系統(tǒng)數(shù)字化實(shí)現(xiàn)與測(cè)試 |
§6.6.1 目標(biāo)檢測(cè)子系統(tǒng)狀態(tài)機(jī)設(shè)計(jì) |
§6.6.2 目標(biāo)檢測(cè)子系統(tǒng)測(cè)試和結(jié)果分析 |
§6.7 本章小結(jié) |
第七章 載波測(cè)距子系統(tǒng)建模與數(shù)字化實(shí)現(xiàn) |
§7.1 載波測(cè)距子系統(tǒng)總體方案設(shè)計(jì) |
§7.2 載波測(cè)距子系統(tǒng)的數(shù)學(xué)建模 |
§7.3 載波測(cè)距子系統(tǒng)的數(shù)字化實(shí)現(xiàn) |
§7.3.1基于CORDIC算法的高精度二象限鑒相器設(shè)計(jì) |
§7.3.2 載波測(cè)距子系統(tǒng)頂層模塊設(shè)計(jì)和測(cè)試 |
§7.4 本章小結(jié) |
第八章 工作總結(jié)與展望 |
§8.1 工作總結(jié) |
§8.2 展望 |
致謝 |
攻讀碩士期間主要研究成果 |
參考文獻(xiàn) |
附錄 |
(2)高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.2 研究現(xiàn)狀 |
1.3 課題來(lái)源 |
1.4 主要工作內(nèi)容 |
1.5 論文結(jié)構(gòu) |
第二章 矩陣求逆介紹 |
2.1 矩陣求逆運(yùn)算 |
2.1.1 矩陣求逆方法介紹 |
2.1.2 矩陣求逆方法對(duì)比 |
2.1.3 三角矩陣求逆方法 |
2.2 矩陣求逆算法優(yōu)化 |
2.2.1 基于CGR(Column-wise Givens Rotation)翻轉(zhuǎn)的QR算法 |
2.2.2 上三角矩陣求逆算法優(yōu)化 |
2.2.3 矩陣乘優(yōu)化 |
2.2.4 優(yōu)化分析 |
2.3 線(xiàn)性矩陣求逆分析 |
2.3.1 線(xiàn)性矩陣分析 |
2.4 本章小結(jié) |
第三章 高速高精度矩陣求逆器的硬件實(shí)現(xiàn) |
3.1 矩陣求逆器硬件實(shí)現(xiàn)介紹 |
3.2 矩陣求逆器的硬件架構(gòu)和工作流程 |
3.2.1 硬件架構(gòu) |
3.2.2 矩陣求逆器的工作流程 |
3.3 控制邏輯單元設(shè)計(jì) |
3.4 不可逆矩陣判斷單元設(shè)計(jì) |
3.4.1 線(xiàn)性矩陣判斷 |
3.5 CGR分解單元設(shè)計(jì) |
3.5.1 細(xì)粒度并行結(jié)構(gòu)介紹 |
3.5.2 基于Givens-QRD算法的二維脈動(dòng)陣列分解結(jié)構(gòu)介紹 |
3.5.3 基于CGR-RD算法的一維分解結(jié)構(gòu)介紹 |
3.6 矩陣乘和三角矩陣求逆設(shè)計(jì) |
3.7 存儲(chǔ)單元及存儲(chǔ)規(guī)則設(shè)計(jì) |
3.8 地址生成單元及地址規(guī)則設(shè)計(jì) |
3.8.1 源矩陣存儲(chǔ)地址規(guī)則 |
3.8.2 CGR-QR分解地址規(guī)則 |
3.8.3 上三角矩陣求逆地址規(guī)則 |
3.8.4 矩陣陣乘地址規(guī)則 |
3.9 交叉開(kāi)關(guān)設(shè)計(jì) |
第四章 矩陣求逆器的驗(yàn)證與性能分析 |
4.1 驗(yàn)證方案 |
4.2 MATLAB算法驗(yàn)證 |
4.3 UVM驗(yàn)證 |
4.3.1 UVM簡(jiǎn)介 |
4.3.2 驗(yàn)證平臺(tái)框架 |
4.3.3 驗(yàn)證平臺(tái)搭建 |
4.3.4 代碼覆蓋率收集 |
4.4 硬件驗(yàn)證 |
4.4.1 ASIC驗(yàn)證版圖 |
4.4.2 硬件資源分析 |
4.4.3 不可逆矩陣測(cè)試 |
4.4.4 誤差分析 |
4.4.5 運(yùn)算周期分析 |
4.5 性能分析 |
4.6 本章小結(jié) |
第五章 總結(jié)與展望 |
5.1 總結(jié) |
5.2 展望 |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況 |
(3)邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)(論文提綱范文)
摘要 |
abstract |
符號(hào)說(shuō)明 |
第1章 緒論 |
1.1 研究背景及意義 |
1.1.1 邊緣計(jì)算的發(fā)展概述 |
1.1.2 邊緣計(jì)算的研究?jī)r(jià)值 |
1.1.3 邊緣計(jì)算中的人機(jī)交互系統(tǒng)面臨的挑戰(zhàn) |
1.1.4 論文的研究方法 |
1.2 關(guān)鍵技術(shù)及研究現(xiàn)狀 |
1.2.1 圖形運(yùn)算加速技術(shù) |
1.2.2 緩存壓縮技術(shù) |
1.2.3 容錯(cuò)技術(shù) |
1.3 本文研究成果及文章結(jié)構(gòu) |
第2章 面向邊緣計(jì)算的圖形處理技術(shù)研究 |
2.1 相關(guān)技術(shù)概述 |
2.1.1 基于嵌入式CPU的圖形繪制技術(shù) |
2.1.2 移動(dòng)GPU的圖形繪制流水線(xiàn)概述 |
2.1.3 IMR與TBR渲染模式 |
2.1.4 降低圖形運(yùn)算功耗的研究 |
2.2 面向邊緣計(jì)算的圖形處理算法研究 |
2.2.1 邊緣計(jì)算圖形化界面需求分析 |
2.2.2 面向邊緣計(jì)算的圖形處理流水線(xiàn)設(shè)計(jì) |
2.2.3 模型描述 |
2.2.4 頂點(diǎn)處理流程 |
2.2.5 像素著色流程 |
2.3 面向邊緣計(jì)算的圖形處理IP核設(shè)計(jì) |
2.3.1 流水線(xiàn)瓶頸分析 |
2.3.2 基于TBR的GPU整體架構(gòu)設(shè)計(jì) |
2.3.3 頂點(diǎn)處理器架構(gòu)設(shè)計(jì) |
2.3.4 像素著色引擎架構(gòu)設(shè)計(jì) |
2.4 實(shí)驗(yàn)結(jié)果與分析 |
2.4.1 軟件模型與流水線(xiàn)測(cè)試 |
2.4.2 IP綜合與分析 |
2.5 本章小結(jié) |
第3章 幀緩存壓縮技術(shù)研究 |
3.1 相關(guān)技術(shù)概述 |
3.1.1 無(wú)損幀緩存壓縮技術(shù) |
3.1.2 GPU系統(tǒng)中幀緩存壓縮需求 |
3.1.3 基于塊的紋理壓縮技術(shù) |
3.1.4 基于頻域的壓縮技術(shù) |
3.2 實(shí)時(shí)幀緩存壓縮算法研究 |
3.2.1 場(chǎng)景分析 |
3.2.2 算法設(shè)計(jì) |
3.3 幀緩存壓縮IP核設(shè)計(jì) |
3.3.1 幀緩存壓縮器整體設(shè)計(jì) |
3.3.2 子模塊設(shè)計(jì) |
3.4 實(shí)驗(yàn)結(jié)果與分析 |
3.4.1 壓縮算法評(píng)估 |
3.4.2 帶寬壓縮及性能提升 |
3.4.3 功耗評(píng)估 |
3.4.4 IP綜合及評(píng)估 |
3.5 本章小結(jié) |
第4章 脈動(dòng)陣列容錯(cuò)技術(shù)研究 |
4.1 面向脈動(dòng)陣列的容錯(cuò)技術(shù)研究現(xiàn)狀 |
4.1.1 面向硬錯(cuò)誤的容錯(cuò)架構(gòu) |
4.1.2 面向軟錯(cuò)誤的容錯(cuò)架構(gòu) |
4.2 脈動(dòng)陣列容錯(cuò)架構(gòu)設(shè)計(jì) |
4.2.1 背景描述 |
4.2.2 容錯(cuò)算法 |
4.2.3 容錯(cuò)架構(gòu)設(shè)計(jì) |
4.2.4 系統(tǒng)分塊冗余架構(gòu)設(shè)計(jì) |
4.3 實(shí)驗(yàn)結(jié)果與分析 |
4.3.1 實(shí)驗(yàn)方法 |
4.3.2 錯(cuò)誤恢復(fù)率 |
4.3.3 額外面積消耗 |
4.4 本章小結(jié) |
第5章 面向邊緣計(jì)算的高能效顯示芯片系統(tǒng)的研究與設(shè)計(jì) |
5.1 顯示芯片中微處理器指令集研究 |
5.1.1 微處理器指令集概述 |
5.1.2 指令集選擇的研究 |
5.1.3 指令集擴(kuò)展的研究 |
5.1.4 RISC-V處理器IP核設(shè)計(jì) |
5.2 顯示芯片存儲(chǔ)系統(tǒng)架構(gòu)研究 |
5.2.1 邊緣計(jì)算中數(shù)據(jù)處理瓶頸分析 |
5.2.2 分層存儲(chǔ)系統(tǒng)架構(gòu)設(shè)計(jì) |
5.3 顯示芯片總線(xiàn)系統(tǒng)架構(gòu)研究 |
5.3.1 片上總線(xiàn)概述 |
5.3.2 設(shè)備互聯(lián)與仲裁研究 |
5.3.3 系統(tǒng)互聯(lián)架構(gòu)設(shè)計(jì) |
5.4 顯示芯片整體系統(tǒng)架構(gòu)設(shè)計(jì) |
5.5 本章小結(jié) |
第6章 面向邊緣計(jì)算的高能效顯示芯片的實(shí)現(xiàn)與驗(yàn)證 |
6.1 顯示芯片低功耗設(shè)計(jì) |
6.1.1 功耗來(lái)源分析 |
6.1.2 門(mén)控時(shí)鐘 |
6.1.3 多電壓設(shè)計(jì) |
6.2 顯示芯片綜合與實(shí)現(xiàn) |
6.2.1 邏輯綜合 |
6.2.2 后端設(shè)計(jì)及流片 |
6.3 顯示芯片的測(cè)試與驗(yàn)證 |
6.3.1 綜合及版圖設(shè)計(jì) |
6.3.2 測(cè)試平臺(tái)介紹 |
6.3.3 邊緣計(jì)算場(chǎng)景測(cè)試 |
6.3.4 顯示芯片性能測(cè)試 |
6.3.5 性能對(duì)比 |
6.4 本章小結(jié) |
第7章 總結(jié)與展望 |
7.1 總結(jié) |
7.2 展望 |
參考文獻(xiàn) |
致謝 |
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果 |
(4)面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景 |
1.2 相關(guān)研究 |
1.2.1 新興異構(gòu)系統(tǒng)結(jié)構(gòu) |
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)及其加速方法相關(guān)研究 |
1.2.3 圖神經(jīng)網(wǎng)絡(luò)研究 |
1.2.4 高級(jí)綜合工具 |
1.3 本文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn) |
1.4 論文組織結(jié)構(gòu) |
第二章 面向二維/三維卷積神經(jīng)網(wǎng)絡(luò)的可重構(gòu)模板化加速器研究 |
2.1 引言 |
2.2 三維卷積神經(jīng)網(wǎng)絡(luò)算法分析 |
2.3 Winograd算法擴(kuò)展 |
2.4 模板化設(shè)計(jì)方法 |
2.4.1 算法考量 |
2.4.2 提取公共算子 |
2.4.3 可重構(gòu)模板設(shè)計(jì) |
2.4.4 模板化加速器 |
2.4.5 基于高級(jí)綜合工具的優(yōu)化方法 |
2.5 加速器設(shè)計(jì)空間探索 |
2.5.1 天花板模型 |
2.5.2 性能模型 |
2.5.3 資源模型 |
2.6 實(shí)驗(yàn)評(píng)估 |
2.6.1 實(shí)驗(yàn)設(shè)置 |
2.6.2 評(píng)估結(jié)果 |
2.7 相關(guān)工作 |
2.8 本章小節(jié) |
第三章 支持全網(wǎng)絡(luò)并行加速的多加速器流水線(xiàn)設(shè)計(jì) |
3.1 引言 |
3.2 神經(jīng)網(wǎng)絡(luò)加速器工作方式 |
3.3 層融合技術(shù)概述 |
3.4 網(wǎng)絡(luò)映射方案 |
3.4.1 CNN網(wǎng)絡(luò)層間數(shù)據(jù)重用方式分析 |
3.4.2 融合層的確定算法 |
3.4.3 網(wǎng)絡(luò)層聚類(lèi) |
3.4.4 負(fù)載均衡調(diào)度方案 |
3.5 加速器設(shè)計(jì)空間探索 |
3.5.1 性能模型 |
3.5.2 資源模型 |
3.6 實(shí)驗(yàn)評(píng)估 |
3.6.1 實(shí)驗(yàn)設(shè)置 |
3.6.2 性能分析 |
3.6.3 相關(guān)工作 |
3.7 本章小節(jié) |
第四章 基于CPU-FPGA異構(gòu)平臺(tái)的醫(yī)療影像識(shí)別加速方案 |
4.1 引言 |
4.2 肺結(jié)節(jié)檢測(cè) |
4.2.1 算法概述 |
4.2.2 算法分析 |
4.3 稀疏三維Winograd算法 |
4.4 CPU-多 FPGA異構(gòu)并行加速系統(tǒng) |
4.4.1 系統(tǒng)總覽 |
4.4.2 三維反卷積層加速器 |
4.4.3 網(wǎng)絡(luò)接口模塊 |
4.4.4 網(wǎng)絡(luò)模型映射方案 |
4.4.5 節(jié)點(diǎn)通信優(yōu)化 |
4.5 實(shí)驗(yàn)評(píng)估 |
4.5.1 實(shí)驗(yàn)設(shè)置 |
4.5.2 實(shí)驗(yàn)結(jié)果 |
4.6 相關(guān)工作 |
4.7 本章小節(jié) |
第五章 面向深度圖卷積神經(jīng)網(wǎng)絡(luò)的分布式并行加速研究 |
5.1 引言 |
5.2 圖卷積神經(jīng)網(wǎng)絡(luò)變體模型 |
5.2.1 圖卷積神經(jīng)網(wǎng)絡(luò)的稀疏性分析 |
5.2.2 網(wǎng)絡(luò)精度與網(wǎng)絡(luò)深度的關(guān)系 |
5.3 稀疏矩陣壓縮方法 |
5.4 矩陣乘并行分塊算法 |
5.5 分布式并行加速方案 |
5.5.1 系統(tǒng)結(jié)構(gòu) |
5.5.2 深度圖卷積神經(jīng)網(wǎng)絡(luò)映射方案 |
5.5.3 圖卷積神經(jīng)網(wǎng)絡(luò)加速器 |
5.6 系統(tǒng)性能與資源評(píng)估 |
5.6.1 性能模型 |
5.6.2 資源模型 |
5.7 實(shí)驗(yàn)評(píng)測(cè) |
5.7.1 實(shí)驗(yàn)設(shè)置 |
5.7.2 性能分析 |
5.8 相關(guān)工作 |
5.9 本章小節(jié) |
第六章 工作總結(jié)與未來(lái)展望 |
6.1 工作總結(jié) |
6.2 未來(lái)展望 |
致謝 |
參考文獻(xiàn) |
作者在學(xué)期間取得的學(xué)術(shù)成果 |
(5)高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.2 研究現(xiàn)狀 |
1.3 主要工作內(nèi)容 |
1.4 課題來(lái)源 |
1.5 論文結(jié)構(gòu) |
第二章 矩陣運(yùn)算介紹 |
2.1 矩陣運(yùn)算算法分析 |
2.2 矩陣求逆運(yùn)算 |
2.2.1 矩陣求逆方法介紹 |
2.2.2 矩陣分解算法分析 |
2.2.3 三角矩陣求逆 |
2.3 非求逆矩陣運(yùn)算 |
2.3.1 線(xiàn)性矩陣運(yùn)算 |
2.3.2 矩陣陣乘 |
2.3.3 矩陣轉(zhuǎn)置 |
2.4 矩陣運(yùn)算算法優(yōu)化 |
2.4.1 基于原位存儲(chǔ)的混合粒度并行Givens-QR分解算法 |
2.4.2 三角矩陣的分塊遞推求逆 |
2.4.3 其余矩陣運(yùn)算優(yōu)化 |
2.4.4 優(yōu)化算法分析 |
2.5 本章小結(jié) |
第三章 矩陣運(yùn)算器的硬件設(shè)計(jì)與實(shí)現(xiàn) |
3.1 矩陣運(yùn)算器硬件實(shí)現(xiàn)設(shè)計(jì) |
3.2 矩陣運(yùn)算器的硬件架構(gòu)與工作流程 |
3.2.1 矩陣運(yùn)算器的硬件架構(gòu) |
3.2.2 矩陣運(yùn)算器的工作流程 |
3.3 控制邏輯單元設(shè)計(jì) |
3.4 可重構(gòu)運(yùn)算單元設(shè)計(jì) |
3.4.1 Givens-QR分解運(yùn)算單元設(shè)計(jì) |
3.4.2 三角矩陣求逆及矩陣陣乘運(yùn)算單元設(shè)計(jì) |
3.4.3 其余矩陣運(yùn)算計(jì)算單元設(shè)計(jì) |
3.5 存儲(chǔ)單元及存儲(chǔ)規(guī)則設(shè)計(jì) |
3.6 地址生成單元及尋址規(guī)則設(shè)計(jì) |
3.6.1 源矩陣存儲(chǔ)地址跳變規(guī)則 |
3.6.2 Givens-QR分解地址跳變規(guī)則 |
3.6.3 上三角矩陣求逆地址跳變規(guī)則 |
3.6.4 矩陣陣乘地址跳變規(guī)則 |
3.6.5 其余矩陣運(yùn)算地址規(guī)則 |
3.7 交叉開(kāi)關(guān)設(shè)計(jì) |
3.8 外部接口設(shè)計(jì) |
3.8.1 AXI接口設(shè)計(jì) |
3.8.2 AXI配置信息 |
3.9 本章小結(jié) |
第四章 矩陣運(yùn)算加速器的驗(yàn)證與性能分析 |
4.1 驗(yàn)證方案 |
4.2 Matlab模型驗(yàn)證 |
4.3 硬件驗(yàn)證 |
4.3.1 驗(yàn)證流程以及ASIC版圖 |
4.3.2 資源占用分析 |
4.3.3 運(yùn)算誤差分析 |
4.3.4 運(yùn)算周期分析 |
4.4 性能分析 |
4.5 本章小結(jié) |
第五章 總結(jié)與展望 |
5.1 總結(jié) |
5.2 展望 |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況 |
(6)基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.1.1 可重構(gòu)計(jì)算 |
1.1.2 SystemC事務(wù)級(jí)建模 |
1.2 研究現(xiàn)狀 |
1.3 課題來(lái)源 |
1.4 論文主要研究?jī)?nèi)容及組織結(jié)構(gòu) |
第二章 粗粒度可重構(gòu)系統(tǒng)總體方案 |
2.1 典型粗粒度可重構(gòu)系統(tǒng)結(jié)構(gòu) |
2.1.1 Morpho Sys結(jié)構(gòu)介紹 |
2.1.2 HARTMP結(jié)構(gòu)介紹 |
2.2 SystemC事務(wù)級(jí)建模相關(guān)機(jī)制 |
2.2.1 SystemC |
2.2.2TLM2.0 |
2.3 總體模型設(shè)計(jì)方案 |
2.3.1 硬件結(jié)構(gòu) |
2.3.2 任務(wù)調(diào)度方案 |
2.4 本章小結(jié) |
第三章 SoC系統(tǒng)平臺(tái)建模 |
3.1 SoC系統(tǒng)平臺(tái)的硬件部分 |
3.1.1 RISC-V內(nèi)核 |
3.1.2 總線(xiàn) |
3.1.3 中斷控制器 |
3.1.4 外設(shè)適配接口 |
3.2 SoC系統(tǒng)平臺(tái)的軟件部分 |
3.2.1 系統(tǒng)調(diào)用的實(shí)現(xiàn) |
3.2.2 中斷和軟硬件交互 |
3.3 本章小結(jié) |
第四章 RFU可重構(gòu)硬件子系統(tǒng)建模 |
4.1 整數(shù)和浮點(diǎn)數(shù)可重構(gòu)陣列的比較 |
4.2 RFU設(shè)計(jì) |
4.2.1 重構(gòu)控制器 |
4.2.2 數(shù)據(jù)加載單元 |
4.2.3 互聯(lián)單元 |
4.2.4 計(jì)算單元 |
4.3 RFU動(dòng)態(tài)調(diào)度過(guò)程 |
4.4 本章小結(jié) |
第五章 可重構(gòu)系統(tǒng)性能仿真與測(cè)試 |
5.1 SoC系統(tǒng)平臺(tái)性能測(cè)試 |
5.1.1 實(shí)驗(yàn)結(jié)果與性能分析 |
5.2 點(diǎn)積實(shí)驗(yàn) |
5.2.1 參數(shù)設(shè)置 |
5.2.2 任務(wù)流程和軟件編程 |
5.2.3 實(shí)驗(yàn)結(jié)果與性能分析 |
5.3 矩陣乘法實(shí)驗(yàn) |
5.3.1 算法映射方案 |
5.3.2 實(shí)驗(yàn)結(jié)果與性能分析 |
5.4 實(shí)對(duì)稱(chēng)矩陣特征分解實(shí)驗(yàn) |
5.4.1 算法介紹 |
5.4.2 實(shí)驗(yàn)結(jié)果與性能分析 |
5.5 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
參考文獻(xiàn) |
附錄1 |
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況 |
(7)基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 NoC相關(guān)研究 |
1.2 NoC通信協(xié)議 |
1.2.1 路由算法 |
1.2.2 交換機(jī)制 |
1.3 NoC映射問(wèn)題 |
1.4 同構(gòu)多核系統(tǒng)及優(yōu)勢(shì) |
1.5 本文課題來(lái)源 |
1.6 本文工作及論文結(jié)構(gòu)安排 |
第二章 同構(gòu)多核在并行計(jì)算中應(yīng)用概述 |
2.1 矩陣計(jì)算的應(yīng)用 |
2.2 并行算法 |
2.2.1 并行算法的概念和類(lèi)別 |
2.2.2 并行算法的發(fā)展 |
2.2.3 并行算法的基本設(shè)計(jì)方法及性能度量 |
2.3 多核系統(tǒng)在矩陣乘法中的應(yīng)用 |
2.4 矩陣乘法的簡(jiǎn)述 |
2.5 本章小結(jié) |
第三章 面向矩陣乘法的MPSOC硬件設(shè)計(jì) |
3.1 矩陣乘運(yùn)算方法 |
3.1.1 矩陣乘并行算法 |
3.1.2 并行分塊矩陣 |
3.2 矩陣乘法硬件架構(gòu) |
3.2.1 存儲(chǔ)方式 |
3.2.2 數(shù)據(jù)交互 |
3.2.3 運(yùn)算模式 |
3.2.4 結(jié)構(gòu)擴(kuò)展 |
3.3 本章小結(jié) |
第四章 NoC同構(gòu)多核系統(tǒng)設(shè)計(jì) |
4.1 NoC系統(tǒng)概述 |
4.2 NoC同構(gòu)多核系統(tǒng)設(shè)計(jì) |
4.2.1 主控制器 |
4.2.2 存儲(chǔ)單元 |
4.2.3 片上網(wǎng)絡(luò) |
4.2.4 可重構(gòu)計(jì)算單元(RCU) |
4.3 本章小結(jié) |
第五章 基于NoC多核系統(tǒng)的矩陣乘法映射 |
5.1 工作目的及思路 |
5.2 矩陣乘法的映射 |
5.2.1 基于I/O帶寬結(jié)構(gòu) |
5.2.2 基于運(yùn)算資源結(jié)構(gòu) |
5.3 實(shí)驗(yàn)環(huán)境及流程 |
5.4 實(shí)驗(yàn)結(jié)果和性能分析 |
5.4.1 資源占用分析 |
5.4.2 系統(tǒng)運(yùn)算性能分析 |
5.4.3 I/O帶寬的影響 |
5.4.4 運(yùn)算資源的影響 |
5.5 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況 |
(8)大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證(論文提綱范文)
摘要 |
ABSTRACT |
符號(hào)對(duì)照表 |
縮略語(yǔ)對(duì)照表 |
第一章 緒論 |
1.1 研究背景與意義 |
1.2 國(guó)內(nèi)外研究現(xiàn)狀 |
1.2.1 FFT算法分析 |
1.2.2 硬件加速設(shè)計(jì)結(jié)構(gòu) |
1.3 論文工作與結(jié)構(gòu)安排 |
1.3.1 本文主要工作 |
1.3.2 論文結(jié)構(gòu)安排 |
第二章 FFT運(yùn)算理論分析 |
2.1 常用的FFT算法 |
2.1.1 一維固定基-2FFT算法 |
2.1.2 二維固定基-2FFT算法 |
2.1.3 一維固定基-4FFT算法 |
2.1.4 分裂基FFT算法 |
2.1.5 一維固定基-8算法原理 |
2.2 常用的FFT運(yùn)算處理架構(gòu) |
2.2.1 基于流水線(xiàn)結(jié)構(gòu) |
2.2.2 基于存儲(chǔ)器結(jié)構(gòu) |
2.2.3 其他常用的FFT結(jié)構(gòu) |
2.3 逆IFFT變換 |
2.4 方案分析與確定 |
2.5 IEEE754標(biāo)準(zhǔn)簡(jiǎn)介 |
2.6 本章小結(jié) |
第三章 FFT運(yùn)算的設(shè)計(jì)實(shí)現(xiàn) |
3.1 存儲(chǔ)單元設(shè)計(jì) |
3.2 蝶形運(yùn)算單元設(shè)計(jì) |
3.3 旋轉(zhuǎn)因子生成設(shè)計(jì) |
3.4 存儲(chǔ)管理單元設(shè)計(jì) |
3.5 地址無(wú)沖突生成設(shè)計(jì) |
3.5.1 基-2地址無(wú)沖突設(shè)計(jì) |
3.5.2 基-8地址無(wú)沖突設(shè)計(jì) |
3.6 地址產(chǎn)生模塊設(shè)計(jì) |
3.7 本章小結(jié) |
第四章 FFT運(yùn)算的驗(yàn)證分析 |
4.1 軟件仿真驗(yàn)證 |
4.2 AXI總線(xiàn)接口 |
4.2.1 AXI簡(jiǎn)介 |
4.2.2 基于AXI的 FFT運(yùn)算數(shù)據(jù)交互 |
4.3 FPGA測(cè)試 |
4.3.1 FPGA測(cè)試平臺(tái) |
4.3.2 FPGA測(cè)試流程 |
4.4 軟硬件測(cè)試結(jié)果分析 |
4.5 本章小結(jié) |
第五章 總結(jié)與展望 |
5.1 工作總結(jié) |
5.2 未來(lái)展望 |
參考文獻(xiàn) |
致謝 |
作者簡(jiǎn)介 |
(9)一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化(論文提綱范文)
摘要 |
ABSTRACT |
符號(hào)對(duì)照表 |
縮略語(yǔ)對(duì)照表 |
第一章 緒論 |
1.1 研究背景及意義 |
1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀 |
1.3 本文的主要研究?jī)?nèi)容及章節(jié)安排 |
第二章 浮點(diǎn)運(yùn)算與通用矩陣乘法原理 |
2.1 IEEE-754標(biāo)準(zhǔn)簡(jiǎn)介 |
2.1.1 浮點(diǎn)數(shù)編碼格式 |
2.1.2 浮點(diǎn)數(shù)舍入模式 |
2.1.3 浮點(diǎn)數(shù)異常處理 |
2.2 浮點(diǎn)數(shù)運(yùn)算流程 |
2.2.1 浮點(diǎn)數(shù)加/減法運(yùn)算 |
2.2.2 浮點(diǎn)數(shù)乘法運(yùn)算 |
2.2.3 浮點(diǎn)數(shù)乘加運(yùn)算 |
2.3 通用矩陣乘法 |
2.3.1 GEMM優(yōu)化策略 |
2.3.2 SIMD技術(shù) |
2.4 本章小結(jié) |
第三章 向量浮點(diǎn)運(yùn)算加速器的硬件結(jié)構(gòu)設(shè)計(jì) |
3.1 通用浮點(diǎn)運(yùn)算加速器 |
3.2 基于RISC+SIMD架構(gòu)的向量浮點(diǎn)運(yùn)算加速器設(shè)計(jì) |
3.2.1 向量浮點(diǎn)運(yùn)算加速器詳細(xì)設(shè)計(jì) |
3.2.2 向量浮點(diǎn)運(yùn)算加速器控制模塊設(shè)計(jì) |
3.2.3 RegFile模塊設(shè)計(jì) |
3.2.4 Functional Unit模塊設(shè)計(jì) |
3.2.5 片內(nèi)SRAM與Reg File的數(shù)據(jù)交互 |
3.2.6 AHB與Reg File的數(shù)據(jù)交互 |
3.3 指令格式及接口時(shí)序 |
3.3.1 AHB總線(xiàn)接口時(shí)序 |
3.3.2 MCR及MRC指令格式及接口時(shí)序 |
3.3.3 LDC/STC指令格式及接口時(shí)序 |
3.3.4 CDP指令格式及接口時(shí)序 |
3.4 異常處理 |
3.5 本章小結(jié) |
第四章 基于Goto-BLAS的通用矩陣匯編函數(shù)庫(kù)設(shè)計(jì) |
4.1 通用矩陣分塊方案 |
4.2 GEMM函數(shù)庫(kù)基本運(yùn)算體設(shè)計(jì) |
4.3 通用匯編函數(shù)庫(kù)優(yōu)化 |
4.4 本章小結(jié) |
第五章 性能測(cè)試分析與綜合 |
5.1 測(cè)試平臺(tái)設(shè)計(jì) |
5.2 性能測(cè)試及分析 |
5.2.1 矩陣加法與矩陣減法運(yùn)算性能測(cè)試 |
5.2.2 矩陣轉(zhuǎn)置運(yùn)算性能測(cè)試 |
5.2.3 矩陣乘法運(yùn)算性能測(cè)試 |
5.3 綜合及分析 |
5.4 本章小結(jié) |
第六章 總結(jié)及展望 |
6.1 工作總結(jié) |
6.2 研究展望 |
參考文獻(xiàn) |
致謝 |
作者簡(jiǎn)介 |
(10)基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景與意義 |
1.2 國(guó)內(nèi)外研究現(xiàn)狀 |
1.3 本文研究?jī)?nèi)容 |
1.4 本文組織結(jié)構(gòu) |
第二章 基于仿射模型的光流超聲彈性成像算法分析 |
2.1 光流法的理論模型 |
2.1.1 光流法基本等式 |
2.1.2 全局約束(Horn-Schunck算法) |
2.1.3 局部約束(Lucas-Kanade算法) |
2.2 仿射運(yùn)動(dòng)模型 |
2.3 基于仿射模型的光流法 |
2.4 大位移光流計(jì)算的技術(shù)策略 |
2.4.1 多尺度分層細(xì)化策略 |
2.4.2 先驗(yàn)估計(jì) |
第三章 基于FPGA仿射光流計(jì)算硬件設(shè)計(jì) |
3.1 仿射光流法計(jì)算組織運(yùn)動(dòng)的工作流程 |
3.1.1 梯度計(jì)算階段(s1) |
3.1.2 參數(shù)矩陣構(gòu)造階段(s2) |
3.1.3 運(yùn)動(dòng)張量計(jì)算階段(s3) |
3.2 通用模塊的硬件設(shè)計(jì) |
3.2.1 卷積加速器 |
3.2.2 矩陣乘法加速器 |
3.2.3 矩陣求逆加速器 |
3.3 AXI接口協(xié)議 |
3.3.1 AXI4.0 |
3.3.2 AXI Interconnect模式 |
3.4 數(shù)據(jù)通路設(shè)計(jì) |
3.5 控制通路設(shè)計(jì) |
第四章 基于FPGA加速的仿射光流組織運(yùn)動(dòng)快速計(jì)算系統(tǒng)軟硬協(xié)同實(shí)現(xiàn) |
4.1 基于ZYNQ仿射光流組織運(yùn)動(dòng)快速計(jì)算系統(tǒng)硬件設(shè)計(jì) |
4.2 仿射光流組織運(yùn)動(dòng)計(jì)算軟件系統(tǒng)SDK軟件設(shè)計(jì)與實(shí)現(xiàn) |
第五章 綜合實(shí)驗(yàn)與結(jié)果分析 |
5.1 仿射光流IP的性能優(yōu)化與評(píng)估 |
5.1.1 時(shí)延和吞吐量 |
5.1.2 資源利用率 |
5.2 系統(tǒng)性能評(píng)估 |
5.2.1 執(zhí)行時(shí)間 |
5.2.2 成像效果 |
5.2.3 資源消耗和能耗情況 |
第六章 總結(jié)與展望 |
本研究的創(chuàng)新型自我評(píng)價(jià) |
參考文獻(xiàn) |
綜述 |
參考文獻(xiàn) |
攻讀學(xué)位期間取得的研究成果 |
致謝 |
個(gè)人簡(jiǎn)歷 |
四、基于流水光總線(xiàn)陣列的快速矩陣運(yùn)算(論文參考文獻(xiàn))
- [1]基于載波測(cè)距與脈沖壓縮技術(shù)的偽隨機(jī)編碼諧波雷達(dá)設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳晟. 桂林電子科技大學(xué), 2021(02)
- [2]高速高精度矩陣求逆器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳文杰. 合肥工業(yè)大學(xué), 2021(02)
- [3]邊緣計(jì)算環(huán)境中低時(shí)延高可信顯示芯片的研究與設(shè)計(jì)[D]. 周鈺致. 中國(guó)科學(xué)技術(shù)大學(xué), 2020(01)
- [4]面向大數(shù)據(jù)處理的異構(gòu)融合可重構(gòu)數(shù)據(jù)流加速器研究[D]. 沈俊忠. 國(guó)防科技大學(xué), 2020(01)
- [5]高速高精度矩陣運(yùn)算器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 邱俊豪. 合肥工業(yè)大學(xué), 2020
- [6]基于SystemC的粗粒度可重構(gòu)通用浮點(diǎn)處理器設(shè)計(jì)[D]. 余振波. 合肥工業(yè)大學(xué), 2020(02)
- [7]基于NoC多核系統(tǒng)的矩陣乘法實(shí)現(xiàn)[D]. 汪楊. 合肥工業(yè)大學(xué), 2020
- [8]大點(diǎn)數(shù)FFT加速I(mǎi)P設(shè)計(jì)與驗(yàn)證[D]. 張磊磊. 西安電子科技大學(xué), 2020(05)
- [9]一種基于IEEE-754標(biāo)準(zhǔn)的浮點(diǎn)運(yùn)算加速器的設(shè)計(jì)及性能優(yōu)化[D]. 劉斌. 西安電子科技大學(xué), 2020(05)
- [10]基于FPGA組織運(yùn)動(dòng)快速計(jì)算方法研究[D]. 林洪訓(xùn). 中國(guó)醫(yī)科大學(xué), 2020(01)
標(biāo)簽:矩陣論文; 機(jī)器學(xué)習(xí)論文; 矩陣乘法論文; 矩陣轉(zhuǎn)置論文; 神經(jīng)網(wǎng)絡(luò)算法論文;