一、一種并行結構的二維正/逆整數變換處理器(論文文獻綜述)
潘銀飛[1](2021)在《視覺檢測中特征提取的FPGA加速技術研究》文中研究指明近年來,隨著市場對產品質量要求的提高,傳感器、工業(yè)總線等技術不斷進步,使得產品自動視覺檢測所需處理的數據量越來越大,對視覺檢測方法的處理速度要求也越來越高。視覺檢測方法的研究通常涉及圖像特征提取算法的開發(fā),特征提取是實現目標檢測、缺陷識別、形貌測量和三維重建等任務的關鍵預處理步驟,其作為視覺檢測中最耗時的環(huán)節(jié),極大地影響了系統(tǒng)的檢測效率。本文針對視覺檢測系統(tǒng)中限制檢測速度的關鍵特征提取算法,研究FPGA加速處理技術,以解決現有加速方案中存在的并行程度不高、處理架構低效、以犧牲精度為代價和擴展性差等問題,從而實現視覺檢測任務的高速處理。完成的主要工作及創(chuàng)新點如下:(1)從系統(tǒng)架構、軟件、硬件三個層面系統(tǒng)調研了視覺檢測加速處理技術的研究現狀,并歸納總結了現有加速方案存在的問題;然后對FPGA加速處理技術中的基本設計方法進行了研究,為滿足視覺檢測特征提取的高吞吐率需求,提出了以數據流接口為主、片上存儲器接口和外部存儲器接口為輔的加速模塊接口設計方案;并利用可視化編程工具,設計了加速算法實現和驗證的一般性圖像采集、存儲和顯示FPGA程序。(2)針對表面缺陷高速檢測,提出了多層次并行的FPGA結構設計方法。對于周期性紋理特征濾除,為了解決傳統(tǒng)一維傅里葉重建算法的邊界效應問題,提出了基于亞像素周期和整周期截斷的改進算法,可有效消除缺陷檢測表面紋理。在此基礎上,設計了任務并行和像素并行的FPGA加速整體結構、基于查找表的像素并行重采樣結構和高低數據位分別處理與符號位擴展的一維傅里葉重建算法位寬連接結構。結合以上方法,將液晶面板的表面掃描檢測速度提高了3倍以上,滿足了系統(tǒng)在線處理需求,并顯著提高了缺陷檢測準確率。(3)針對FPGA硬件實現中數據定點位寬顯著影響激光條紋中心提取精度的問題,提出了一種動靜混合分析的數據位寬優(yōu)化方法。在分析了當前Hessian矩陣計算FPGA結構中存在問題的基礎上,設計了本文大模板尺寸的分離對稱式、行列卷積復用結構,然后利用位寬約束條件和數據范圍分析方法,并根據最大位置偏差、平均位置偏差和錯點個數三個指標,對Steger算法各中間變量的數據位寬進行聯合優(yōu)化,獲得了優(yōu)于規(guī)整位寬設計和其他現有方法的定點精度,像素并行和全流水線設計也使其滿足了千兆網相機的實時數據處理需求。(4)為了提高相移條紋投影測量系統(tǒng)中相位和點云計算效率,提出了FPGA和CPU的異構處理加速方案。對于包裹相位計算模塊,設計了基于查找表的八分區(qū)間相位映射結構,可大幅提高相位計算的定點精度;對于相位解包裹模塊,設計了基于迭代的幀級流水線結構,可有效減少延遲;對于多相機系統(tǒng),給出了根據像素并行度調整的可擴展方案。結合以上方法,實現了較高的測量精度和架構效率,可支持兩臺相機50.86幀/秒的高速三維點云計算。
李穎穎[2](2021)在《面向異構系統(tǒng)的多面體編譯優(yōu)化關鍵技術研究》文中進行了進一步梳理計算技術的不斷更新使計算機體系結構的發(fā)展日新月異,計算機體系結構經歷著從同構計算模式到異構計算模式的轉變,不同處理器廠商之間在體系結構和編程模型方面的巨大差異給計算系統(tǒng)的應用推廣帶來巨大挑戰(zhàn)。利用編譯技術自動將串行程序轉換為異構并行程序是解決這個問題的一種有效手段?;诙嗝骟w模型的編譯技術被認為是程序自動并行化領域的一個研究熱點。本文以充分利用目標體系結構的硬件特征為目的,對面向異構系統(tǒng)進行多面體編譯優(yōu)化的關鍵技術展開研究,主要研究成果有:(1)以提升程序并行性和數據局部性為目標,本文研究了多面體編譯優(yōu)化的原理及流程,分析了多面體模型的主要特點,給出了利用多面體模型進行編譯優(yōu)化的主要途徑。與傳統(tǒng)的幺模矩陣模型相比,多面體模型具有更廣泛的應用范圍、更強大的表示能力和更全面的優(yōu)化空間,同時也存在抽象層次高、實現難度大等問題。為了全面深入的了解多面體模型,本文分析了多面體模型的原理和基于多面體模型的編譯流程,深入研究了多面體模型最核心的調度變換算法,給出了利用多面體模型提升程序并行性和數據局部性的主要方法。(2)為了發(fā)掘數據局部性和提升塊間并行性,本文提出一種面向通用多核同構架構的循環(huán)分塊算法。循環(huán)分塊是提升多級緩存數據局部性最有效的循環(huán)變換技術。多面體模型實現了簡單的平行四邊形分塊,但這種分塊方法無法有效進行分塊之間的并行。為了解決循環(huán)分塊的塊間并行問題,衍生出分裂分塊、鉆石分塊、六角形分塊等復雜的分塊形狀。其中,鉆石分塊、六角形分塊已經在多面體編譯器中得到實現,但分裂分塊由于設計復雜,目前尚無有效的算法和實現。本文設計了一種基于平行四邊形的分裂分塊算法,避免了傳統(tǒng)分裂分塊依賴非仿射表達式的問題,并在PPCG編譯器中對該算法進行了實現。實驗對不同類型的stencil計算進行測試,結果表明,PPCG編譯器采用本文提出的算法生成的Open MP并行代碼相較于當前效果最好的鉆石分塊算法生成的代碼有2%的性能提升;相較于stencil領域專用編譯器Pochoir生成的代碼有91%的性能提升。(3)為了生成面向異構系統(tǒng)的并行代碼,同時降低同步開銷,本文提出一種面向GPU架構的循環(huán)分塊算法。鉆石分塊僅實現CPU上的代碼生成,六角形分塊僅支持面向GPU架構的代碼生成,當面向不同架構時,為了達到最優(yōu)的性能,需要采用不同的循環(huán)分塊算法;同時,復雜分塊形狀提升塊間并行性必然以額外的同步開銷為代價,頻繁的同步大大降低了程序整體性能。本文在面向CPU架構分裂分塊算法的基礎上,在PPCG編譯器實現了分塊后循環(huán)層到GPU硬件層的映射,同時實現同步最小化功能。與鉆石分塊相比,本文提出的算法支持各個維度分塊大小不同的情況;與六角形分塊相比,本文提出的算法能夠處理多條語句、符號常量循環(huán)邊界等多種復雜情況。實驗對不同類型的stencil計算進行測試,結果表明,PPCG采用本文提出的算法生成的CUDA代碼相較于當前應用最廣泛的六角形分塊生成的代碼有64%的性能提升。(4)為了充分利用大規(guī)模并行資源,本文提出一種面向硬件并行規(guī)模的循環(huán)多維并行識別方法。隨著現代處理器架構核心數目的不斷增長,傳統(tǒng)的單維并行識別方法難以提供足夠的并行度,本文提出面向硬件并行規(guī)模的循環(huán)多維并行識別方法。根據并行層迭代次數和目標平臺硬件資源數之間的關系,動態(tài)識別嵌套循環(huán)的多個維度為并行層,將多個并行維度的迭代空間合并后再作任務劃分,以達到充分利用目標平臺硬件資源的目的。該方法在PPCG中進行實現,通過對矩陣乘法、laplace方程等核心計算程序進行測試,結果表明,本文提出的方法相較于現有單維并行方法,在SW26010異構眾核處理器上性能提升最高達1.8倍,在Nvidia Tesla V100平臺性能提升最高達5.2倍。本文采用多面體編譯優(yōu)化技術實現程序自動并行化,能夠同時支持Open MP、CUDA和Open CL并行代碼的自動生成。通過有效地發(fā)掘循環(huán)并行性和數據局部性,有效提升了并行代碼的執(zhí)行效率。
黃哲[3](2021)在《LFMCW雷達信號處理關鍵算法芯片研究及系統(tǒng)驗證》文中認為隨著5G技術與半導體工藝技術的發(fā)展與民用領域對于雷達需求量的迅速增加,越來越高集成度與復雜度的雷達SOC相關研究成為熱點。本文在某24GHz FMCW雷達SOC項目支持下,對雷達的基帶信號處理SOC驗證系統(tǒng)進行硬件實現,對于其關鍵的算法進行芯片化研究。本文介紹了LFMCW雷達信號處理算法原理。使用Matlab對于使用的處理方案進行算法仿真。綜合考慮實時性要求及資源消耗,選擇工程上常用的鋸齒波形方案并采用速度補償的方式解決本設計方案的速度距離耦合問題?;谀?4GHz LFMCW雷達項目成功流片的射頻前端芯片,搭建采集中頻信號電路,并將采樣結果使用仿真算法驗證實際采集的信號正確性。在此基礎上選擇ZYNQ芯片實現驗證環(huán)境的載體,利用其軟硬協同驗證特性,在FPGA(PL端)利用其并行實現硬件算法加速;在ARM(PS端)中實現二維CFAR解算,點跡凝聚解算及PC通信的功能。本文將信號處理過程中的關鍵算法模塊FFT芯片化實現。對綜合功耗,資源消耗,運算速度等性能進行優(yōu)化,使用改進的順序結構進行RTL設計并在FPGA上進行原型驗證。采用CMOS 180nm工藝下進行完整的ASIC后端實現。雷達信號處理系統(tǒng)經過硬件平臺的實機驗證,PL端的算法加速電路可以工作在150MHz的主頻下,解算時間在7.18ms,完整一幀解算時間在25ms以內。滿足雷達信號處理系統(tǒng)對解算的實時性要求。分析信號處理系統(tǒng)的解算結果,距離解算誤差實測在0.4m左右,速度誤差在0.15m/s以內。經過對傳統(tǒng)順序結構優(yōu)化,理論上優(yōu)化的FFT處理器需要的計算時鐘周期數從2304減少到258,且不需要額外引入更多的儲存資源。經FPGA的實際測試表明,在70MHz的主頻下,一次256點FFT運算時間在3.7128us,計算誤差小于1.059%,滿足雷達信號處理過程中對FFT運算的需求。
李毅[4](2020)在《基于多核處理平臺的HEVC解碼核心模塊并行處理的算法設計與實現》文中研究說明新一代視頻編碼標準—H.265/HEVC中引入了很多新特性,這些特性在提升編碼效率的同時,也使得相比之前的標準—H.264/AVC,HEVC的計算復雜度變得更高。另外,HEVC標準針對的是高清和超高清視頻應用,而這些視頻通常含有巨大的數據量,這些因素使得實時處理HEVC標準視頻流成為傳統(tǒng)單核處理器面臨的一大挑戰(zhàn)。所幸,HEVC標準在開發(fā)時就考慮到了這些問題,提供了很多并行工具,這些并行工具可以緩解計算復雜度高和數據量大帶來的實時處理困難。同時,現代處理器從單一內核架構向多核架構發(fā)展,也為并行處理算法的實現提供便利。因此,關于HEVC標準的編解碼的并行處理算法也成為眾多研究者關注的研究對象。本文利用Tilera-GX36多核處理平臺,研究基于多核處理平臺的HEVC解碼核心模塊的并行處理算法。論文的研究內容主要包括以下幾點:(1)提出并實現了一種基于多線程負載均衡的聯合并行環(huán)路濾波算法,實現去方塊濾波(DBF)和樣本自適應補償(SAO)的聯合并行處理。通常,圖像中不同區(qū)域因為紋理不同,進而對CTU產生不同的劃分方式,使得其待濾波邊界數目有較大差異。當以CTU為最小并行粒度進行多線程并行時,不同線程的計算負載會出現不均衡現象。針對這一問題,提出了一種區(qū)域劃分方案,將圖像劃分為多個區(qū)域,每個區(qū)域中的待濾波邊界數近似。再利用映射關系表,將這些區(qū)域分配給多個線程進行并行處理,從而實現各濾波線程間的負載均衡。最后利用緩存技術,將DBF和SAO進行聯合,減少兩者之間存在的延遲,提高環(huán)路濾波整體的并行性。(2)提出并實現了一種基于CTU的HEVC幀內/幀間融合并行解碼算法。OWF是以CTU行做為解碼并行粒度的算法,會存在由于不同CTU行計算復雜度不同,使得部分幀內解碼線程阻塞而產生線程空閑的問題?;贑TU的細粒度波前并行解碼方案,可以減少幀內解碼線程阻塞的問題,但該方案未考慮幀間CTU解碼的并行性。針對這兩種并行解碼方案尚存在的問題,可以在細化幀內并行粒度的同時,進一步利用了幀間CTU之間的依賴關系,實現以CTU為并行粒度的幀內/幀間融合的并行解碼。若當前幀內無CTU待解碼時或者存在空閑線程時,空閑的線程可以直接用于相鄰幀中滿足依賴關系的CTU的解碼。從而,進一步減少了線程空閑,提高了多核資源的利用率。(3)提出并實現了基于核心模塊融合的HEVC并行解碼算法。當將所提出的聯合并行環(huán)路濾波方案以及基于CTU的HEVC幀內/幀間融合并行解碼算法,直接同幀級并行熵解碼方案相結合時,并行粒度不同與資源調度會給系統(tǒng)內部帶來整體上的延遲。針對這一問題,利用流水線并行技術和分級線程調度策略將三個模塊進行融合,減少模塊間延遲以及線程空閑時間,提升系統(tǒng)整體的數據吞吐量。之后,利用Tilera多核平臺特性,實現HEVC解碼的平臺優(yōu)化。實驗在Tilera-GX36多核處理器上進行,以libde265作為參考軟件,對多種未使用任何并行工具編碼形成的高清超高清視頻流進行測試。根據實驗結果,所提并行環(huán)路濾波方案,相比于前人提出的快速融合環(huán)路濾波算法,并行性能平均提升了約9.1%;基于CTU的HEVC幀內/幀間融合并行解碼算法,相比于OWF和基于CTU的細粒度波前并行方案,并行性能平均分別提升了約18.3%和8.5%;實現的基于核心模塊融合的HEVC并行解碼算法,相比于細粒度多層次并行解碼算法最大并行加速比平均提升了約8.15%。
鐘銀都[5](2020)在《基于CPU和GPU的雷達目標識別算法并行實現》文中認為現代戰(zhàn)爭對雷達的自動化和智能化水平提出了較高的要求,以雷達目標識別為代表的智能信息處理技術受到了廣泛的關注。隨著雷達信號帶寬的持續(xù)提高以及識別數據庫中目標種類的不斷增加,給實時地完成目標識別任務帶來了極大的挑戰(zhàn)。由于雷達目標識別任務具有良好的并行結構,高效的并行處理算法成為了目標識別技術領域的研究熱點。與此同時,以中央處理器(CPU)和圖形處理器(GPU)為代表的硬件處理器的并行處理能力也越來越強大,這為雷達目標識別算法的并行加速提供了可能?;谏鲜霰尘?本文開展了雷達高分辨距離像(HRRP)識別相關算法的并行設計研究,并在多核心CPU處理器硬件平臺和CPU+GPU的異構平臺下進行了算法實現。主要工作內容概括如下:1.結合線性調頻脈沖體制雷達HRRP識別流程,對每個環(huán)節(jié)常用算法的原理進行闡述。首先介紹了針對大時寬帶寬信號脈沖壓縮處理的分段脈沖壓縮算法;然后介紹了針對相參積累期間目標越距離單元走動問題的Keystone變換及其兩種常用實現方式,即DFT+IFFT算法和Chirp-Z算法;接著介紹了針對HRRP數據敏感性問題的常用預處理方法;最后介紹了四種經典的統(tǒng)計識別模型和卷積神經網絡識別模型。2.闡述了CPU和GPU處理器硬件結構的區(qū)別,然后給出了針對多核心CPU處理器并行編程的C++11多線程編程方法,以及針對NVIDIA GPU處理器并行編程的統(tǒng)一計算架構(CUDA)的編程、執(zhí)行模型。最后給出了CUDA并行編程的調試分析方法及內核優(yōu)化技巧。3.詳細分析了HRRP識別流程中各算法的并行結構,針對性地設計了相應的并行實現方案,完成了各個算法在CPU平臺下的單線程實現和多線程并行實現以及在CPU+GPU平臺下的多線程并行實現。通過仿真實驗檢驗了各算法在兩種并行實現方式下的運行結果,并以CPU單線程運行時間為基準,對比分析了兩種并行實現方式下的加速效果。其中,分段脈沖壓縮算法、DFT+IFFT算法、Chirp-Z算法、迭代對齊算法、最大相關系數(MCC)分類器和自適應高斯分類器(AGC)的建模、MCC識別、AGC識別、因子分析(FA)建模和復因子分析(CFA)建模過程的CPU多線程實現可以達到3~5倍的加速效果,相應的GPU并行實現也都可以達到5倍以上的加速效果;此外,基于卷積神經網絡的識別方法也取得了一定的加速效果。這說明基于CPU的多線程并行實現方式和基于CPU+GPU異構平臺的并行實現方式能夠顯著提升雷達目標識別任務的實時性。
杜詩強[6](2020)在《離散小波變換的研究與硬件實現》文中研究指明隨著現代數字信號處理技術日益復雜,非平穩(wěn)數字信號的處理越來越受到人們的關注和重視。小波變換(Wavelet Transform,WT)作為新一代數字信號處理技術之一,在信號去噪、視頻圖像壓縮、圖像邊緣檢測等領域具有廣泛的應用,是進行數字信號時頻分析的理想工具。本文首先對離散小波變換(Discrete Wavelet Transform,DWT)在信號去噪的應用方面進行研究,提出了一種改進的小波閾值去噪算法;之后對離散小波變換的硬件結構進行研究。主要工作內容如下:1. 在傳統(tǒng)的小波閾值去噪算法的基礎上,對已有閾值函數和閾值選取方式進行改進。新的閾值函數具有更好的連續(xù)性和更小的系數偏差,新的閾值選取方式具有更高的噪聲信號去除率。2. 從數據的計算維度角度對一維和二維離散小波變換的硬件結構進行設計與實現。首先在基于Mallat算法的卷積濾波器組結構上,實現了通用型一維離散小波變換的硬件架構,然后結合多級展開和行并行結構,設計并實現了三級二維離散小波變換的硬件架構。3. 在Xilinx的XC7V2000T FPGA上對一維、二維離散小波變換硬件結構進行功能驗證和性能測試。測試結果表明,本文設計的通用型一維離散小波變換硬件結構支持多種小波基的離散小波變換,本文設計的二維離散小波變換硬件電路結構能夠完成db2小波的三級離散小波變換。對定點數據,兩種架構均可提供10-3的結果精度。
李菁菁[7](2020)在《運動圖像去模糊技術研究》文中研究表明隨著科學技術發(fā)展,集成電路工藝的不斷進步,為在前端實現實時圖像復原提供了硬件支持。運動圖像模糊是指相機和被拍物體,兩者進行連續(xù)性相對運動,導致最后采集到的圖像模糊,對其使用存在一定影響。運動圖像去模糊就是建立一定數學模型,將模糊圖像清晰化??紤]到實際應用場境中待處理圖像的大部分模糊信息未知,故采用盲去模糊。盲去模糊難點在于建模復雜且求解不唯一。故構建實時運動圖像盲去模糊系統(tǒng),實現圖像去模糊,具有一定的現實意義。本文主要針對在硬件中實現運動圖像去模糊系統(tǒng)問題進行研究,主要工作包括以下四個方面:(1)分析在空域和在頻域運動模糊圖像處理的性能差異。一般情況下,在空域中處理運動模糊圖像,計算量大且復雜度高,而在頻域中處理運動模糊圖像,計算量小且靈活度高。故結合運動模糊圖像及去模糊算法特點,分析運動圖像去模糊頻域處理方式。本文設計了一種基2-DIT-FFT的頻域轉換硬件算法,以解決一般頻域轉換過多占用資源、轉換時間長、可移植性差等問題。其主要模塊包括:輸入數據預處理、原位計算、存儲模塊、蝶形運算模塊、溢出檢測、截位等。該硬件算法與基于FFT IP核的頻域轉換算法相比,降低了硬件資源占用率,提高了圖像頻域轉換精度。(2)詳細說明圖像運動模糊的過程,分析其頻譜和倒譜的特點。比較頻域法和倒譜法估計的點擴散函數PSF精度,本文采用基于倒譜特性的PSF估計法。并在此基礎上,增加Canny算子邊緣檢測,提高PSF估計精度。(3)考慮硬件實現可行性及復原效果確定合適的經典圖像復原算法。比較逆濾波等四種經典復原算法的優(yōu)劣,采用峰值信噪比、結構相似性、視覺信息保真度三種圖像質量評價指標,分析上述復原算法的優(yōu)缺點,得到復原結果及質量評價指標。(4)系統(tǒng)采用“軟硬結合”設計方案,以V Cyclone Altera系列的SOC-DE1為設計平臺,利用QSYS連接相關子系統(tǒng)及IP核,構建圖像去模糊系統(tǒng)。在FPGA中,設計頻域轉換,并配置設計所需IP模塊,如Frame Reader、SDRAM、顯示子系統(tǒng)等。在HPS中,搭載Linux操作系統(tǒng),利用HPS-FPGA總線訪問SDRAM,利用Linux C編程實現運動圖像去模糊和傳輸,利用軟件QT設計去模糊系統(tǒng)界面,實現可視化及人機交互功能,其主要功能包括:打開相機、抓拍及圖像灰度處理、復原圖像等。本系統(tǒng)主要進行了圖像頻域轉換模塊、去模糊算法、QT GUI界面及整體硬件系統(tǒng)構建等設計,并在實際環(huán)境中對其整體功能進行測試。經驗證分析,系統(tǒng)能處理采集的任意圖像,能較好地實現模糊圖像顯示、頻域轉換及去模糊等基本功能,并且降低了資源占用率,具有一定的實用性和可移植性。
李偉琪[8](2020)在《二維可分離FIR濾波器稀疏優(yōu)化算法研究》文中研究說明二維(Two-Dimensional,2-D) FIR數字濾波器在圖像處理、地震信號處理、雷達聲吶信號處理、機器視覺和無線通信等領域具有較為廣泛的應用。但是2-D FIR濾波器在硬件實現時,特別是在階數較高的情況下,濾波器系數數量較多,從而導致2-D FIR濾波器的硬件實現需要更多的存儲器、加法器和乘法器。目前已存在一些減少2-D FIR濾波器硬件執(zhí)行復雜度的方法,如McClellan變換方法和可分離濾波器設計方法。論文研究可分離濾波器,提出了一種新的具有稀疏系數的可分離2-D FIR濾波器設計方法,對其稀疏優(yōu)化方法、有限字長效應及FPGA實現進行了研究。論文的主要工作包括:(1)基于迭代重加權l(xiāng)1,范數和貪婪搜索聯合算法,提出了一種具有稀疏系數的可分離2-D FIR濾波器設計方法。該方法設計包括兩個步驟,第一步,基于某一初始設計,利用迭代重加權l(xiāng)1范數設計出一個具有稀疏系數的可分離2-D FIR濾波器,然后利用信賴域-迭代梯度搜索(Trust Region Iterative Gradient Searching,TR-IGS)技術優(yōu)化此時的可分離 2-D FIR 濾波器的系數。在第一步設計的基礎上,第二步利用貪婪搜索(Greedy Searching,GS)算法進一步稀疏更多的系數,其中在每次搜索結束后,利用TR-IGS技術優(yōu)化當前的濾波器系數,然后進行下一次的搜索和優(yōu)化,直至濾波器設計誤差不再滿足設計要求。仿真實例驗證了所提出的稀疏優(yōu)化方法的有效性以及另外六種相關稀疏優(yōu)化方法。(2)在設計出最優(yōu)連續(xù)系數的可分離2-D FIR濾波器后,對這些連續(xù)系數的量化進行了研究。首次提出了適用于可分離2-D FIR濾波器的兩種系數量化方案:(迭代)分步式整數線性規(guī)劃算法(2-step-integer-LP)和(迭代)分步式整數線性規(guī)劃-鄰域搜索算法(2-step-integer-LP-neighbor),兩種方案均基于相同的核心思想:固定一些系數并優(yōu)化量化其他系數。仿真實例驗證了所提出的量化方案的有效性,并與另外兩種優(yōu)化方案(近似目標優(yōu)化算法和基于有限二次冪項的系數量化算法)進行了比較。實驗結果表明,所提出的兩種方案在設計誤差方面均優(yōu)于論文中的其他量化算法,且2-step-integer-LP性能略好于2-step-integer-LP-neighbor。但是,在某些情況下,由于優(yōu)化變量較多的原因,前者可能無法收斂,而后者能夠比較有效的避免無法收斂的問題。(3)給出了可分離2-D FIR濾波器的Simulink系統(tǒng)仿真和FPGA仿真,驗證了所提出的可分離2-D FIR濾波器可實現性以及具有較好的圖像濾波效果,并對FPGA硬件資源占用進行了分析。
張榮庭[9](2019)在《面向FPGA硬件的衛(wèi)星影像GA-RLS-RFM正射糾正優(yōu)化算法研究》文中提出衛(wèi)星影像的正射糾正是制作專題產品的先決條件之一。然而,傳統(tǒng)的基于地面處理平臺的影像正射糾正方法難以滿足對時效性有高要求的應用場景,例如災害應急救援的快速響應、固定目標的實時監(jiān)測等。另外,傳統(tǒng)的地面控制點(Ground Control Points-GCPs)采集方法通常需要人工干預,而且耗時較長,無法保證衛(wèi)星影像正射校正的時效性。特別地,在惡劣環(huán)境的山地、沙漠或境外的軍事敏感區(qū)等,GCPs的獲取十分困難,甚至不可能。因此,為了能夠在少量或無GCPs條件下快速地對衛(wèi)星影像進行正射糾正,對面向FPGA硬件的衛(wèi)星影像正射糾正優(yōu)化算法進行了系統(tǒng)地研究。主要的研究內容如下:(1)在前人研究成果的基礎上,利用星歷和姿態(tài)數據建立了線陣推掃式衛(wèi)星影像的幾何視線模型(Viewing Geometry Model,VGM)。此外,通過流水線結構、數據流串行計算與模塊并行計算相結合的設計方法,設計了衛(wèi)星影像的VGM無控定位算法的FPGA硬件架構。該硬件架構能夠使處理速度、計算精度和硬件資源利用率達到平衡。(2)在利用最小二乘(Least Square,LS)求解有理函數模型(Rational Function Model,RFM)參數時,通常需要對大型矩陣進行復雜的乘法和求逆運算。然而,這些復雜的運算不僅會消耗大量的FPGA硬件資源,而且還會影響RFM模型參數的求解速度。為了克服LS求解RFM模型參數算法不利于FPGA硬件實現的缺點,提出了遞推最小二乘(Recursive Least Square,RLS)求解RFM模型參數算法,由該算法確定的RFM模型記為RLS-RFM模型。此外,提出了RLS求解RFM模型參數算法的FPGA硬件架構。該硬件架構采用了快速的矩陣乘法并行結構,加快了RFM模型參數的求解速度。(3)由于RLS-RFM模型參數之間存在的相關性會影響糾正精度,因此為了快速獲取最佳的RLS-RFM模型結構以及提高影像的正射糾正精度,提出并實現了面向FPGA硬件的GA-RLS-RFM正射糾正優(yōu)化算法。特別地,所設計的GARLS-RFM正射糾正算法的FPGA硬件架構可在無控制點情況下實現基于RLSRFM模型的衛(wèi)星影像無控正射糾正。(4)實驗結果表明:(i)衛(wèi)星影像的VGM模型有較高的無控定位精度潛力。(ii)RLS求解RFM模型參數算法能夠有效地求解RFM模型參數,并且RLS-RFM模型能夠獲得與VGM模型相當的糾正精度。(iii)遺傳算法能夠有效地減少RLSRFM模型參數,并能保持糾正精度不降低,甚至能夠提高糾正精度。(iv)FPGA能夠得到與PC相當的糾正精度,例如,在利用RLS-RFM模型進行影像的無控正射糾正時,對于SPOT-6(山地)影像和SPOT-6(某機場)影像,FPGA與PC的糾正結果在列方向的最大偏差分別為0.0782像素和0.1026像素,行方向的最大偏差分別為0.1302像素和0.1380像素。(v)在數據處理速度方面,相對于PC,FPGA有明顯的優(yōu)勢。
羅大輝[10](2019)在《夾雜問題數值解法的并行實現及算法優(yōu)化研究》文中進行了進一步梳理工程實際中,機械零部件不可避免地存在各類異質性缺陷,且缺陷通常形狀各異,分布隨機,很難直接使用Eshelby夾雜模型直接解析求解,特別對于形狀不規(guī)則的夾雜體,解析解的推導會遇到很多困難。為解決這類問題,通常將含有多個缺陷的區(qū)域劃分為一系列長方體單元,通過已有的應力場、應變場、以及位移場的解決方案求解各個長方體單元引起的單元響應,再將所有單元結果疊加獲得最終解,此種方法被稱為夾雜問題的數值解法。當需要研究的夾雜區(qū)域內具有多個夾雜體或夾雜體形狀不規(guī)則度較大時,數值解的準確性依賴于網格的細分程度,而網格的細密化會導致計算時間的增加。過去的一段時間里,夾雜體數值解法已經利用離散快速傅里葉卷積/相關在一定程度上提高了計算速度,但在當前對零部件性能精度要求越來越高的趨勢下,仍需探究其它方式加速數值解法的計算。由數值算法的定義可知對應的程序中存在多個嵌套循環(huán)和獨立任務分支,除單純的算法提升外,可考慮程序的并行化改造。隨著科技不斷發(fā)展,計算機中央處理器(CPU)的核心數不斷增加,圖像處理器(GPU)的計算能力飛速提升,可使用的并行編程模型越來越多,部分并行編程模型可在對程序改動不大的情況下進行并行化改造,這些條件為程序的并行計算提供了良好的軟硬件基礎。本文以全空間和半空間任意形狀夾雜體數值解法為研究對象,對數值解法進行并行化改進及算法結構優(yōu)化,期望能進一步提高算法的計算效率。本文主要內容包括三個部分:(1)數值算法中FFT方法的選用和變換控制參數的選擇。與其它夾雜問題數值解程序中使用復數FFT變換實數序列不同,文章使用數值算法中需要進行FFT變換的序列,測試了離散快速傅立葉變換庫FFTW中提供的實數FFT(r2c/c2r)同位運算和非同位運算方法,復數FFT同時變換雙實數序列的方法進行卷積的內存占用和時間消耗,并與復數單序列FFT進行對比,最終確定實數FFT(r2c/c2r)非同位運算方法的使用。同時測試了FFTW中PLAN在不同重復使用次數,不同序列長度下兩種變換控制參數的相對性能。(2)對數值算法程序實施并行化改進。使用OpenMP完成數值算法程序在FORTRAN上的四種CPU并行模式,對不同并行模式加速下的時間消耗和內存占用進行分析討論,四種并行模式均明顯地提高了數值算法的運行效率,其中以卷積/相關對矩陣行和列為并行子任務的兩種模式由于子任務分配不均導致核心數的浪費,其它兩種方案具有較好的負載均衡性,但在線程數較多時加速比和內存占用情況不同。隨后使用OpenACC完成數值算法的GPU并行加速,結果表明可獲得較CPU兩倍的性能提升。(3)數值算法結構特性的利用和優(yōu)化。分析響應原函數的計算重復性并進行去重復優(yōu)化,減少近四倍的運行時間,并在此基礎上完成CPU和GPU并行測試,獲得了近四十倍的效率提升;獨立數值算法中的激勵源域和目標域網格,解決網格獨立時出現的奇點問題,使得數值算法可根據需要縮小目標域網格規(guī)模,降低計算量,結果表明在退化為條狀網格或面狀網格時,計算時間相應降低為原有的四分之一或二分之一;根據全空間響應原函數的對稱特性改進算法結構,使用兩種方法對程序計算中對稱的卷積結果進行數組保存,結果表明均能明顯的提高全空間下的計算效率;最后,利用響應原函數只與激勵源域及目標域網格的形狀和位置相關的特性,使用二進制文件存儲響應原函數序列,再次計算相同目標域網格和激勵源域網格時可直接讀取響應原函數,極其明顯地降低了后續(xù)的計算時間消耗。
二、一種并行結構的二維正/逆整數變換處理器(論文開題報告)
(1)論文研究背景及目的
此處內容要求:
首先簡單簡介論文所研究問題的基本概念和背景,再而簡單明了地指出論文所要研究解決的具體問題,并提出你的論文準備的觀點或解決方法。
寫法范例:
本文主要提出一款精簡64位RISC處理器存儲管理單元結構并詳細分析其設計過程。在該MMU結構中,TLB采用叁個分離的TLB,TLB采用基于內容查找的相聯存儲器并行查找,支持粗粒度為64KB和細粒度為4KB兩種頁面大小,采用多級分層頁表結構映射地址空間,并詳細論述了四級頁表轉換過程,TLB結構組織等。該MMU結構將作為該處理器存儲系統(tǒng)實現的一個重要組成部分。
(2)本文研究方法
調查法:該方法是有目的、有系統(tǒng)的搜集有關研究對象的具體信息。
觀察法:用自己的感官和輔助工具直接觀察研究對象從而得到有關信息。
實驗法:通過主支變革、控制研究對象來發(fā)現與確認事物間的因果關系。
文獻研究法:通過調查文獻來獲得資料,從而全面的、正確的了解掌握研究方法。
實證研究法:依據現有的科學理論和實踐的需要提出設計。
定性分析法:對研究對象進行“質”的方面的研究,這個方法需要計算的數據較少。
定量分析法:通過具體的數字,使人們對研究對象的認識進一步精確化。
跨學科研究法:運用多學科的理論、方法和成果從整體上對某一課題進行研究。
功能分析法:這是社會科學用來分析社會現象的一種方法,從某一功能出發(fā)研究多個方面的影響。
模擬法:通過創(chuàng)設一個與原型相似的模型來間接研究原型某種特性的一種形容方法。
三、一種并行結構的二維正/逆整數變換處理器(論文提綱范文)
(1)視覺檢測中特征提取的FPGA加速技術研究(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景和課題來源 |
1.2 視覺檢測和特征提取技術概述 |
1.2.1 二維檢測技術 |
1.2.2 三維檢測技術 |
1.2.3 特征提取 |
1.3 視覺檢測加速技術研究現狀 |
1.3.1 基于系統(tǒng)架構級的加速技術 |
1.3.2 基于軟件層面的加速技術 |
1.3.3 基于專用硬件的加速技術 |
1.4 加速處理技術中存在問題分析 |
1.5 主要研究內容和論文結構 |
1.5.1 主要研究內容 |
1.5.2 論文章節(jié)安排 |
第二章 視覺檢測的加速處理方法 |
2.1 引言 |
2.2 FPGA加速方法和加速模塊接口 |
2.2.1 常用的FPGA加速設計方法 |
2.2.2 FPGA加速模塊接口設計 |
2.3 FPGA加速算法實現方案 |
2.3.1 基于Visual Applets的可視化編程 |
2.3.2 圖像采集、存儲和顯示FPGA程序設計 |
2.4 CPU、GPU和 FPGA加速方法比較 |
2.4.1 CPU、GPU和 FPGA加速特點 |
2.4.2 CPU、GPU和 FPGA加速程序的計時 |
2.5 本章小結 |
第三章 FPGA任務并行與像素并行加速技術 |
3.1 引言 |
3.2 FPGA并行加速方法 |
3.2.1 FPGA任務并行加速方法 |
3.2.2 FPGA像素并行加速方法 |
3.2.3 加速性能評估方法與加速性能極限 |
3.3 并行加速方法在周期紋理特征濾除中的實現 |
3.3.1 應用背景概述 |
3.3.2 周期背景紋理濾除方法 |
3.3.3 多任務并行的整體結構 |
3.3.4 一維傅里葉重建算法的像素并行加速實現 |
3.4 性能提升和算法改進 |
3.4.1 邊界效應問題 |
3.4.2 亞像素周期問題 |
3.4.3 整周期截斷 |
3.4.4 改進措施的FPGA實現 |
3.5 實驗與驗證 |
3.5.1 缺陷檢測結果可視化及定量指標評價 |
3.5.2 速度評估 |
3.5.3 定點精度和資源消耗 |
3.6 本章小結 |
第四章 FPGA位寬優(yōu)化高精度加速技術 |
4.1 引言 |
4.2 FPGA數據位寬設計和精度分析 |
4.2.1 位寬設計 |
4.2.2 精度分析 |
4.3 FPGA實現的條紋中心線提取高精度加速方法 |
4.3.1 激光條紋中心提取算法概述 |
4.3.2 FPGA硬件實現中存在的精度下降問題 |
4.3.3 高精度的Steger算法FPGA實現 |
4.4 Steger算法FPGA結構的數據位寬和定點精度優(yōu)化 |
4.4.1 位寬優(yōu)化技術 |
4.4.2 初始數據位寬確定 |
4.4.3 Hessian矩陣計算模塊的位寬和精度優(yōu)化 |
4.4.4 特征值和亞像素偏移計算模塊的位寬和精度優(yōu)化 |
4.5 實驗與驗證 |
4.5.1 檢測精度評價 |
4.5.2 不同平臺的計算精度和運行速度對比 |
4.5.3 FPGA硬件資源優(yōu)化 |
4.6 本章小結 |
第五章 FPGA異構處理加速技術 |
5.1 引言 |
5.2 異構加速架構與方法 |
5.2.1 異構加速基本方法 |
5.2.2 CPU和 FPGA的異構加速架構與方法 |
5.3 異構處理方式在相移條紋投影測量中的分析 |
5.3.1 多頻相移法原理 |
5.3.2 基于多項式擬合的點云計算 |
5.3.3 相位和點云的計算資源效率分析 |
5.4 異構處理加速方案的實現 |
5.4.1 包裹相位和解包裹相位的FPGA加速計算方法 |
5.4.2 點云計算的CPU多核處理實現方法 |
5.4.3 可擴展的多相機并行處理實現方案 |
5.5 實驗評估 |
5.5.1 測量系統(tǒng)的搭建 |
5.5.2 定點精度評估 |
5.5.3 標準球測量實驗和多相機融合實驗 |
5.5.4 異構處理速度和資源效率分析 |
5.6 本章小結 |
第六章 總結和展望 |
6.1 全文總結 |
6.2 本文創(chuàng)新點 |
6.3 工作展望 |
參考文獻 |
攻讀博士學位期間的學術活動及成果情況 |
(2)面向異構系統(tǒng)的多面體編譯優(yōu)化關鍵技術研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 并行體系結構的發(fā)展歷程 |
1.2 面向異構系統(tǒng)多面體編譯優(yōu)化技術的研究現狀 |
1.3 研究內容及意義 |
1.3.1 課題來源 |
1.3.2 研究內容 |
1.3.3 研究意義 |
1.3.4 課題應用 |
1.4 論文組織結構 |
第二章 基于多面體模型的編譯優(yōu)化技術 |
2.1 多面體模型的表示 |
2.1.1 Presburger關系 |
2.1.2 多面體模型的基本要素 |
2.2 編譯流程 |
2.3 提升程序并行性 |
2.3.1 數據流分析 |
2.3.2 調度算法 |
2.3.3 代碼生成 |
2.4 發(fā)掘數據局部性 |
2.4.1 循環(huán)分塊 |
2.4.2 數組壓縮 |
2.5 調度樹 |
2.6 小結 |
第三章 面向通用多核CPU架構分裂分塊算法的設計與實現 |
3.1 研究背景 |
3.1.1 循環(huán)傾斜 |
3.1.2 循環(huán)分塊 |
3.1.3 其它分塊形狀的塊間并行 |
3.1.4 研究動機 |
3.2 面向CPU架構分裂分塊算法的設計 |
3.2.1 分裂分塊算法的設計 |
3.2.2 分裂產生每個階段的邊界表達式 |
3.3 面向CPU架構分裂分塊算法的實現 |
3.3.1 多面體模型表示 |
3.3.2 多維stencil計算的分裂分塊 |
3.3.3 多個語句的分裂分塊 |
3.4 實驗結果與分析 |
3.4.1 環(huán)境配置和測試用例 |
3.4.2 CPU上的性能測試 |
3.5 小結 |
第四章 面向GPU架構分裂分塊算法的設計與實現 |
4.1 研究動機 |
4.2 GPU架構 |
4.3 面向GPU架構分裂分塊算法的實現 |
4.3.1 GPU硬件映射 |
4.3.2 最小化同步 |
4.3.3 代碼生成 |
4.3.4 GPU的共享內存 |
4.4 分裂分塊技術的適用范圍 |
4.4.1 對比其他分塊技術 |
4.4.2 適用范圍 |
4.5 實驗結果與分析 |
4.5.1 環(huán)境配置和測試用例 |
4.5.2 CPU上的性能測試 |
4.5.3 GPU上的性能測試 |
4.5.4 編譯時長測試 |
4.6 相關工作 |
4.7 小結 |
第五章 面向硬件并行規(guī)模的循環(huán)多維并行識別方法 |
5.1 研究動機 |
5.2 目標平臺 |
5.2.1 SW26010 異構眾核處理器 |
5.2.2 Open ACC編程模型 |
5.3 并行識別問題分析 |
5.4 面向硬件并行規(guī)模的循環(huán)多維并行識別方法 |
5.5 實驗結果與分析 |
5.6 相關工作 |
5.7 小結 |
第六章 總結與展望 |
6.1 論文的主要工作 |
6.2 下一步的研究計劃 |
致謝 |
參考文獻 |
作者簡歷 |
(3)LFMCW雷達信號處理關鍵算法芯片研究及系統(tǒng)驗證(論文提綱范文)
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.1.1 LFMCW雷達SOC發(fā)展現狀 |
1.1.2 SOC驗證平臺搭建 |
1.2 課題研究來源及意義 |
1.3 論文主要工作內容及創(chuàng)新 |
1.4 論文的研究內容及章節(jié)安排 |
第二章 LFMCW雷達系統(tǒng)介紹 |
2.1 LFMCW雷達信號處理系統(tǒng)工作基本原理 |
2.1.1 單次線性調頻連續(xù)波雷達分析 |
2.1.2 多周期線性調頻連續(xù)波雷達分析 |
2.2 LFMCW雷達系統(tǒng)組成 |
2.2.1 天線及射頻前端模塊 |
2.2.2 ADC采集模塊及采樣數據預處理模塊 |
2.2.3 24GHz雷達參數設置 |
2.3 ZYNQ硬件平臺介紹 |
2.4 本章小結 |
第三章 LFMCW雷達信號處理關鍵算法分析 |
3.1 中頻信號處理概述 |
3.2 LFMCW雷達差頻信號生成 |
3.3 一維FFT處理原理及仿真 |
3.4 MTI對消算法原理及仿真 |
3.5 MTD算法原理及仿真 |
3.6 CFAR算法原理及仿真 |
3.6.1 一維CFAR算法原理 |
3.6.2 二維CFAR算法原理 |
3.6.3 二維CFAR算法仿真 |
3.7 點跡凝聚原理及仿真 |
3.8 速度補償原理及仿真 |
3.9 本章小結 |
第四章 雷達處理關鍵算法模塊芯片化設計 |
4.1 FFT處理器架構 |
4.2 基四FFT處理器工作原理 |
4.2.1 基四FFT運算理論推導 |
4.2.2 基四FFT運算流程 |
4.3 改進型基四FFT處理器架構設計 |
4.4 地址生成單元設計 |
4.5 蝶形運算單元設計 |
4.5.1 超前進位加法器設計 |
4.5.2 華萊士乘法器設計 |
4.5.3 復數乘法器設計 |
4.6 逆序輸出單元設計 |
4.7 旋轉因子生成單元設計 |
4.8 CORDIC算法求模設計 |
4.9 本章小結 |
第五章 雷達信號處理系統(tǒng)硬件搭建及模塊芯片后端實現 |
5.1 LFMCW雷達整體系統(tǒng)硬件搭建 |
5.2 AD采集板及數據預處理 |
5.3 信號處理整體邏輯設計架構 |
5.4 MTI算法的邏輯設計 |
5.5 PL端DSP加速硬件實現 |
5.6 ZYNQ PL端與PS端通信設計 |
5.6.1 AXI總線時序介紹 |
5.6.2 PL端中斷與PS端的中斷服務函數設計 |
5.7 二維CFAR在 arm端的程序設計 |
5.8 FFT處理器硬件實現 |
5.8.1 Design Complier綜合 |
5.8.2 innovus工具布線實現 |
5.8.3 FFT處理器版圖驗證 |
5.9 本章小結 |
第六章 雷達處理系統(tǒng)測試與模塊芯片實現結果 |
6.1 FFT處理器的FPGA原型驗證 |
6.1.1 FPGA驗證平臺 |
6.1.2 硬件資源分析 |
6.1.3 FFT驗證結果分析 |
6.2 LFMCW雷達測試驗證環(huán)境 |
6.2.1 LFMCW雷達數據采集軟件處理結果 |
6.2.2 使用ZYNQ平臺處理結果 |
6.3 FFT處理器實現結果驗證 |
6.4 FFT處理器綜合性能分析 |
6.4.1 FFT處理器功耗分析 |
6.4.2 FFT處理器運算性能分析 |
6.5 雷達信號處理系統(tǒng)性能分析 |
6.6 本章小結 |
第七章 總結展望 |
7.1 全文總結 |
7.2 展望 |
致謝 |
參考文獻 |
攻讀碩士學位期間取得的成果 |
(4)基于多核處理平臺的HEVC解碼核心模塊并行處理的算法設計與實現(論文提綱范文)
摘要 |
abstract |
專用術語注釋表 |
第一章 緒論 |
1.1 論文研究背景與意義 |
1.2 相關技術背景 |
1.2.1 視頻壓縮編碼技術簡介 |
1.2.2 國際視頻編碼標準的發(fā)展歷程簡介 |
1.2.3 多核技術發(fā)展簡介 |
1.2.4 TILERA多核平臺簡介 |
1.3 國內外研究現狀 |
1.4 論文研究內容及安排 |
1.4.1 論文研究內容 |
1.4.2 本文安排 |
第二章 H.265/HEVC視頻編碼標準及并行結構分析 |
2.1 H.265/HEVC視頻編碼標準概述 |
2.2 H.265/HEVC編碼關鍵技術簡介 |
2.2.1 四叉樹結構 |
2.2.2 幀內預測 |
2.2.3 幀間預測 |
2.2.4 變換與量化 |
2.2.5 環(huán)路濾波 |
2.2.6 熵編碼 |
2.3 H.265/HEVC編解碼并行處理 |
2.3.1 概述 |
2.3.2 圖像組(GOP)并行 |
2.3.3 幀(Frame)級并行 |
2.3.4 Slice級并行 |
2.3.5 Tile級并行 |
2.3.6 CTU級并行 |
2.4 H.265/HEVC解碼模塊分析 |
2.4.1 H.265/HEVC解碼基本流程 |
2.4.2 H.265/HEVC各解碼模塊分析 |
2.5 本章小結 |
第三章 基于多線程負載均衡的DBF+SAO聯合并行環(huán)路濾波 |
3.1 H.265/HEVC標準中的環(huán)路濾波概述 |
3.2 H.265/HEVC標準中的去方塊濾波 |
3.2.1 去方塊濾波的數據處理特點 |
3.2.2 去方塊濾波的可并行性 |
3.3 像素樣本自適應補償SAO |
3.4 現有并行濾波方案分析 |
3.5 DBF+SAO聯合并行環(huán)路濾波 |
3.5.1 并行環(huán)路濾波的設計 |
3.5.2 并行環(huán)路濾波的實現 |
3.6 本章小結 |
第四章 基于CTU的 HEVC幀內/幀間融合并行解碼算法 |
4.1 概述 |
4.2 CTU級 HEVC并行解碼算法 |
4.2.1 現有方案分析 |
4.2.2 方案可優(yōu)化分析 |
4.3 基于CTU的 HEVC幀內/幀間融合并行解碼算法 |
4.3.1 算法理論設計 |
4.3.2 幀間CTU并行解碼條件限制分析 |
4.3.3 算法具體實現 |
4.3.4 理論并行性能分析 |
4.4 本章小結 |
第五章 基于核心模塊融合的HEVC并行解碼算法 |
5.1 概述 |
5.2 HEVC解碼器核心模塊的融合并行處理 |
5.2.1 算法描述 |
5.2.2 算法時序分析 |
5.3 基于Tilera多核處理平臺的HEVC解碼平臺優(yōu)化 |
5.3.1 結合存儲器優(yōu)化的CABAC熵解碼 |
5.3.2 結合單指令多數據SIMD的核心模塊指令集優(yōu)化 |
5.4 本章小結 |
第六章 實驗與結果分析 |
6.1 實驗環(huán)境與并行算法評估指標 |
6.1.1 實驗多核硬件平臺與開發(fā)環(huán)境MDE |
6.1.2 實驗測試視頻序列 |
6.1.3 實驗評估指標 |
6.2 聯合并行環(huán)路濾波實驗與分析 |
6.3 基于CTU的幀內/幀間融合并行解碼算法實驗與分析 |
6.4 基于核心模塊融合的HEVC并行解碼算法實驗與分析 |
6.5 基于Tilera多核處理平臺的HEVC解碼平臺優(yōu)化實驗 |
6.6 本章小結 |
第七章 總結與展望 |
7.1 總結 |
7.2 展望 |
參考文獻 |
附錄1 攻讀碩士學位期間撰寫的論文 |
附錄2 攻讀碩士學位期間撰寫的發(fā)明專利 |
致謝 |
(5)基于CPU和GPU的雷達目標識別算法并行實現(論文提綱范文)
摘要 |
ABSTRACT |
符號對照表 |
縮略語對照表 |
第一章 緒論 |
1.1 雷達目標識別簡介 |
1.2 研究背景 |
1.3 并行計算在雷達領域的研究現狀 |
1.4 CPU處理器的發(fā)展 |
1.5 GPU處理器的發(fā)展 |
1.6 論文的工作安排 |
第二章 雷達HRRP目標識別基本方法 |
2.1 HRRP相關概念 |
2.2 HRRP識別的基本流程 |
2.3 脈沖壓縮 |
2.3.1 匹配濾波原理 |
2.3.2 分段脈沖壓縮技術 |
2.3.3 仿真實驗結果 |
2.4 基于Keystone變換的相參積累算法 |
2.4.1 Keystone變換原理 |
2.4.2 DFT+IFFT算法原理 |
2.4.3 Chirp-Z算法原理 |
2.4.4 仿真實驗結果 |
2.5 HRRP數據預處理 |
2.5.1 歸一化和迭代對齊 |
2.5.2 仿真實驗結果 |
2.6 經典雷達HRRP目標識別模型 |
2.6.1 最大相關系數分類器模型 |
2.6.2 自適應高斯分類器模型 |
2.6.3 因子分析模型 |
2.6.4 復因子分析模型 |
2.6.5 仿真實驗結果 |
2.7 卷積神經網絡識別模型 |
2.7.1 神經元模型 |
2.7.2 前饋神經網絡模型 |
2.7.3 卷積神經網絡模型 |
2.8 本章小結 |
第三章 CPU和 GPU處理器的并行編程 |
3.1 CPU和 GPU硬件結構的異同 |
3.2 CPU多線程編程方法 |
3.3 GPU多線程編程框架 |
3.3.1 CUDA架構介紹 |
3.3.2 CUDA編程執(zhí)行模型 |
3.4 CUDA編程調試及內核優(yōu)化技巧 |
3.4.1 CUDA編程調試 |
3.4.2 CUDA內核優(yōu)化技巧 |
3.5 本章小結 |
第四章 基于CPU和 GPU的 HRRP識別相關算法并行實現 |
4.1 引言 |
4.2 硬件平臺與軟件框架介紹 |
4.3 分段脈沖壓縮算法并行實現 |
4.3.1 頻域分段脈沖壓縮并行結構分析 |
4.3.2 分段脈沖壓縮CPU多線程并行實現 |
4.3.3 分段脈沖壓縮GPU多線程并行實現 |
4.3.4 分段脈沖壓縮并行實現結果 |
4.4 Keystone變換并行實現 |
4.4.1 Keystone變換并行結構分析 |
4.4.2 DFT+IFFT、Chirp-Z算法的CPU多線程并行實現 |
4.4.3 DFT+IFFT、Chirp-Z算法的GPU多線程并行實現 |
4.4.4 DFT+IFFT、Chirp-Z算法并行實現結果 |
4.4.5 運行時間與線程數的選擇問題 |
4.5 迭代對齊并行實現 |
4.5.1 迭代對齊并行結構分析 |
4.5.2 迭代對齊CPU多線程并行實現 |
4.5.3 迭代對齊GPU多線程并行實現 |
4.5.4 迭代對齊并行實現結果 |
4.6 經典HRRP目標識別模型并行實現 |
4.6.1 MCC、AGC模型并行結構分析 |
4.6.2 MCC、AGC模型的CPU多線程并行實現 |
4.6.3 MCC、AGC模型的GPU多線程并行實現 |
4.6.4 MCC、AGC模型并行實現結果 |
4.6.5 FA、CFA模型并行結構分析 |
4.6.6 FA、CFA模型的CPU多線程并行實現 |
4.6.7 FA、CFA模型的GPU多線程并行實現 |
4.6.8 FA、CFA模型并行實現結果 |
4.7 均值方差解耦合的快速求法 |
4.7.1 CPU均值方差解耦合實現的性能分析 |
4.7.2 GPU均值方差解耦合實現的性能分析 |
4.8 卷積神經網絡識別模型的并行實現 |
4.8.1 卷積神經網絡模型并行結構分析 |
4.8.2 一維卷積神經網絡并行實現 |
4.8.3 二維卷積神經網絡并行實現 |
4.9 本章小結 |
第五章 總結與展望 |
5.1 工作總結 |
5.2 工作展望 |
參考文獻 |
致謝 |
作者簡介 |
(6)離散小波變換的研究與硬件實現(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.2 離散小波變換發(fā)展現狀 |
1.2.1 離散小波變換發(fā)展歷程 |
1.2.2 小波閾值去噪算法研究現狀 |
1.2.3 DWT硬件實現研究現狀 |
1.3 離散小波變換的應用 |
1.4 論文的主要工作及結構安排 |
1.5 課題來源 |
第二章 小波變換理論基礎 |
2.1 小波變換 |
2.1.1 小波基函數 |
2.1.2 連續(xù)小波變換 |
2.1.3 離散小波變換 |
2.2 多分辨率分析和Mallat算法 |
2.2.1 多分辨率分析 |
2.2.2 Mallat算法 |
2.3 提升小波變換 |
2.4 二維離散小波變換 |
2.5 本章小結 |
第三章 小波域去噪算法研究 |
3.1 小波域去噪原理和方法 |
3.1.1 小波域去噪原理 |
3.1.2 小波域去噪方法 |
3.2 小波閾值去噪原理 |
3.3 改進的小波閾值去噪算法 |
3.3.1 改進的閾值函數 |
3.3.2 改進的閾值選取方式 |
3.4 仿真實驗結果分析 |
3.5 本章小結 |
第四章 離散小波變換的硬件設計與實現 |
4.1 離散小波變換的濾波器組結構 |
4.2 有限脈沖響應濾波器結構的研究 |
4.2.1 FIR濾波器的基本結構 |
4.2.2 FIR濾波器的硬件實現結構 |
4.3 一維離散小波變換處理器 |
4.3.1 一維離散小波變換處理器系統(tǒng)架構 |
4.3.2 DWT控制單元 |
4.3.3 DWT運算單元 |
4.3.4 存儲控制單元 |
4.4 二維離散小波變換硬件設計實現 |
4.4.1 多級變換結構 |
4.4.2 運算單元結構設計 |
4.4.3 暫存單元及存儲規(guī)則設計 |
4.4.4 多級二維離散小波變換設計方案 |
4.4.5 二維離散小波變換硬件結構 |
4.5 本章小結 |
第五章 FPGA驗證和結果分析 |
5.1 驗證方案 |
5.2 FPGA驗證 |
5.2.1 FPGA驗證平臺及流程 |
5.2.2 運算誤差分析 |
5.2.3 硬件資源分析 |
5.3 本章小結 |
第六章 總結與展望 |
6.1 總結 |
6.2 展望 |
參考文獻 |
攻讀碩士學位期間的學術活動及成果情況 |
(7)運動圖像去模糊技術研究(論文提綱范文)
致謝 |
摘要 |
abstract |
第一章 前言 |
1.1 課題研究目的及意義 |
1.2 課題的研究背景及發(fā)展現狀 |
1.2.1 圖像去模糊技術研究背景及發(fā)展現狀 |
1.2.2 非盲去模糊方法研究背景及發(fā)展現狀 |
1.2.3 盲去模糊方法研究背景及發(fā)展現狀 |
1.2.4 圖像處理系統(tǒng)研究背景及發(fā)展現狀 |
1.2.5 圖像頻域轉換算法研究背景及發(fā)展現狀 |
1.3 本文主要內容與結構安排 |
1.4 本章小結 |
第二章 運動圖像去模糊算法理論 |
2.1 運動圖像去模糊基本理論 |
2.1.1 常見模糊類型 |
2.1.2 圖像退化模型 |
2.1.3 圖像先驗知識 |
2.2 圖像復原質量評價指標 |
2.2.1 峰值信噪比(PSNR) |
2.2.2 結構相似性(SSIM) |
2.2.3 視覺信息保真度(VIF) |
2.3 圖像復原經典算法 |
2.3.1 逆濾波復原 |
2.3.2 維納濾波復原 |
2.3.3 約束最小二乘法復原 |
2.3.4 Rischardson-Lucy濾波復原 |
2.3.5 四種經典圖像復原的實驗結果及分析 |
2.4 本章小結 |
第三章 基于頻譜特性的模糊核估計 |
3.1 傅里葉變換理論及基本應用 |
3.2 運動模糊圖像頻域特征分析 |
3.3 運動圖像倒譜分析 |
3.4 基于倒譜特性的模糊核估計 |
3.4.1 Canny算子選擇 |
3.4.2 算法具體實現 |
3.4.3 算法實驗結果及分析 |
3.5 本章小結 |
第四章 基于FPGA的模糊圖像頻域優(yōu)化設計 |
4.1 FFT常用算法介紹 |
4.1.1 基2-時域抽取算法 |
4.1.2 基2-頻域抽取算法 |
4.2 FFT通用結構介紹 |
4.2.1 順序結構 |
4.2.2 并行結構 |
4.2.3 流水線結構 |
4.2.4 陣列結構 |
4.3 一維FFT結構優(yōu)化設計 |
4.3.1 RAM存儲模塊 |
4.3.2 ROM存儲模塊 |
4.3.3 蝶形運算單元模塊 |
4.3.4 時序控制模塊 |
4.4 二維FFT結構優(yōu)化設計 |
4.5 仿真測試結果 |
4.5.1 一維FFT仿真測試結果 |
4.5.2 二維FFT仿真測試結果 |
4.6 本章小結 |
第五章 運動圖像去模糊系統(tǒng)實現 |
5.1 系統(tǒng)框架 |
5.1.1 系統(tǒng)組成 |
5.1.2 系統(tǒng)流程 |
5.2 系統(tǒng)硬件平臺構建 |
5.2.1 DE1-SoC開發(fā)板介紹 |
5.2.2 組建HPS硬件系統(tǒng) |
5.3 系統(tǒng)軟件設計 |
5.3.1 Quartus Ⅱ介紹 |
5.3.2 So C-EDS設計工具 |
5.3.3 圖像盲去模糊算法設計 |
5.3.4 基于QT的圖像用戶界面軟件設計 |
5.4 系統(tǒng)測試與分析 |
5.4.1 實驗環(huán)境搭建 |
5.4.2 實驗結果與分析 |
5.5 本章小結 |
第六章 總結和展望 |
6.1 全文總結 |
6.2 工作展望 |
附錄A 實物圖 |
附錄B 攻讀學位期間發(fā)表的學術成果 |
參考文獻 |
(8)二維可分離FIR濾波器稀疏優(yōu)化算法研究(論文提綱范文)
摘要 |
ABSTRACT |
第1章 緒論 |
1.1 課題研究背景及意義 |
1.2 低復雜度2-D濾波器的設計方法 |
1.3 最優(yōu)有限字長濾波器的設計 |
1.4 論文的主要工作和內容安排 |
第2章 可分離2-D FIR濾波器的稀疏優(yōu)化算法 |
2.1 可分離2-D FIR濾波器的設計原理 |
2.2 可分離2-D FIR濾波器的系數優(yōu)化技術 |
2.2.1 系數優(yōu)化問題描述 |
2.2.2 信賴域-迭代梯度搜索技術 |
2.3 可分離2-D FIR濾波器零系數數目最大化問題 |
2.4 可分離2-D FIR濾波器稀疏優(yōu)化算法 |
2.4.1 基于迭代最小l_1范數的稀疏優(yōu)化算法 |
2.4.2 基于迭代重加權l(xiāng)_1范數的稀疏優(yōu)化算法 |
2.4.3 基于貪婪搜索的稀疏優(yōu)化算法 |
2.4.4 基于迭代重加權l(xiāng)_1范數與貪婪搜索聯合的稀疏優(yōu)化算法 |
2.5 仿真實例與結果分析 |
2.6 本章小結 |
第3章 可分離2-D FIR濾波器的量化算法 |
3.1 有限字長效應概述 |
3.2 系數量化問題描述 |
3.3 (迭代)分步式整數線性規(guī)劃算法 |
3.4 (迭代)分步式整數線性規(guī)劃-鄰域搜索算法 |
3.5 近似目標優(yōu)化算法 |
3.6 基于有限二次冪項的系數量化算法 |
3.7 仿真實例 |
3.7.1 1-D FIR濾波器的仿真實例 |
3.7.2 可分離2-D FIR濾波器的仿真實例 |
3.8 本章小結 |
第4章 可分離2-D FIR濾波器的應用與FPGA仿真 |
4.1 2-D濾波器的圖像處理原理 |
4.1.1 傳統(tǒng)2-D濾波器的圖像濾波原理 |
4.1.2 可分離2-D濾波器的圖像濾波原理 |
4.2 Simulink仿真與分析 |
4.2.1 Simulink仿真系統(tǒng)搭建 |
4.2.2 仿真結果與分析 |
4.3 FPGA仿真與分析 |
4.3.1 仿真系統(tǒng)搭建 |
4.3.2 仿真結果與分析 |
4.4 本章小結 |
第5章 總結和展望 |
5.1 總結 |
5.2 展望 |
致謝 |
參考文獻 |
附錄 |
(9)面向FPGA硬件的衛(wèi)星影像GA-RLS-RFM正射糾正優(yōu)化算法研究(論文提綱范文)
摘要 |
ABSTRACT |
第1章 緒論 |
1.1 研究背景及意義 |
1.2 國內外研究現狀 |
1.2.1 衛(wèi)星影像幾何糾正模型研究現狀 |
1.2.2 星上遙感影像實時處理現狀 |
1.3 本文的研究內容和創(chuàng)新點 |
1.4 組織結構 |
第2章 衛(wèi)星影像的VGM無控定位模型 |
2.1 引言 |
2.2 單線陣推掃式衛(wèi)星的成像幾何 |
2.3 衛(wèi)星星歷數據和姿態(tài)數據插值 |
2.3.1 星歷數據插值 |
2.3.2 姿態(tài)數據插值 |
2.4 單線陣推掃式衛(wèi)星影像的VGM無控定位模型 |
2.4.1 像元在本體坐標系中的視線向量 |
2.4.2 像元在軌道坐標系中的視線向量 |
2.4.3 像元在地心坐標系中的視線向量 |
2.4.4 VGM模型的建立 |
2.4.5 地面點大地坐標的解算 |
2.5 VGM模型改正 |
2.5.1 改正由相對速度引起的像差 |
2.5.2 改正由光傳輸延遲引起的定位誤差 |
2.5.3 改正衛(wèi)星參數中的系統(tǒng)誤差 |
2.6 利用VGM模型進行衛(wèi)星影像定位實驗 |
2.6.1 無控制點的定位實驗 |
2.6.2 有控制點的定位實驗 |
2.6.3 實驗結果分析 |
2.7 本章小結 |
第3章 衛(wèi)星遙感影像的RLS-RFM模型 |
3.1 引言 |
3.2 RLS-RFM模型的建立 |
3.2.1 RLS-RFM模型參數求解算法 |
3.2.2 RLS-RFM模型參數求解流程 |
3.2.3 RLS-RFM模型參數求解實驗 |
3.3 利用RLS-RFM模型對衛(wèi)星影像進行正射糾正 |
3.3.1 RLS-RFM模型像方坐標補償 |
3.3.2 SPOT-6 影像正射糾正實驗 |
3.3.3 IKONOS-2 影像正射糾正實驗 |
3.4 本章小結 |
第4章 RLS-RFM模型的遺傳算法優(yōu)化及衛(wèi)星影像正射糾正算法 |
4.1 引言 |
4.2 RLS-RFM模型的遺傳算法優(yōu)化原理 |
4.2.1 個體編碼 |
4.2.2 適應度函數的建立 |
4.2.3 種群繁殖 |
4.3 衛(wèi)星影像的正射糾正算法 |
4.3.1 傳統(tǒng)的基于RFM模型的衛(wèi)星影像正射糾正算法 |
4.3.2 衛(wèi)星影像的GA-RLS-RFM正射糾正算法 |
4.4 衛(wèi)星影像的GA-RLS-RFM正射糾正實驗 |
4.4.1 GA算法參數設計 |
4.4.2 SPOT-6 影像正射糾正實驗 |
4.4.3 IKONOS-2 影像正射糾正實驗 |
4.5 本章小結 |
第5章 衛(wèi)星影像的 VGM無控定位算法的 FPGA硬件架構 |
5.1 引言 |
5.2 FPGA硬件架構 |
5.3 子模塊 |
5.3.1 CTRL_VGM模塊 |
5.3.2 VVCM模塊 |
5.3.3 RAM_VV模塊 |
5.3.4 ITERATION模塊 |
5.4 仿真實驗 |
5.4.1 參數設置 |
5.4.2 仿真波形 |
5.4.3 性能分析 |
5.5 本章小結 |
第6章 RLS-RFM模型參數求解算法的FPGA硬件架構 |
6.1 引言 |
6.2 FPGA硬件架構 |
6.3 .子模塊 |
6.3.1 NORMALIZE模塊 |
6.3.2 快速的矩陣乘法并行結構 |
6.4 仿真實驗 |
6.4.1 參數設置 |
6.4.2 仿真波形 |
6.4.3 性能分析 |
6.5 本章小結 |
第7章 GA-RLS-RFM正射糾正算法的FPGA硬件架構 |
7.1 引言 |
7.2 FPGA硬件架構 |
7.3 子模塊 |
7.3.1 GARFM模塊 |
7.3.2 GETCORD模塊 |
7.3.3 ORTHOM模塊 |
7.4 仿真實驗 |
7.4.1 參數設置 |
7.4.2 仿真波形 |
7.4.3 性能分析 |
7.5 本章小結 |
第8章 總結與展望 |
8.1 總結 |
8.2 研究展望 |
參考文獻 |
附錄:英文縮寫詞 |
發(fā)表論文和參加科研情況說明 |
致謝 |
(10)夾雜問題數值解法的并行實現及算法優(yōu)化研究(論文提綱范文)
中文摘要 |
英文摘要 |
1 緒論 |
1.1 課題背景與意義 |
1.2 國內外研究現狀 |
1.2.1 夾雜問題及其數值算法研究現狀 |
1.2.2 并行計算軟硬件發(fā)展 |
1.3 研究內容 |
2 夾雜問題的快速傅里葉離散卷積/相關數值算法 |
2.1 夾雜體基本單元解 |
2.1.1 全空間夾雜體基本單元解 |
2.1.2 半空間夾雜基本單元解 |
2.2 任意形狀夾雜體的數值算法 |
2.3 卷積/相關定理及其快速傅里葉變換 |
2.3.1 離散卷積 |
2.3.2 離散相關 |
2.4 數值算法的快速傅里葉加速 |
2.4.1 全空間快速傅里葉離散卷積算法 |
2.4.2 半空間快速傅里葉離散卷積/相關算法 |
2.5 本章總結 |
3 基于FFTW的不同快速傅里葉變換算法研究 |
3.1 FFTW算法基礎 |
3.1.1 不同數據序列的離散快速傅里葉算法 |
3.1.2 FFTW在Fortran中的實現 |
3.1.3 FFTW多線程原理 |
3.2 實數FFT(r2c/c2r)的同位運算和非同位運算卷積 |
3.3 復數FFT同時變換雙實序列 |
3.4 結果與討論 |
3.4.1 不同FFT卷積算法比較 |
3.4.2 FFTW變換控制參數及并行測試 |
3.5 本章總結 |
4 基于CPU和GPU并行的夾雜問題數值算法加速 |
4.1 數值算法CPU并行 |
4.1.1 OpenMP并行結構 |
4.1.2 CPU并行方案分析及實現 |
4.1.3 結果和討論 |
4.2 數值算法GPU并行 |
4.2.1 GPU結構及OpenACC構件 |
4.2.2 數值算法GPU并行實現 |
4.2.3 結果和分析 |
4.3 單元解角點積分的去重復優(yōu)化及并行實現 |
4.3.1 計算重復性分析 |
4.3.2 去重復優(yōu)化實現 |
4.3.3 結果和討論 |
4.4 結果準確性驗證 |
4.5 本章總結 |
5 夾雜問題數值算法結構優(yōu)化 |
5.1 數值算法的獨立網格研究 |
5.1.1 獨立網格的實施 |
5.1.2 獨立網格奇點分析 |
5.1.3 結果和討論 |
5.2 全空間系數矩陣對稱性利用 |
5.2.1 對稱性利用分析 |
5.2.2 對稱壓縮法消除對稱元素計算 |
5.2.3 最少元素法消除對稱元素計算 |
5.2.4 結果和討論 |
5.3 響應原函數的文件存儲再利用 |
5.3.1 不同存儲文件格式比較 |
5.3.2 存儲再利用實現 |
5.3.3 結果和討論 |
5.4 結果準確性驗證 |
5.5 本章總結 |
6 總結與展望 |
6.1 總結 |
6.2 展望 |
參考文獻 |
附錄 |
A.作者在攻讀學位期間發(fā)表的論文和科研成果 |
B.作者在攻讀學位期間參與的科研項目 |
C.學位論文數據集 |
致謝 |
四、一種并行結構的二維正/逆整數變換處理器(論文參考文獻)
- [1]視覺檢測中特征提取的FPGA加速技術研究[D]. 潘銀飛. 合肥工業(yè)大學, 2021
- [2]面向異構系統(tǒng)的多面體編譯優(yōu)化關鍵技術研究[D]. 李穎穎. 戰(zhàn)略支援部隊信息工程大學, 2021(01)
- [3]LFMCW雷達信號處理關鍵算法芯片研究及系統(tǒng)驗證[D]. 黃哲. 電子科技大學, 2021(01)
- [4]基于多核處理平臺的HEVC解碼核心模塊并行處理的算法設計與實現[D]. 李毅. 南京郵電大學, 2020(03)
- [5]基于CPU和GPU的雷達目標識別算法并行實現[D]. 鐘銀都. 西安電子科技大學, 2020(05)
- [6]離散小波變換的研究與硬件實現[D]. 杜詩強. 合肥工業(yè)大學, 2020
- [7]運動圖像去模糊技術研究[D]. 李菁菁. 南京林業(yè)大學, 2020(01)
- [8]二維可分離FIR濾波器稀疏優(yōu)化算法研究[D]. 李偉琪. 杭州電子科技大學, 2020(02)
- [9]面向FPGA硬件的衛(wèi)星影像GA-RLS-RFM正射糾正優(yōu)化算法研究[D]. 張榮庭. 天津大學, 2019(01)
- [10]夾雜問題數值解法的并行實現及算法優(yōu)化研究[D]. 羅大輝. 重慶大學, 2019