一、主題爬蟲的解決方案(論文文獻綜述)
劉娜[1](2020)在《冬奧會新聞文本采集及分類分析系統(tǒng)的設(shè)計與實現(xiàn)》文中認(rèn)為隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息數(shù)量不斷增加。網(wǎng)絡(luò)數(shù)據(jù)多以文本類型展現(xiàn),但文本信息分布發(fā)散,內(nèi)容復(fù)雜,分類單一,導(dǎo)致網(wǎng)絡(luò)信息的采集和分析難度較大。為解決數(shù)據(jù)采集困難和文本分類粗糙的問題,本論文以主題爬蟲和文本分類技術(shù)為基礎(chǔ),利用Python語言設(shè)計并實現(xiàn)了冬奧會新聞文本采集及分類分析系統(tǒng)。該系統(tǒng)主要包括數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)可視化三個功能模塊。在數(shù)據(jù)采集模塊中,為了采集與冬奧會主題相關(guān)的新聞文本數(shù)據(jù),定制了主題爬蟲。所獲得的數(shù)據(jù)為冬奧會信息的分類與分析提供了數(shù)據(jù)支撐,并實現(xiàn)了對冬奧會網(wǎng)絡(luò)信息的初步數(shù)據(jù)整合。數(shù)據(jù)分類模塊主要分為兩個部分:數(shù)據(jù)篩選和文本分類。為實現(xiàn)對無關(guān)信息的篩選,本論文基于近鄰算法SNN引入局部密度和相似度,提出了基于局部密度和相似度的自適應(yīng)SNN算法(AK-SNN)。為驗證AK-SNN算法的性能,分別在UCI數(shù)據(jù)集和冬奧會新聞文本數(shù)據(jù)集上進行了對比實驗。實驗結(jié)果表明,AK-SNN具有更好的魯棒性和預(yù)測精度。為進一步對網(wǎng)絡(luò)文本數(shù)據(jù)進行類別細分,采用極限學(xué)習(xí)機(ELM)作為文本分類器實現(xiàn)文本信息的多分類。結(jié)果表明,ELM在多類別的文本分類中獲得了良好的分類精度。在數(shù)據(jù)可視化模塊中,為了直觀展示采集和分類結(jié)果,利用Django框架設(shè)計了Web展示界面。為挖掘信息中的潛在價值,對分類結(jié)果、新聞來源、新聞發(fā)布日期等多方面進行數(shù)據(jù)分析,并對分析結(jié)果進行了可視化。本論文的設(shè)計與實現(xiàn)為2022年冬奧會網(wǎng)絡(luò)信息的采集和分析提供了一定的數(shù)據(jù)支持和技術(shù)支撐,同時為挖掘大型體育賽事相關(guān)網(wǎng)絡(luò)新聞文本中的潛在價值信息提供了一種可供借鑒的思路。
劉成軍[2](2020)在《基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng)的研究和實現(xiàn)》文中研究表明隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)上的信息不斷累積,傳統(tǒng)的網(wǎng)絡(luò)爬蟲已經(jīng)難以滿足人們對信息的個性化和實時性獲取的需要,主題爬蟲應(yīng)運而生。相比于傳統(tǒng)網(wǎng)絡(luò)爬蟲,主題爬蟲有明確的主題描述作為爬取目標(biāo),有智能的鏈接評價來優(yōu)化主題爬取的路徑,從而獲得了更高的效率。然而,主題爬蟲當(dāng)前的主題描述方法難以實現(xiàn)構(gòu)建成本與完備性的平衡,當(dāng)前的主題爬取過程也難以協(xié)調(diào)影響鏈接優(yōu)先級的多種因素之間的關(guān)系。針對這些問題,本文提出基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng)。本文使用查詢擴展來增強原始主題描述的完備性,在迭代查詢結(jié)果中使用改進后的TextRank算法抽取主題關(guān)鍵詞來充實主題模型。首先基于BERT模型預(yù)訓(xùn)練的詞向量在TextRank算法的轉(zhuǎn)移權(quán)重矩陣中引入主題相關(guān)度影響因子,從而提出Topic-TextRank算法,用以改進主題關(guān)鍵詞的提取效果;再結(jié)合查詢擴展中相關(guān)反饋和偽相關(guān)反饋的迭代過程,將Topic-TextRank算法的主題關(guān)鍵詞結(jié)果權(quán)重與查詢排名做了動態(tài)融合;進而提出基于動態(tài)Topic-TextRank算法的相關(guān)反饋和偽相關(guān)反饋兩種主題描述的擴展框架,并用實驗驗證這兩種框架對于主題描述效果的提升。本文將主題爬取過程抽象成多目標(biāo)優(yōu)化問題,將決定鏈接優(yōu)先級的因素抽象為目標(biāo)函數(shù),再使用改進后的蟻群算法和改進后的NSGA-Ⅱ算法來解決。對于蟻群算法,本文根據(jù)網(wǎng)頁主題相關(guān)與否將信息素細分為增益信息素和懲罰信息素兩類,并基于這兩種信息素和蟻群路徑上的點對前溯多段路徑的影響力提出蟻群的回溯式信息素更新算法。對于NSGA-Ⅱ算法,本文引入了帶權(quán)擁擠距離的計算方法以優(yōu)化最終的精英選擇。然后融合這兩種改進算法提出了基于多目標(biāo)優(yōu)化的主題爬取策略,并用實驗驗證了其對于主題爬蟲查準(zhǔn)率和效率的提高。本文開發(fā)并實現(xiàn)了基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng),實現(xiàn)對目標(biāo)主題的準(zhǔn)確全面高效的爬取。系統(tǒng)包括主題描述模塊、主題爬取模塊和數(shù)據(jù)存儲模塊。主題描述模塊基于查詢擴展獲取主題模型和種子網(wǎng)頁,主題爬取模塊實現(xiàn)基于多目標(biāo)優(yōu)化的爬取過程,數(shù)據(jù)存儲模塊使用Redis和MySQL實現(xiàn)爬行中間數(shù)據(jù)及結(jié)果網(wǎng)頁的存儲。
東熠[3](2020)在《基于領(lǐng)域本體和多目標(biāo)蟻群算法的主題爬蟲技術(shù)研究》文中進行了進一步梳理隨著網(wǎng)絡(luò)資源的日益龐大和信息更新速度的飛速增長,適應(yīng)特定領(lǐng)域、特定需求的個性化搜索急需主題爬蟲技術(shù)的支持。為了提高主題爬蟲的搜索質(zhì)量,本文主要研究了主題模型的構(gòu)建方法、主題相關(guān)度計算方法和主題爬蟲的搜索策略,通過本體學(xué)習(xí)技術(shù)半自動構(gòu)建領(lǐng)域本體,引入多目標(biāo)蟻群優(yōu)化算法(MOACO)提高主題爬蟲的搜索性能。具體的研究內(nèi)容和方法如下:(1)針對主題模型的構(gòu)建,提出了一種基于本體學(xué)習(xí)技術(shù)的領(lǐng)域本體構(gòu)建方法。首先,通過形式概念分析(FCA)方法從文獻資源中獲取類和類的上下位關(guān)系,構(gòu)建本體的骨架。然后,采用潛在狄利克雷分布(LDA)主題模型從網(wǎng)絡(luò)資源中挖掘與主題相關(guān)的概念,并將Apriori算法引入生成的主題集合中挖掘概念之間的關(guān)系,豐富本體骨架的層次結(jié)構(gòu)。最后,人工對本體進行調(diào)整,生成領(lǐng)域本體。本文依據(jù)所提出的方法構(gòu)建了臺風(fēng)領(lǐng)域本體、暴雨領(lǐng)域本體和寒潮領(lǐng)域本體。通過Protégé軟件實現(xiàn)領(lǐng)域本體的可視化。(2)針對主題相關(guān)度計算,基于領(lǐng)域本體的主題模型,給出了概念語義相似度、網(wǎng)頁文本主題相關(guān)度和超鏈接主題相關(guān)度的計算方法。分別以“臺風(fēng)”、“暴雨”和“寒潮”為主題,將基于本體學(xué)習(xí)技術(shù)構(gòu)建的領(lǐng)域本體和基于FCA方法構(gòu)建的領(lǐng)域本體進行對比試驗,實驗結(jié)果驗證了本文提出的基于本體學(xué)習(xí)技術(shù)的領(lǐng)域本體構(gòu)建方法的可行性和有效性。(3)針對主題爬蟲搜索策略,提出了一種基于領(lǐng)域本體和多目標(biāo)蟻群算法的主題爬蟲技術(shù)(FC_OMOACO)。本文綜合考慮鏈接結(jié)構(gòu)和網(wǎng)頁文本內(nèi)容構(gòu)建多目標(biāo)優(yōu)化模型,根據(jù)快速非支配排序方法和最近最遠候選解法(NFCS)選取一組Pareto最優(yōu)鏈接,優(yōu)化超鏈接選擇的多樣性,指導(dǎo)爬蟲的搜索方向。將蟻群算法引入主題爬蟲技術(shù),并通過啟發(fā)式搜索和正反饋機制提高爬蟲的全局搜索能力,盡量避免搜索陷入局部最優(yōu)的困境。最后,分別以“臺風(fēng)災(zāi)害”,“暴雨災(zāi)害”和“寒潮災(zāi)害”為主題,將FC_OMOACO和文獻中其他四種主題爬蟲方法進行對比實驗,結(jié)果表明本文提出的主題爬蟲技術(shù)是一種更加有效的爬蟲方法。
單文遠[4](2020)在《分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計》文中研究說明互聯(lián)網(wǎng)時代,如何從海量數(shù)據(jù)中收集信息是一個關(guān)鍵問題。目前,使用最頻繁的信息檢索與收集工具是基于通用爬蟲的搜索引擎。但通用爬蟲獲取到的信息價值密度低。對此,部分學(xué)者提出了主題爬蟲。主題爬蟲是一種會按照爬行策略對頁面內(nèi)容與爬行方向進行分析與篩選的爬蟲。與通用爬蟲相比,主題爬蟲盡量避免與主題不相關(guān)頁面的抓取,存儲的頁面數(shù)量更少,所獲取的信息價值密度更高,是一種有效的信息收集工具。主題爬蟲的研究與應(yīng)用始于20世紀(jì)90年代,迄今為止,研究成果主要包括基于內(nèi)容的爬行策略與基于鏈接結(jié)構(gòu)的爬行策略;前者以Fish Search、Shark Search為代表,后者以Page Rank、HITS為代表。此外,一些學(xué)者提出了基于敘詞表或本體的語義爬蟲,讓主題爬蟲在特定領(lǐng)域具備了語義分析的能力。在生產(chǎn)應(yīng)用中,則形成了以WebMagic、WebCollector、WebCollector-Hadoop為代表的爬蟲技術(shù)。語義爬蟲具備了一定的同義詞、近義詞識別能力,是對向量空間模型的一種有效改進。但問題在于,這種識別能力受到敘詞表或本體的限制,有一定的局限性。如何讓主題爬蟲具備泛化的同義詞、近義詞識別能力,在相似度計算過程中更好的對同義詞、近義詞做評估是一個研究熱點。另外,如何通過有效的架構(gòu)設(shè)計降低爬蟲任務(wù)的耗時是一個關(guān)鍵問題。為了改善主題爬蟲的同義詞、近義詞識別能力。本文提出了一種基于分布式詞向量的相似度計算方式。本文以word2vec作為生成的詞向量模型,模型通過維基百科的語料庫進行訓(xùn)練。此種方法的核心在于,用主題與頁面的詞向量集合而非二者的文檔向量作為相似度計算的基準(zhǔn),把二者的每一對詞語的相似度都納入到二者整體相似度的考量中去,讓主題爬蟲具備泛化的同義詞、近義詞識別能力,更全面地評價頁面與主題之間的相似度;有效地提升主題爬蟲的爬準(zhǔn)率與爬全率。為驗證這種方法的優(yōu)劣,本文選取了多個目標(biāo)網(wǎng)站與多組主題詞集合,在等同條件下檢測了向量空間模型與本文提出的相似度計算方式。此外,為提升主題爬蟲的運行效率,本文結(jié)合微服務(wù)的理念,設(shè)計了一種分布式爬蟲架構(gòu)。為驗證該架構(gòu)設(shè)計的有效性,在等同條件下,以在生產(chǎn)環(huán)境中已經(jīng)得到廣泛應(yīng)用的WebMagic、WebCollector、WebCollector-Hadoop作為參照進行了對比實驗。經(jīng)過實驗,與向量空間模型相比,本文提出的相似度計算方式提升了主題爬蟲的爬準(zhǔn)率與爬全率。在與WebMagic、WebCollector、WebCollector-Hadoop的對比中,本文設(shè)計的爬蟲在任務(wù)條件相同的情形下完成爬蟲任務(wù)的時間更短,表現(xiàn)出更高的運作效率。此外,本文通過Java等編程語言開發(fā)了一個簡單易用的分布式主題網(wǎng)絡(luò)爬蟲系統(tǒng)。總體而言,本文的對主題爬蟲的設(shè)計與改進是有效的。但本文設(shè)計的主題爬蟲也存在一些待完善的點。首先,實驗中用到的種子URL都是人工選擇的;另外,頁面中的圖片、視頻等信息并沒有得到充分利用。如何自動化、智能化的選擇種子URL,并有效的分析頁面中的非文本信息是主題爬蟲未來的研究點。
彭宏勝[5](2019)在《基于Shark-Search與OTIE自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)》文中指出在數(shù)據(jù)量呈爆炸式增長的大數(shù)據(jù)時代,互聯(lián)網(wǎng)數(shù)據(jù)成為21世紀(jì)最重要的資源,同時也是人工智能發(fā)展的基石。如何精準(zhǔn)、快速地從互聯(lián)網(wǎng)資源中獲取有用的數(shù)據(jù)成為當(dāng)前研究的熱點。通用搜索引擎盡量為用戶查詢并返回更多的數(shù)據(jù),但是返回的數(shù)據(jù)中非用戶需要數(shù)據(jù)占據(jù)多數(shù)。主題搜索引擎是通過檢索用戶給定的主題信息,來提高搜索引擎的速度與準(zhǔn)確率,因此成為搜索引擎研究的主要方向。網(wǎng)絡(luò)爬蟲是搜索引擎中重要的組成部分,專為搜索引擎從互聯(lián)網(wǎng)上獲取網(wǎng)絡(luò)資源。主題爬蟲領(lǐng)域的三類經(jīng)典算法其中包括:基于鏈接的算法、基于內(nèi)容的算法和鏈接與內(nèi)容相結(jié)合的算法。本文首先對基于內(nèi)容的Shark-Search算法中存在的不足進行優(yōu)化,然后對基于鏈接與內(nèi)容相結(jié)合的OTIE自適應(yīng)算法中存在的問題進行解決,最后在兩個改進算法的基礎(chǔ)上實現(xiàn)主題爬蟲系統(tǒng)。主要研究內(nèi)容如下:(1)基于內(nèi)容的主題爬蟲算法Shark-Search的改進。針對Shark-Search算法在計算子鏈接主題相關(guān)度時易受到其上下文信息量不足和噪音鏈接的影響,提出改進算法ESS(Enhance Shark-Search)。首先,ESS算法不再通過簡單的關(guān)鍵詞與子鏈接上下文內(nèi)容進行相似度計算,而是利用迭代式擴展-過濾技術(shù)來擴展主題詞,得到一個主題相關(guān)性更全面的主題詞集,可以有效降低因信息量不足而產(chǎn)生的影響。其次,ESS算法通過引入預(yù)判權(quán)值U(l)來消除噪音鏈接,預(yù)判權(quán)值U(l)是通過獲取子鏈接在網(wǎng)頁中的CSS樣式、錨文本、圖片標(biāo)簽等特征同時利用每個特征對應(yīng)的權(quán)重計算得到最后的權(quán)值,預(yù)判權(quán)值U(l)的引入對降低噪音鏈接的影響起到明顯的效果。通過從新浪資訊網(wǎng)中抓取4個不同主題的數(shù)據(jù)進行實驗,實驗結(jié)果表明,ESS算法的查準(zhǔn)率比原算法提高了12.1%,查全率比原算法提高了12.08%。(2)基于鏈接與內(nèi)容相結(jié)合的OTIE自適應(yīng)算法的改進。針對OTIE自適應(yīng)算法未全面考慮新舊網(wǎng)頁的平衡,爬蟲程序在爬行網(wǎng)頁過程中由于網(wǎng)頁現(xiàn)金值分配不佳導(dǎo)致抓取到的新網(wǎng)頁數(shù)量偏少的問題,提出改進的自適應(yīng)算法E-OTIE。E-OTIE自適應(yīng)算法在判斷網(wǎng)頁重要性時引入一個與時間有關(guān)的權(quán)重因子W(t)。權(quán)重因子W(t)是網(wǎng)頁最新被修改到被抓取的時間差值,若時間差越大,則該網(wǎng)頁越舊,對應(yīng)的權(quán)值越低。時間權(quán)重的引入對平衡新舊網(wǎng)頁起到明顯的效果。通過從互聯(lián)網(wǎng)中爬取的數(shù)據(jù)進行實驗,實驗結(jié)果表明,E-OTIE自適應(yīng)算法的平均收獲率和平均召回率與原始算法很接近,而算法的新網(wǎng)頁收獲率提升約23%。(3)基于上述的研究,本文將實現(xiàn)一個主題爬蟲的原型系統(tǒng),使用者根據(jù)其需求在系統(tǒng)界面中簡單配置,然后抓取符合條件的數(shù)據(jù)。
李帆[6](2019)在《設(shè)施布局及主題爬蟲技術(shù)的超啟發(fā)式算法研究》文中指出超啟發(fā)式算法及其應(yīng)用一直是計算機理論科學(xué)領(lǐng)域研究的重點。研究表明,超啟發(fā)式算法對于求解NP-hard難度問題和優(yōu)化信息檢索技術(shù)的性能和質(zhì)量十分有效。設(shè)施布局問題(FLP)屬于NP-hard難度問題,而生產(chǎn)車間合理的設(shè)施布局能有效地提升企業(yè)生產(chǎn)效益,但目前尚不存在精準(zhǔn)而有效的方法來求解FLP的全局最優(yōu)解。對于信息檢索中的主題爬蟲(FC)技術(shù),其旨在從整個Web上抓取盡可能多的與特定主題相關(guān)的網(wǎng)頁,因此如何優(yōu)化FC技術(shù)的全局搜索能力十分重要。本文主要研究多行動態(tài)設(shè)施布局問題(DFLP)和主題爬蟲搜索策略,通過提出幾種超啟發(fā)式算法來求解多行DFLP問題和提高主題爬蟲的搜索性能。具體研究內(nèi)容和方法如下:1)對于多行DFLP問題的求解,本文提出了一種改進的遺傳算法(mGA)和回溯搜索算法(BSA)。首先,通過結(jié)合使用自適應(yīng)部分映射交叉(PMX)和自適應(yīng)混合多種變異策略來提高遺傳算法(GA)解的多樣性,提出一種求解多行DFLP的改進遺傳算法(mGA)。其次,對于一種新的進化算法——回溯搜索算法(BSA),由于其具有獨特的初始化、交叉以及變異機制和更強的“記憶”能力,本文通過對其進行改進后引入多行DFLP的求解。最后,將不同算法應(yīng)用于經(jīng)典算例進行實驗測試,計算結(jié)果驗證了mGA和BSA算法求解多行DFLP問題的有效性。2)對于優(yōu)化主題爬蟲檢索技術(shù),本文提出一種基于本體的主題退火爬蟲算法(FCOSA)。在FCOSA算法中,提出了使用基于全局本體和局部本體的超鏈接二次篩選策略,結(jié)合改進的模擬退火算法(ISA),可以有效地拓寬爬蟲路徑,避免主題爬行陷入局部最優(yōu)搜索。通過以“暴雨災(zāi)害”為主題,實現(xiàn)基于不同優(yōu)化算法的爬蟲策略,發(fā)現(xiàn)FCOSA算法是優(yōu)化FC技術(shù)的一種非常有效的方法。
李新[7](2019)在《面向設(shè)施布局和主題爬蟲的構(gòu)型空間進化算法研究》文中研究指明全局優(yōu)化算法一直是計算機理論科學(xué)研究的重點,涉及生產(chǎn)制造、物流運輸、網(wǎng)絡(luò)服務(wù)等諸多領(lǐng)域。構(gòu)型空間進化算法(Configuration Space Evolutionary,CSE)是一種先進的全局優(yōu)化算法,具有良好的全局搜索能力和較強的健碩性。本文以企業(yè)生產(chǎn)中設(shè)施布局以及網(wǎng)絡(luò)服務(wù)中信息檢索為應(yīng)用背景,主要研究多目標(biāo)動態(tài)設(shè)施布局問題(Multi-objective Dynamic Facility Layout Problem,MO-DFLP)和主題爬蟲搜索策略,通過提出兩種改進的CSE算法來求解MO-DFLP和提高主題爬蟲的全局搜索性能。主要研究內(nèi)容和方法如下:(1)針對MO-DFLP的求解,提出了一種結(jié)合混合多種交叉策略和啟發(fā)式變異策略的改進的CSE算法(ICSE),進一步提高了解的多樣性和算法的全局優(yōu)化能力。另外,針對多目標(biāo)優(yōu)化中Pareto最優(yōu)解的選取問題,提出了一種基于個體距離的最近最遠候選解法(Nearest and Farthest Candidate Solution,NFCS),維持了Pareto解集中解的良好分布。最后,使用兩組測試算例對ICSE算法進行測試,并將其計算結(jié)果與文獻中其他幾個優(yōu)秀算法進行比較。實驗結(jié)果表明ICSE算法是求解MO-DFLP的一種有效算法。(2)針對主題爬蟲搜索策略的優(yōu)化,提出了一種基于Web的構(gòu)型空間進化算法(WCSE)。根據(jù)主題爬蟲的特點,WCSE算法重新定義了CSE算法中構(gòu)型距離的度量方式,并設(shè)計了新的進化操作和構(gòu)型庫更新機制,結(jié)合快速非支配排序法和NFCS方法,對鏈接主題相關(guān)度進行綜合排序分析后確定待爬行鏈接的選擇,優(yōu)化了爬蟲的全局搜索路徑。最后,以“暴雨災(zāi)害”為主題,將WCSE算法與三種經(jīng)典單目標(biāo)優(yōu)化算法進行對比實驗,數(shù)值結(jié)果表明WCSE算法是優(yōu)化主題爬蟲技術(shù)的一種有效算法。
蔣鵬[8](2019)在《基于仿生學(xué)的主題爬蟲搜索策略及關(guān)鍵技術(shù)研究》文中指出主題爬蟲(Focused Crawler)是主題搜索引擎的關(guān)鍵部件,目的是檢索最大數(shù)量的與特定主題相關(guān)的網(wǎng)頁。它會根據(jù)相關(guān)算法或者特定策略進行網(wǎng)頁篩選,直到達到一定的下載數(shù)量、迭代次數(shù)或者主題相似度的精度閾值為止。比之通用爬蟲,主題爬蟲需要解決以下問題:主題定義、網(wǎng)頁數(shù)據(jù)的分析、未知URL的搜索策略。對于主題定義、網(wǎng)頁數(shù)據(jù)的分析已經(jīng)比較準(zhǔn)確和全面。而未知URL的搜索策略一直是主題爬蟲研究領(lǐng)域的熱點及難點,該領(lǐng)域的研究從最初的基于內(nèi)容和鏈接到利用敘詞表和本體,再到目前基于機器學(xué)習(xí)算法,主題爬蟲的搜索精度和覆蓋率都有了一定的提升。然而,當(dāng)前主題爬蟲的搜索策略研究依然存在著主題計算準(zhǔn)確率較低,抓取網(wǎng)頁的覆蓋率不高,容易出現(xiàn)主題偏移,種子頁面選取不合理等問題。為了解決以上問題,本文對主題爬蟲搜索策略及相關(guān)技術(shù)進行了如下研究:1.本文設(shè)計了一個基于變異思想改進粒子群算法的主題爬蟲模型。首先,對于每個主題基于點擊率獲取3種容易產(chǎn)生大規(guī)模聚集的網(wǎng)頁群中的典型頁面。然后,計算每個主題3種種子頁面的權(quán)值,將權(quán)值作為粒子群爬蟲的初始速度和方向值,使用本文提出的基于變異思想改進的粒子群算法抓取頁面。其中,本文改進的算法將全局極值設(shè)置為完美但實際上并不存在的值,從而忽略了全局極值的影響并在算法陷入局部收斂時加入變異思想。最后通過對比實驗并進行結(jié)果分析,對比于傳統(tǒng)的爬蟲方法,本文提出的主題爬蟲模型可以獲得更高的準(zhǔn)確率,能夠抓取高質(zhì)量的網(wǎng)頁。2.本文搭建了一種基于改進Louvain算法的種子頁面選取框架。首先,基于搜索引擎獲取一定數(shù)量的初始相關(guān)種子頁面,將這些頁面作為節(jié)點,使用本文改進Louvain算法對其進行社區(qū)劃分。然后,計算初始劃分社區(qū)的歸一化互信息確定節(jié)點大小,通過刪除多余節(jié)點構(gòu)造出超級節(jié)點網(wǎng)絡(luò)。最后,通過計算超級網(wǎng)絡(luò)節(jié)點頁面內(nèi)容與主題的相似度得到超級網(wǎng)絡(luò)節(jié)點頁面權(quán)值,選取權(quán)值大于閾值的節(jié)點頁面并去掉屬于同一個社區(qū)的節(jié)點頁面,得到種子頁面集合。經(jīng)過實驗分析,證明本框架生成的種子頁面能夠有效提升主題爬蟲的準(zhǔn)確率和主題覆蓋率。
閆寧[9](2019)在《基于網(wǎng)絡(luò)爬蟲的水利信息聚合系統(tǒng)的設(shè)計與實現(xiàn)》文中指出隨著水利信息化的發(fā)展,互聯(lián)網(wǎng)上累積了數(shù)據(jù)量龐大的水利主題信息。由于互聯(lián)網(wǎng)上的信息具有數(shù)據(jù)量龐大,分布離散,結(jié)構(gòu)復(fù)雜等特點,采用傳統(tǒng)的人工采集方式進行信息的獲取,具有效率低下等問題。使用網(wǎng)絡(luò)爬蟲則可以方便快捷地獲取到數(shù)據(jù)量龐大,主題相關(guān)性高的水利信息。系統(tǒng)以主題爬蟲為基礎(chǔ)構(gòu)建信息聚合平臺,實現(xiàn)水利信息的獲取和利用。論文的主要研究內(nèi)容如下:(1)水利主題爬蟲各功能模塊設(shè)計。對主題爬蟲的框架進行選擇,種子站點的集合進行篩選,主題描述詞庫進行定義,爬行策略進行選擇,鏈接提取方案進行設(shè)計,主題相關(guān)性分析算法進行分析與改進。(2)水利GIS信息爬取方案設(shè)計。GIS格式的信息是水利行業(yè)區(qū)別于其他行業(yè)的顯著特點。水利地理信息大多數(shù)是以接口的形式提供服務(wù),用戶無法直接獲取到原始的數(shù)據(jù)??筛鶕?jù)瓦片金字塔模型進行地圖拼接和縮放算法的設(shè)計,實現(xiàn)水利地圖信息的獲取。(3)多種格式水利信息爬取方案設(shè)計。水利主題爬蟲根據(jù)不同格式信息的特點定制不同的爬取方案,將文字、數(shù)據(jù)、圖片、視頻影像和地圖等多種格式的水利信息進行全面獲取。(4)水利信息規(guī)范化設(shè)計。為了解決水利信息形式不統(tǒng)一、表現(xiàn)不規(guī)范等問題,水利信息規(guī)范化模塊將信息按種類轉(zhuǎn)化成通用的格式,并對不符合規(guī)范的信息進行相應(yīng)算法處理,使信息規(guī)范化。(5)搭建水利信息聚合平臺。以爬蟲爬取的水利信息為基礎(chǔ),進行水利信息聚合平臺的搭建。該平臺對水利信息進行聚合,為用戶提供水利信息展示和檢索等多種服務(wù)。水利信息聚合系統(tǒng)采用主題爬蟲對信息進行爬取,并且構(gòu)建水利信息聚合平臺,將水利信息在該平臺進行聚合使用,為用戶提供多種特色化信息服務(wù)。該系統(tǒng)為用戶進行水利信息的采集和利用帶來了極大的便利和良好的體驗。
楊力[10](2019)在《基于網(wǎng)絡(luò)爬蟲的注塑信息研究與實現(xiàn)》文中研究表明這些年來,隨著互聯(lián)網(wǎng)的發(fā)展,尤其是智能手機和各種物聯(lián)網(wǎng)設(shè)備的加入,互聯(lián)網(wǎng)中的數(shù)據(jù)量也迎來了爆發(fā)式的增長。如此巨量的信息一方面豐富和方便了人們的生活,但另一方面也增加了獲取有效信息的難度。因此采用主題爬蟲技術(shù)方便快捷地收集注塑行業(yè)的相關(guān)信息,從而實現(xiàn)對注塑行業(yè)發(fā)展的監(jiān)控和預(yù)測,對于企業(yè)發(fā)展有著重要意義。本文來源于《大型注塑成型智能制造工廠》,設(shè)計和實現(xiàn)了能夠定向抓取網(wǎng)絡(luò)數(shù)據(jù)的主題爬蟲系統(tǒng)。通過閱讀大量的國內(nèi)外文獻資料,然后結(jié)合項目實際中遇到的問題,對主題爬蟲以及技術(shù)框架有了一定的了解和認(rèn)識,發(fā)現(xiàn)一些對于主題爬蟲的研究中所存在的問題:1)目前還沒有對于如何選取適當(dāng)?shù)某跏挤N子的研究;2)主題爬蟲的性能和召回率仍有提高空間,需要進一步研究。針對上面提出的幾個問題,通過進一步的實踐研究,本文給出了一些新的解決方法,并以此為基礎(chǔ),設(shè)計實現(xiàn)了主題爬蟲系統(tǒng)。在論文后面,利用多個實驗表明了本文改進算法的效果。本文的創(chuàng)新點有以下幾個:(1)在介紹了初始種子的選取問題后,在HITS算法的基礎(chǔ)上,提出了一種新的改進,以此來更方便高效的選取初始種子。在本文中,結(jié)合HITS算法定義的權(quán)威度和中心度,通過它們來描述鏈接之間的連接情況,并定義了一個能夠計算候選種子好壞的公式,從而選取更好的初始種子,提高主題爬蟲的效率。在論文最后也給出了系統(tǒng)的采集結(jié)果,證明了算法改進的效果。(2)主題爬蟲通常采用概念背景圖來作為爬行策略,針對這種策略的缺點,本文給出了一種改進方法——基于綜合價值的概念背景圖的爬行策略。針對概念背景圖的構(gòu)建過程,給出了一種改進方法。與此同時,將經(jīng)常被忽略的父網(wǎng)頁、鏈接上下文等因素納入了綜合考慮,定義了一種能夠預(yù)測待訪問鏈接價值的公式,以此來提前預(yù)測鏈接價值,剔除無關(guān)鏈接,加快爬蟲運行速率。在最后,給出相關(guān)實驗數(shù)據(jù),表明了采用改進后的爬行策略的主題爬蟲,無論是速度還是精準(zhǔn)度都有很大提升。(3)結(jié)合前兩點,設(shè)計實現(xiàn)完整的主題爬蟲系統(tǒng)。本文介紹了系統(tǒng)中關(guān)鍵模塊的設(shè)計實現(xiàn)方案,并設(shè)計了相應(yīng)的數(shù)據(jù)庫方案,利用Java中的爬蟲框架WebMagic實現(xiàn)了爬蟲系統(tǒng)。該爬蟲系統(tǒng)具有一定的通用性,初始種子選取策略的改進減少了大量的人工時間,爬行策略的改進提高了系統(tǒng)的速度和準(zhǔn)確度。在最后,給出系統(tǒng)運行結(jié)果也表明爬行效率有顯著的提升。
二、主題爬蟲的解決方案(論文開題報告)
(1)論文研究背景及目的
此處內(nèi)容要求:
首先簡單簡介論文所研究問題的基本概念和背景,再而簡單明了地指出論文所要研究解決的具體問題,并提出你的論文準(zhǔn)備的觀點或解決方法。
寫法范例:
本文主要提出一款精簡64位RISC處理器存儲管理單元結(jié)構(gòu)并詳細分析其設(shè)計過程。在該MMU結(jié)構(gòu)中,TLB采用叁個分離的TLB,TLB采用基于內(nèi)容查找的相聯(lián)存儲器并行查找,支持粗粒度為64KB和細粒度為4KB兩種頁面大小,采用多級分層頁表結(jié)構(gòu)映射地址空間,并詳細論述了四級頁表轉(zhuǎn)換過程,TLB結(jié)構(gòu)組織等。該MMU結(jié)構(gòu)將作為該處理器存儲系統(tǒng)實現(xiàn)的一個重要組成部分。
(2)本文研究方法
調(diào)查法:該方法是有目的、有系統(tǒng)的搜集有關(guān)研究對象的具體信息。
觀察法:用自己的感官和輔助工具直接觀察研究對象從而得到有關(guān)信息。
實驗法:通過主支變革、控制研究對象來發(fā)現(xiàn)與確認(rèn)事物間的因果關(guān)系。
文獻研究法:通過調(diào)查文獻來獲得資料,從而全面的、正確的了解掌握研究方法。
實證研究法:依據(jù)現(xiàn)有的科學(xué)理論和實踐的需要提出設(shè)計。
定性分析法:對研究對象進行“質(zhì)”的方面的研究,這個方法需要計算的數(shù)據(jù)較少。
定量分析法:通過具體的數(shù)字,使人們對研究對象的認(rèn)識進一步精確化。
跨學(xué)科研究法:運用多學(xué)科的理論、方法和成果從整體上對某一課題進行研究。
功能分析法:這是社會科學(xué)用來分析社會現(xiàn)象的一種方法,從某一功能出發(fā)研究多個方面的影響。
模擬法:通過創(chuàng)設(shè)一個與原型相似的模型來間接研究原型某種特性的一種形容方法。
三、主題爬蟲的解決方案(論文提綱范文)
(1)冬奧會新聞文本采集及分類分析系統(tǒng)的設(shè)計與實現(xiàn)(論文提綱范文)
摘要 |
Abstract |
第1章 緒論 |
1.1 研究背景及意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 主題爬蟲發(fā)展現(xiàn)狀 |
1.2.2 文本分類發(fā)展現(xiàn)狀 |
1.3 主要工作 |
1.4 論文組織結(jié)構(gòu) |
第2章 相關(guān)技術(shù) |
2.1 爬蟲技術(shù)相關(guān)介紹 |
2.1.1 去重技術(shù) |
2.1.2 頁面解析 |
2.1.3 主題爬蟲 |
2.1.4 爬行策略 |
2.2 文本處理技術(shù)的相關(guān)介紹 |
2.3 相關(guān)分類算法介紹 |
2.3.1 近鄰算法介紹 |
2.3.2 ELM算法介紹 |
2.4 系統(tǒng)設(shè)計中使用框架的介紹 |
2.4.1 Scrapy框架概述 |
2.4.2 Django框架概述 |
2.5 本章小結(jié) |
第3章 冬奧會新聞文本采集及分類分析系統(tǒng)需求分析 |
3.1 系統(tǒng)需求背景介紹 |
3.2 數(shù)據(jù)采集的來源及特征 |
3.3 系統(tǒng)的需求分析 |
3.3.1 系統(tǒng)功能需求 |
3.3.2 系統(tǒng)非功能需求 |
3.4 本章小結(jié) |
第4章 冬奧會新聞文本采集及分類分析系統(tǒng)設(shè)計 |
4.1 系統(tǒng)總框架的設(shè)計 |
4.2 初始化模塊的設(shè)計 |
4.3 主題爬蟲模塊的設(shè)計 |
4.4 數(shù)據(jù)分類模塊的設(shè)計 |
4.5 數(shù)據(jù)可視化模塊的設(shè)計 |
4.6 本章小結(jié) |
第5章 系統(tǒng)實現(xiàn) |
5.1 系統(tǒng)開發(fā)環(huán)境及初始化介紹 |
5.2 冬奧會新聞文本采集功能的實現(xiàn) |
5.3 冬奧會新聞文本分類功能的實現(xiàn) |
5.3.1 基于局部密度和相似度的自適應(yīng)SNN算法 |
5.3.2 使用AK-SNN實現(xiàn)數(shù)據(jù)篩選 |
5.3.3 使用ELM算法實現(xiàn)文本分類 |
5.4 冬奧會新聞文本可視化功能的實現(xiàn) |
5.5 系統(tǒng)測試 |
5.6 本章小結(jié) |
結(jié)論 |
參考文獻 |
攻讀碩士期間發(fā)表的論文和科研成果 |
致謝 |
作者簡介 |
(2)基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng)的研究和實現(xiàn)(論文提綱范文)
摘要 |
ABSTRACT |
第一章 緒論 |
1.1 研究背景與意義 |
1.2 研究內(nèi)容 |
1.3 主要創(chuàng)新工作 |
1.4 論文組織結(jié)構(gòu) |
第二章 主題爬蟲相關(guān)技術(shù)研究 |
2.1 主題爬蟲簡介 |
2.2 主題描述研究概述 |
2.3 主題爬取研究概述 |
2.3.1 鏈接評價策略研究 |
2.3.2 文本主題相關(guān)度計算 |
2.3.3 主題詞在文本中的權(quán)重計算 |
2.3.3.1 TF-IDF算法原理 |
2.3.3.2 基于TF-IDF算法的主題詞權(quán)重計算 |
2.4 查詢擴展概述 |
2.4.1 信息檢索中的查詢擴展 |
2.4.2 查詢擴展的相關(guān)反饋 |
2.4.3 查詢擴展的偽相關(guān)反饋 |
2.5 蟻群算法的原理及算法模型 |
2.5.1 蟻群算法的基本原理 |
2.5.2 蟻群算法的算法模型 |
2.6 NSGA-Ⅱ算法原理 |
第三章 基于查詢擴展的主題描述 |
3.1 Topic-TextRank算法 |
3.1.1 TextRank算法原理 |
3.1.2 BERT模型詞向量 |
3.1.3 在TextRank算法轉(zhuǎn)移矩陣中引入主題相關(guān)度 |
3.1.3.1 基于BERT模型詞向量計算詞節(jié)點主題相關(guān)度 |
3.1.3.2 Topic-TextRank算法 |
3.2 基于查詢擴展的主題描述擴展框架設(shè)計 |
3.2.1 基于動態(tài)Topic-TextRank算法的相關(guān)反饋主題描述擴展 |
3.2.2 基于動態(tài)Topic-TextRank算法的偽相關(guān)反饋主題描述擴展 |
3.3 實驗及分析 |
3.3.1 實驗數(shù)據(jù) |
3.3.2 實驗評價指標(biāo) |
3.3.3 實驗設(shè)計 |
3.3.4 實驗結(jié)果及分析 |
3.4 本章小結(jié) |
第四章 基于多目標(biāo)優(yōu)化的主題爬行 |
4.1 多目標(biāo)優(yōu)化問題與主題爬行 |
4.1.1 多目標(biāo)優(yōu)化問題定義 |
4.1.2 多目標(biāo)優(yōu)化問題最終解的求解 |
4.1.3 主題爬行中的多目標(biāo)優(yōu)化 |
4.2 BT-ACO算法 |
4.2.1 在蟻群算法中引入懲罰信息素 |
4.2.2 基于回溯式信息素更新機制的BT-ACO |
4.3 在NSGA-Ⅱ算法中引入帶權(quán)擁擠距離 |
4.4 基于BT-ACO和改進NSGA-Ⅱ算法的主題爬行策略設(shè)計 |
4.5 實驗及分析 |
4.5.1 實驗環(huán)境 |
4.5.2 實驗評價指標(biāo) |
4.5.3 實驗設(shè)計 |
4.5.4 實驗結(jié)果及分析 |
4.6 本章小結(jié) |
第五章 基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng) |
5.1 系統(tǒng)總體設(shè)計 |
5.1.1 系統(tǒng)整體結(jié)構(gòu) |
5.1.2 系統(tǒng)公共功能函數(shù)設(shè)計 |
5.1.3 系統(tǒng)公共存儲設(shè)計 |
5.2 主題描述模塊 |
5.2.1 主題描述模塊流程設(shè)計 |
5.2.2 基于Topic-TextRank算法的主題關(guān)鍵詞抽取實現(xiàn) |
5.2.3 偽相關(guān)反饋主題描述框架實現(xiàn) |
5.2.4 相關(guān)反饋主題描述框架實現(xiàn) |
5.2.5 主題描述模塊存儲設(shè)計與實現(xiàn) |
5.3 主題爬取模塊 |
5.3.1 主題爬取模塊流程設(shè)計 |
5.3.2 基于多目標(biāo)優(yōu)化的主題爬取實現(xiàn) |
5.3.3 主題爬取模塊存儲設(shè)計與實現(xiàn) |
5.4 系統(tǒng)功能效果展示 |
5.4.1 主題描述功能效果展示 |
5.4.2 主題爬取功能效果展示 |
5.5 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
參考文獻 |
致謝 |
攻讀學(xué)位期間取得的研究成果 |
(3)基于領(lǐng)域本體和多目標(biāo)蟻群算法的主題爬蟲技術(shù)研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景和意義 |
1.2 國內(nèi)外研究現(xiàn)狀和進展 |
1.2.1 傳統(tǒng)啟發(fā)式的主題爬蟲 |
1.2.2 基于概念語義的主題爬蟲 |
1.2.3 基于智能優(yōu)化算法的主題爬蟲 |
1.3 論文的主要工作 |
1.4 論文組織結(jié)構(gòu) |
1.5 本章小結(jié) |
第二章 主題爬蟲相關(guān)知識和方法介紹 |
2.1 搜索引擎和網(wǎng)絡(luò)爬蟲介紹 |
2.1.1 搜索引擎的基本原理和分類 |
2.1.2 網(wǎng)絡(luò)爬蟲的基本原理和流程 |
2.2 主題爬蟲及其方法介紹 |
2.2.1 主題模型構(gòu)建方法介紹 |
2.2.2 主題相關(guān)性評估方法介紹 |
2.2.3 主題爬蟲搜索策略介紹 |
2.3 本章小結(jié) |
第三章 基于本體學(xué)習(xí)的領(lǐng)域本體構(gòu)建方法 |
3.1 本體構(gòu)建的問題描述 |
3.2 本體構(gòu)建的解決思路及構(gòu)建流程 |
3.2.1 形式概念分析 |
3.2.2 潛在狄利克雷分布 |
3.2.3 關(guān)聯(lián)規(guī)則 |
3.2.4 領(lǐng)域本體的構(gòu)建流程 |
3.3 本體可視化展示 |
3.4 本章小結(jié) |
第四章 主題相關(guān)度計算 |
4.1 基于本體的概念語義相似度計算模型 |
4.2 網(wǎng)頁文本的主題相關(guān)度 |
4.3 超鏈接的主題相關(guān)度 |
4.4 實驗結(jié)果和分析 |
4.5 本章小結(jié) |
第五章 多目標(biāo)蟻群算法及其在主題爬蟲技術(shù)上的應(yīng)用 |
5.1 多目標(biāo)優(yōu)化問題 |
5.2 基于領(lǐng)域本體和多目標(biāo)優(yōu)化的主題爬蟲技術(shù) |
5.2.1 多目標(biāo)蟻群算法 |
5.2.2 目標(biāo)函數(shù) |
5.2.3 基于領(lǐng)域本體和多目標(biāo)蟻群算法的主題爬蟲設(shè)計 |
5.3 實驗結(jié)果與分析 |
5.3.1 實驗評價標(biāo)準(zhǔn) |
5.3.2 實驗結(jié)果與分析 |
5.4 本章小結(jié) |
第六章 總結(jié)及展望 |
6.1 論文所做的工作 |
6.2 論文的主要創(chuàng)新點 |
6.3 研究展望 |
致謝 |
參考文獻 |
作者簡介 |
(4)分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計(論文提綱范文)
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 爬蟲技術(shù) |
1.2.2 爬蟲系統(tǒng) |
1.3 論文研究內(nèi)容及意義 |
1.4 本文組織結(jié)構(gòu) |
第二章 相關(guān)理論與技術(shù) |
2.1 Hadoop文件系統(tǒng) |
2.2 微服務(wù) |
2.3 主題爬蟲運作流程 |
2.4 頁面相似度計算 |
2.4.1 頁面相似度的概念 |
2.4.2 分詞 |
2.4.3 詞語權(quán)重評估 |
2.4.4 向量空間模型 |
2.4.5 余弦相似度 |
2.5 爬行策略 |
2.5.1 URL相似度的概念 |
2.5.2 Fish Search策略 |
2.5.3 Shark Search策略 |
2.6 頁面去重 |
2.6.1 頁面去重的概念 |
2.6.2 Bloom過濾器 |
2.7 代理 |
2.7.1 代理的概念 |
2.7.2 私有代理 |
2.7.3 開放代理 |
2.8 本章小結(jié) |
第三章 分布式主題爬蟲研究與設(shè)計 |
3.1 設(shè)計原則 |
3.2 爬行策略 |
3.3 架構(gòu)設(shè)計 |
3.3.1 功能模塊劃分 |
3.3.2 集群規(guī)劃 |
3.4 數(shù)據(jù)庫設(shè)計 |
3.4.1 概念模型 |
3.4.2 物理模型 |
3.5 系統(tǒng)的反反爬蟲機制 |
3.6 相似度計算研究與改進 |
3.6.1 詞向量的兩種形式 |
3.6.2 基于分布式詞向量的頁面相似度計算 |
3.6.3 基于分布式詞向量的URL相似度計算 |
3.7 系統(tǒng)功能模塊設(shè)計 |
3.7.1 代理服務(wù) |
3.7.2 URL隊列 |
3.7.3 頁面抓取 |
3.7.4 頁面解析 |
3.7.5 相似度分析 |
3.7.6 頁面存儲 |
3.7.7 任務(wù)管理 |
3.7.8 集群管理 |
3.8 本章小結(jié) |
第四章 實驗環(huán)境部署與測試 |
4.1 硬件資源 |
4.2 實驗環(huán)境搭建 |
4.3 功能測試 |
4.3.1 Bloom過濾器測試 |
4.3.2 代理可用性測試 |
4.4 性能測試 |
4.4.1 運作效率測試 |
4.4.2 爬準(zhǔn)率測試 |
4.4.3 爬全率測試 |
4.5 魯棒性測試 |
4.6 擴展性測試 |
4.7 本章小結(jié) |
第五章 分布式主題爬蟲系統(tǒng)實現(xiàn) |
5.1 系統(tǒng)首頁 |
5.2 集群管理 |
5.3 主題詞記錄 |
5.4 代理信息 |
5.5 任務(wù)信息 |
5.6 頁面信息 |
5.7 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
致謝 |
參考文獻 |
(5)基于Shark-Search與OTIE自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)(論文提綱范文)
摘要 |
abstract |
第一章 緒論 |
1.1 研究背景和意義 |
1.1.1 研究背景 |
1.1.2 研究意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.3 論文研究內(nèi)容 |
1.4 論文結(jié)構(gòu)安排 |
第二章 爬蟲理論基礎(chǔ)和關(guān)鍵技術(shù) |
2.1 搜索引擎簡介 |
2.1.1 搜索引擎及發(fā)展歷程 |
2.1.2 搜索引擎的基本原理 |
2.1.3 搜索引擎的分類 |
2.2 通用爬蟲簡介 |
2.2.1 通用爬蟲的原理 |
2.2.2 通用爬蟲的架構(gòu) |
2.3 主題爬蟲簡介 |
2.3.1 主題爬蟲的原理 |
2.3.2 主題爬蟲的架構(gòu) |
2.4 關(guān)鍵技術(shù)簡介 |
2.4.1 超鏈接去重 |
2.4.2 Elasticsearch |
2.4.3 Nutch |
2.4.4 正則表達式 |
2.5 本章小結(jié) |
第三章 基于內(nèi)容的主題爬蟲算法Shark-Search的改進 |
3.1 Shark-Search算法介紹 |
3.2 Shark-Search算法的不足 |
3.3 ESS算法 |
3.3.1 主題詞擴展 |
3.3.2 預(yù)判權(quán)值計算 |
3.3.3 ESS算法流程 |
3.4 實驗及結(jié)果分析 |
3.4.1 評價方法 |
3.4.2 結(jié)果分析 |
3.5 本章小結(jié) |
第四章 基于鏈接與內(nèi)容相結(jié)合的OTIE自適應(yīng)算法的改進 |
4.1 OTIE自適應(yīng)算法及其不足之處 |
4.2 E-OTIE自適應(yīng)算法 |
4.3 實驗及分析 |
4.3.1 實驗數(shù)據(jù)集 |
4.3.2 算法評價指標(biāo) |
4.3.3 結(jié)果分析 |
4.4 本章小結(jié) |
第五章 主題爬蟲原型系統(tǒng)設(shè)計與實現(xiàn) |
5.1 系統(tǒng)需求分析 |
5.1.1 系統(tǒng)總體目標(biāo) |
5.1.2 功能需求 |
5.1.3 系統(tǒng)性能需求 |
5.2 系統(tǒng)概要設(shè)計 |
5.2.1 系統(tǒng)功能架構(gòu) |
5.2.2 系統(tǒng)工作流程 |
5.3 系統(tǒng)數(shù)據(jù)庫設(shè)計 |
5.4 反爬蟲機制的應(yīng)對策略 |
5.5 系統(tǒng)業(yè)務(wù)功能實現(xiàn) |
5.5.1 網(wǎng)頁抓取統(tǒng)計 |
5.5.2 算法分析統(tǒng)計 |
5.5.3 新增爬蟲模板 |
5.5.4 爬蟲模板列表 |
5.5.5 定時任務(wù)管理 |
5.5.6 查看爬蟲進度 |
5.6 系統(tǒng)爬行實驗 |
5.7 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 工作總結(jié) |
6.2 工作展望 |
參考文獻 |
致謝 |
碩士期間研究成果 |
(6)設(shè)施布局及主題爬蟲技術(shù)的超啟發(fā)式算法研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景和意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 設(shè)施布局問題的研究現(xiàn)狀與發(fā)展 |
1.2.2 主題爬蟲技術(shù)的研究現(xiàn)狀與發(fā)展 |
1.3 論文的主要工作 |
1.4 論文的組織結(jié)構(gòu) |
1.5 本章小結(jié) |
第二章 超啟發(fā)式算法簡介 |
2.1 啟發(fā)式算法概述 |
2.2 超啟發(fā)式算法介紹 |
2.2.1 貪心算法 |
2.2.2 模擬退火算法 |
2.2.3 經(jīng)典進化算法 |
2.3 本章小結(jié) |
第三章 回溯搜索算法及其在多行動態(tài)設(shè)施布局問題上的應(yīng)用 |
3.1 多行動態(tài)設(shè)施布局問題及數(shù)學(xué)模型 |
3.2 遺傳算法 |
3.2.1 改進的交叉策略 |
3.2.2 改進的變異策略 |
3.2.3 遺傳算法思路及具體步驟 |
3.3 回溯搜索算法 |
3.3.1 初始化過程 |
3.3.2 選擇策略I |
3.3.3 變異策略 |
3.3.4 交叉策略 |
3.3.5 改進的選擇策略II |
3.3.6 回溯搜索算法思路及具體步驟 |
3.4 實驗結(jié)果與分析 |
3.5 本章小結(jié) |
第四章 改進的模擬退火算法及其在主題爬蟲中的應(yīng)用 |
4.1 本體描述方法 |
4.1.1 暴雨災(zāi)害本體構(gòu)建 |
4.1.2 本體概念語義相似度計算 |
4.2 主題綜合優(yōu)先度計算方法 |
4.2.1 網(wǎng)頁文本主題相關(guān)度 |
4.2.2 錨文本主題相關(guān)度 |
4.2.3 改進的網(wǎng)頁PageRank值 |
4.2.4 超鏈接綜合優(yōu)先度 |
4.3 基于本體的主題退火爬蟲算法 |
4.3.1 基于模擬退火算法選擇鏈接 |
4.3.2 基于本體的主題退火爬蟲算法設(shè)計 |
4.4 實驗結(jié)果與分析 |
4.4.1 評價指標(biāo) |
4.4.2 結(jié)果分析 |
4.4.3 參數(shù)測試 |
4.5 本章小結(jié) |
第五章 總結(jié)與展望 |
5.1 論文所做的工作 |
5.2 論文的主要創(chuàng)新點 |
5.3 研究展望 |
致謝 |
參考文獻 |
作者簡介 |
(7)面向設(shè)施布局和主題爬蟲的構(gòu)型空間進化算法研究(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景和意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 設(shè)施布局問題及國內(nèi)外研究現(xiàn)狀 |
1.2.2 主題爬蟲技術(shù)及國內(nèi)外研究現(xiàn)狀 |
1.3 論文的主要工作 |
1.4 論文的組織結(jié)構(gòu) |
1.5 本章小結(jié) |
第二章 相關(guān)基礎(chǔ)理論介紹 |
2.1 多目標(biāo)優(yōu)化問題介紹及相關(guān)概念 |
2.2 智能優(yōu)化算法介紹 |
2.2.1 進化算法 |
2.2.2 非支配排序遺傳算法 |
2.3 本章小結(jié) |
第三章 面向多目標(biāo)動態(tài)設(shè)施布局問題的構(gòu)型空間進化算法 |
3.1 多目標(biāo)動態(tài)設(shè)施布局問題描述與數(shù)學(xué)模型 |
3.2 多目標(biāo)動態(tài)設(shè)施布局問題的求解思路 |
3.3 改進的構(gòu)型空間進化算法 |
3.3.1 構(gòu)型空間進化算法流程及思路 |
3.3.2 進化操作 |
3.3.3 構(gòu)型庫更新 |
3.3.4 改進的交叉策略 |
3.3.5 改進的變異策略 |
3.3.6 基于個體距離的最近最遠候選解法 |
3.3.7 改進的構(gòu)型空間進化算法步驟 |
3.4 算法評價 |
3.4.1 兩個經(jīng)典多目標(biāo)動態(tài)設(shè)施布局算例 |
3.4.2 一個具有實際生產(chǎn)應(yīng)用的多目標(biāo)動態(tài)算例 |
3.4.3 算法性能測試與分析 |
3.5 本章小結(jié) |
第四章 面向主題爬蟲技術(shù)的構(gòu)型空間進化算法 |
4.1 主題爬蟲框架 |
4.2 主題描述 |
4.2.1 基于FCA方法構(gòu)建暴雨災(zāi)害本體 |
4.2.2 基于本體的語義相似度計算模型 |
4.3 主題相關(guān)度計算 |
4.3.1 網(wǎng)頁文本的主題相關(guān)度 |
4.3.2 錨文本的主題相關(guān)度 |
4.3.3 改進的PageRank算法 |
4.3.4 鏈接綜合相關(guān)度 |
4.4 基于Web的構(gòu)型空間進化算法 |
4.4.1 構(gòu)型距離的度量方式 |
4.4.2 改進的進化操作 |
4.4.3 改進的構(gòu)型庫更新機制 |
4.4.4 基于Web的構(gòu)型空間進化爬蟲算法設(shè)計 |
4.5 實驗結(jié)果與分析 |
4.5.1 實驗設(shè)置與評價標(biāo)準(zhǔn) |
4.5.2 四種爬蟲算法的實驗結(jié)果 |
4.5.3 算法參數(shù)影響分析 |
4.6 本章小結(jié) |
第五章 總結(jié)與展望 |
5.1 本文所做的工作 |
5.2 本文的主要創(chuàng)新點 |
5.3 研究展望 |
致謝 |
參考文獻 |
作者簡介 |
(8)基于仿生學(xué)的主題爬蟲搜索策略及關(guān)鍵技術(shù)研究(論文提綱范文)
摘要 |
abstract |
第1章 緒論 |
1.1 研究背景 |
1.2 研究現(xiàn)狀 |
1.2.1 搜索策略 |
1.2.2 種子頁面選擇 |
1.2.3 主題爬蟲領(lǐng)域的主要問題 |
1.3 論文研究內(nèi)容及意義 |
1.4 論文組織結(jié)構(gòu) |
第2章 相關(guān)理論與技術(shù) |
2.1 仿生學(xué)算法 |
2.1.1 粒子群算法 |
2.1.2 遺傳算法 |
2.2 相似度計算 |
2.2.1 歐幾里德距離 |
2.2.2 余弦相似度 |
2.3 主題爬蟲搜索策略 |
2.3.1 VSM爬蟲 |
2.3.2 SSRM爬蟲 |
2.4 種子頁面選取策略BFC |
2.5 非重疊社區(qū)發(fā)現(xiàn)算法 |
2.6 本章小結(jié) |
第3章 基于變異思想改進粒子群算法的主題爬蟲模型 |
3.1 問題提出與解決辦法 |
3.2 模型框架 |
3.3 種子頁面的選取 |
3.4 頁面初始權(quán)值計算 |
3.4.1 網(wǎng)頁文本預(yù)處理 |
3.4.2 關(guān)鍵詞選擇 |
3.4.3 計算網(wǎng)頁權(quán)重 |
3.4.4 基于VR-PSO算法抓取頁面 |
3.5 實驗與分析 |
3.5.1 實驗設(shè)計 |
3.5.2 實驗評價指標(biāo) |
3.5.3 實驗結(jié)果與分析 |
3.6 本章小結(jié) |
第4章 基于改進Louvain算法的種子頁面選取框架 |
4.1 問題提出與解決辦法 |
4.2 模型框架 |
4.3 加權(quán)的Louvain算法 |
4.4 選取核心子團 |
4.5 頁面選擇 |
4.6 實驗與分析 |
4.6.1 實驗環(huán)境 |
4.6.2 實驗設(shè)計 |
4.6.3 實驗結(jié)果與分析 |
4.7 本章小結(jié) |
第5章 結(jié)論 |
5.1 研究工作總結(jié) |
5.2 未來工作展望 |
參考文獻 |
致謝 |
攻讀碩士學(xué)位期間從事的科研工作及取得的成果 |
(9)基于網(wǎng)絡(luò)爬蟲的水利信息聚合系統(tǒng)的設(shè)計與實現(xiàn)(論文提綱范文)
摘要 |
Abstract |
1 緒論 |
1.1 課題研究背景及意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.3 研究內(nèi)容 |
2 水利信息聚合系統(tǒng)的相關(guān)技術(shù) |
2.1 水利主題分類及特點 |
2.2 網(wǎng)絡(luò)爬蟲相關(guān)技術(shù) |
3 水利信息聚合系統(tǒng)的需求分析與設(shè)計 |
3.1 系統(tǒng)需求分析 |
3.2 系統(tǒng)整體設(shè)計 |
3.3 水利主題爬蟲爬取方案設(shè)計 |
3.4 水利主題爬蟲功能模塊設(shè)計 |
3.5 水利信息規(guī)范化設(shè)計 |
3.6 數(shù)據(jù)庫設(shè)計 |
3.7 水利信息聚合平臺設(shè)計 |
4 系統(tǒng)的實現(xiàn) |
4.1 開發(fā)環(huán)境搭建 |
4.2 系統(tǒng)功能實現(xiàn) |
5 總結(jié)與展望 |
5.1 全文總結(jié) |
5.2 展望 |
致謝 |
參考文獻 |
(10)基于網(wǎng)絡(luò)爬蟲的注塑信息研究與實現(xiàn)(論文提綱范文)
摘要 |
ABSTRACT |
第一章 緒論 |
1.1 研究背景 |
1.2 研究意義 |
1.3 國內(nèi)外研究現(xiàn)狀及分析 |
1.4 研究工作與創(chuàng)新點 |
1.5 論文結(jié)構(gòu) |
第二章 相關(guān)技術(shù)研究 |
2.1 網(wǎng)絡(luò)爬蟲相關(guān)技術(shù) |
2.1.1 網(wǎng)絡(luò)爬蟲的工作原理 |
2.1.2 主題描述形式 |
2.1.3 初始種子選取 |
2.1.4 相關(guān)度計算模型 |
2.1.5 主題爬行策略 |
2.2 WebMagic框架簡介 |
2.3 本章小結(jié) |
第三章 基于HITS算法的初始種子選取算法 |
3.1 HITS算法的簡介 |
3.2 種子質(zhì)量度量 |
3.3 初始種子選取算法 |
3.3.1 無效鏈接剔除 |
3.3.2 鏈接價值評價 |
3.3.3 頁面內(nèi)容評價 |
3.3.4 HITS計算過程 |
3.4 本章小結(jié) |
第四章 基于綜合價值的概念背景圖的主題爬蟲策略 |
4.1 本章引言 |
4.2 構(gòu)建概念背景圖 |
4.2.1 核心概念和非核心概念 |
4.2.2 概念之間的語義相關(guān)度 |
4.3 基于綜合價值的概念背景圖的主題爬蟲策略 |
4.3.1 頁面的主題相關(guān)度計算 |
4.3.2 待訪問鏈接的主題相關(guān)度預(yù)測 |
4.3.3 主題爬行策略 |
4.4 主題爬行策略評估 |
4.5 本章小結(jié) |
第五章 注塑信息主題爬蟲系統(tǒng)設(shè)計與實現(xiàn) |
5.1 注塑信息主題爬蟲系統(tǒng)總體設(shè)計 |
5.1.1 系統(tǒng)目標(biāo) |
5.1.2 需求分析 |
5.1.3 系統(tǒng)結(jié)構(gòu)設(shè)計 |
5.2 數(shù)據(jù)庫設(shè)計方案 |
5.2.1 數(shù)據(jù)庫E-R圖 |
5.2.2 表結(jié)構(gòu)設(shè)計 |
5.3 系統(tǒng)功能模塊設(shè)計 |
5.3.1 系統(tǒng)登錄 |
5.3.2 初始種子選取模塊的設(shè)計 |
5.3.3 概念背景圖的構(gòu)建 |
5.3.4 主題爬行模塊設(shè)計 |
5.4 注塑信息主題爬蟲系統(tǒng)功能模塊實現(xiàn) |
5.4.1 系統(tǒng)開發(fā)環(huán)境 |
5.4.2 系統(tǒng)登錄實現(xiàn) |
5.4.3 初始種子選取模塊的實現(xiàn) |
5.4.5 概念背景圖構(gòu)建模塊的實現(xiàn) |
5.4.6 主題爬行模塊的實現(xiàn) |
5.5 系統(tǒng)運行結(jié)果評估 |
5.6 本章小結(jié) |
總結(jié)與展望 |
參考文獻 |
攻讀學(xué)位期間科研成果 |
致謝 |
四、主題爬蟲的解決方案(論文參考文獻)
- [1]冬奧會新聞文本采集及分類分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 劉娜. 河北工程大學(xué), 2020(04)
- [2]基于查詢擴展和多目標(biāo)優(yōu)化的主題爬蟲系統(tǒng)的研究和實現(xiàn)[D]. 劉成軍. 北京郵電大學(xué), 2020(05)
- [3]基于領(lǐng)域本體和多目標(biāo)蟻群算法的主題爬蟲技術(shù)研究[D]. 東熠. 南京信息工程大學(xué), 2020(02)
- [4]分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計[D]. 單文遠. 電子科技大學(xué), 2020(07)
- [5]基于Shark-Search與OTIE自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 彭宏勝. 江蘇大學(xué), 2019(03)
- [6]設(shè)施布局及主題爬蟲技術(shù)的超啟發(fā)式算法研究[D]. 李帆. 南京信息工程大學(xué), 2019(04)
- [7]面向設(shè)施布局和主題爬蟲的構(gòu)型空間進化算法研究[D]. 李新. 南京信息工程大學(xué), 2019(04)
- [8]基于仿生學(xué)的主題爬蟲搜索策略及關(guān)鍵技術(shù)研究[D]. 蔣鵬. 重慶郵電大學(xué), 2019(02)
- [9]基于網(wǎng)絡(luò)爬蟲的水利信息聚合系統(tǒng)的設(shè)計與實現(xiàn)[D]. 閆寧. 華中科技大學(xué), 2019(03)
- [10]基于網(wǎng)絡(luò)爬蟲的注塑信息研究與實現(xiàn)[D]. 楊力. 廣東工業(yè)大學(xué), 2019(02)
標(biāo)簽:文本分類論文; 分類數(shù)據(jù)論文; python爬蟲論文; 文本分析論文; 優(yōu)化策略論文;