一、一種基于Java的元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(論文文獻(xiàn)綜述)
胡曉峰[1](2020)在《基于Solr的新媒體稿件檢索系統(tǒng)研究與設(shè)計(jì)》文中研究指明隨著近年來互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的興起,新媒體也取得了蓬勃發(fā)展,新媒體文章和稿件也呈現(xiàn)爆發(fā)式增長的趨勢。面對(duì)海量和多種格式的新媒體數(shù)據(jù)信息,如何在這樣大規(guī)模的數(shù)據(jù)信息中快速和準(zhǔn)確地找到所需要的稿件信息成為自媒體用戶所面臨的一個(gè)問題。本文根據(jù)以上問題和需求,基于Spring+SpringMVC+Hibernate的架構(gòu)進(jìn)行設(shè)計(jì)開發(fā),結(jié)合了 Solr搜索引擎服務(wù)和百度語音識(shí)別工具,提出了一種B/S架構(gòu)的新媒體稿件檢索系統(tǒng),系統(tǒng)使用Java作為開發(fā)語言進(jìn)行實(shí)現(xiàn)。本文重點(diǎn)分析了系統(tǒng)架構(gòu)設(shè)計(jì)中使用的關(guān)鍵技術(shù)和策略,開發(fā)設(shè)計(jì)了基于Solr的新媒體稿件檢索系統(tǒng),主要包括預(yù)處理,構(gòu)建Solr系統(tǒng),用戶查詢和數(shù)據(jù)庫幾部分。本文以開源搜索引擎Solr作為系統(tǒng)的核心,研究了搜索引擎核心技術(shù)索引的實(shí)現(xiàn)原理。為了保證分詞的效率和質(zhì)量,研究了分詞的算法以及各種中文分詞器的性能對(duì)比,為了方便Solr使用文本構(gòu)建索引,研究了將非文本文件進(jìn)行文本轉(zhuǎn)化的方法。本文研究的主要?jiǎng)?chuàng)新點(diǎn)如下:第一,由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法滿足能夠應(yīng)對(duì)龐大的實(shí)時(shí)請(qǐng)求,且關(guān)系數(shù)據(jù)庫對(duì)中文的全文檢索效果不佳,需要使用企業(yè)級(jí)搜索引擎來解決搜索的問題。Solr作為企業(yè)級(jí)搜索引擎,其強(qiáng)大的全文檢索功能能夠滿足企業(yè)搜索的需要。開發(fā)者基于Solr搜索引擎服務(wù)的框架上進(jìn)行開發(fā),利用其穩(wěn)定的搜索框架,只需要開發(fā)上層的業(yè)務(wù)邏輯而不需要負(fù)責(zé)底層實(shí)現(xiàn)邏輯,縮減了開發(fā)周期和開發(fā)成本,提高了系統(tǒng)的穩(wěn)定性。第二,鑒于新媒體稿件當(dāng)中包含大量圖片,音頻,視頻等多媒體文件,本系統(tǒng)將Solr快速索引和成熟的百度語音識(shí)別相結(jié)合,構(gòu)成面向企業(yè)平臺(tái)的新媒體稿件檢索系統(tǒng)。相對(duì)于傳統(tǒng)的通過文本這類單一格式進(jìn)行查詢的方式,本系統(tǒng)集成了百度語音識(shí)別的功能,可以對(duì)音視頻格式的文件進(jìn)行文字轉(zhuǎn)化,從而進(jìn)行查詢。通過音視頻文件信息的加入,使得查詢準(zhǔn)確度更高,查詢資源變得多元化,豐富了系統(tǒng)檢索功能。
宏樸[2](2016)在《基于Lucene的搜索引擎的研究與實(shí)現(xiàn)》文中研究指明最近這些年,有一門新興的技術(shù)正越來越多的引起人們的廣泛注意,它就是垂直搜索引擎。垂直搜索引擎建造價(jià)格便宜,而且它是一種相對(duì)有效的搜索方式。用戶可從相關(guān)網(wǎng)頁上,根據(jù)輸入的關(guān)鍵字搜索需要的消息,又可以瀏覽這些檢索出的界面。檢索界面可以被用戶打開,進(jìn)行信息的瀏覽。結(jié)果包含所有相關(guān)網(wǎng)頁在通用搜索引擎中是不可能實(shí)現(xiàn)的,即使雅虎公司的搜索結(jié)果覆蓋率也不到50%。通過這些數(shù)據(jù)可以表明,很大一部分網(wǎng)頁并沒有被搜索引擎檢測到,所以就無法對(duì)其中包含的信息加以利用。大量的信息無法為人們所有,造成了信息資源的浪費(fèi)。盡管有些搜索引擎設(shè)置了一些功能使得一些沒有檢測到的信息得到一個(gè)可以檢測的出口,即身份驗(yàn)證,但還是無法使這種現(xiàn)象得以改善。系統(tǒng)使用Eclipse和Dreamweaver作為開發(fā)環(huán)境。系統(tǒng)后臺(tái)的信息是由某網(wǎng)站提供的,經(jīng)過分析網(wǎng)站內(nèi)容,準(zhǔn)備好Heritrix的抓取清單,然后提交給Heritrix處理。網(wǎng)頁抓取到后使用HTMLParser解析,將詳細(xì)信息插入My SQL數(shù)據(jù)庫,然后建立用來檢索關(guān)鍵字的詞庫和Lucene的索引,最后搭建一個(gè)Web平臺(tái),采用JSP技術(shù)對(duì)建立的索引和數(shù)據(jù)庫進(jìn)行整合,為用戶提供真正的搜索服務(wù)。
王然[3](2016)在《主題元搜索引擎排序算法研究》文中提出主題搜索引擎的產(chǎn)生是針對(duì)某種具體的組織、行業(yè)的網(wǎng)絡(luò)信息來構(gòu)建的,這是一個(gè)能夠使該組織、行業(yè)的搜索要求滿足的搜索引擎。隨著網(wǎng)絡(luò)信息的多元化形成,沒有任何一種主題搜索技術(shù)能應(yīng)用到所有的主題信息領(lǐng)域,而主題元搜索引擎的出現(xiàn)很好地解決了這個(gè)現(xiàn)象。主題元搜索引擎將元搜索引擎和主題搜索引擎相結(jié)合,在提高查全率的同時(shí)又進(jìn)一步提高了查準(zhǔn)率。其中搜索引擎的分詞技術(shù)和排序技術(shù)是影響搜索結(jié)果的關(guān)鍵性。本文以開源的搜索引擎Nutch為原型,使用主題提取器在多個(gè)搜索引擎中提取種子站點(diǎn),再從各種子站點(diǎn)上搜索關(guān)鍵詞,實(shí)現(xiàn)搜索的主題化和多元化,提高了查準(zhǔn)率和查全率。針對(duì)Nutch搜索引擎按字分詞和排序效果差的問題,本文主要完成了以下兩方面的工作:第一,參考各種資料以及相關(guān)中文分詞插件文檔,通過實(shí)驗(yàn)對(duì)Paoding,IKAnalyzer等中文分詞器進(jìn)行了時(shí)效性以及準(zhǔn)確率等方面的對(duì)比,選取在大量文字分詞時(shí),時(shí)間和準(zhǔn)確度等方面性能更優(yōu)且有豐富的本地詞庫的ICTCLAS2015分詞器,進(jìn)行了Nutch中文分詞模塊的改進(jìn)。第二,本文提出了結(jié)合使用Page Rank算法并加入本地瀏覽器書簽作為參考因子的方法,對(duì)Nutch的評(píng)分機(jī)制進(jìn)行了改進(jìn),提高了搜索結(jié)果的確切度。對(duì)改進(jìn)后的算法進(jìn)行了驗(yàn)證,通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析說明了改進(jìn)后的算法不僅可以提高PR值較高的頁面的排序結(jié)果,而且對(duì)本地書簽有相關(guān)性的搜索結(jié)果的排名有所提高。本文通過結(jié)合ICTCLAS2015中文分詞插件和改良中文分詞算法對(duì)Nutch搜索引擎系統(tǒng)進(jìn)行了二次開發(fā),在此基礎(chǔ)上,結(jié)合網(wǎng)站PR值和本地書簽影響因子對(duì)Nutch排序算法進(jìn)行改進(jìn),經(jīng)試驗(yàn)測試表明,改進(jìn)后的算法在搜索結(jié)果更確切,更符合用戶的需求。
周承璐[4](2015)在《智能化元搜索引擎中多Agent系統(tǒng)架構(gòu)的研究與實(shí)現(xiàn)》文中指出隨著互聯(lián)網(wǎng)中信息量的不斷增長,搜索引擎已經(jīng)成為人們快速獲取有效信息的重要手段,是人們?nèi)粘I钪斜夭豢缮俚墓ぞ咧弧5菃我凰阉饕婺軌驒z索到的信息量有限;而且有多種搜索引擎并且各有其擅長的領(lǐng)域;同時(shí),隨著垂直搜索引擎的出現(xiàn),搜索引擎之間的差異更為明顯。因此人們通常需要根據(jù)搜索目的選用不同搜索引擎,這降低了用戶的信息檢索效率。元搜索引擎為用戶提供了統(tǒng)一的訪問接口,綜合處理與分析來自多個(gè)搜索引擎的結(jié)果。它既能減輕用戶的負(fù)擔(dān),也能有效地提高檢索結(jié)果的全面性。元搜索引擎正逐步往個(gè)性化、智能化發(fā)展:通過智能學(xué)習(xí)用戶的個(gè)人興趣,元搜索引擎在保證檢索結(jié)果查全率的同時(shí),也能提高其準(zhǔn)確性。關(guān)于元搜索引擎及其相關(guān)技術(shù)的研究主要考慮如何進(jìn)行自動(dòng)的成員搜索引擎、采用更好的結(jié)果合成算法以及建立良好的系統(tǒng)框架支持,以使得元搜索引擎更好地達(dá)成目標(biāo)。本文介紹元搜索引擎系統(tǒng)中多Agent系統(tǒng)架構(gòu)的研究與實(shí)現(xiàn)。首先,本文分析了目前元搜索引擎中的研究內(nèi)容及多Agent系統(tǒng)在元搜索引擎研究中的發(fā)展現(xiàn)狀。然后對(duì)于本文相關(guān)的技術(shù)進(jìn)行了概述與介紹,包括元搜索引擎的相關(guān)技術(shù)、Agent的相關(guān)理論以及本文所采用的JADE開發(fā)框架。接下來設(shè)計(jì)了基于Agent的元搜索引擎系統(tǒng)框架模型,詳細(xì)介紹了如何將傳統(tǒng)的Web應(yīng)用與多Agent系統(tǒng)相結(jié)合機(jī)制及多Agent系統(tǒng)的設(shè)計(jì)過程,包括系統(tǒng)中各類Agent的結(jié)構(gòu)設(shè)計(jì)、角色及能力定義以及生命周期中的行為模式。隨后將本文的設(shè)計(jì)方案與成熟的多Agent系統(tǒng)開發(fā)框架JADE相結(jié)合,實(shí)現(xiàn)了元搜索引擎中的多Agent系統(tǒng),同時(shí)也在已有成果的基礎(chǔ)之上,豐富了元搜索引擎的結(jié)果處理方法,增加其個(gè)性化特性。對(duì)系統(tǒng)的測試表明,本文所設(shè)計(jì)的系統(tǒng)中各類Agent通過相互協(xié)作,完成系統(tǒng)中的各項(xiàng)任務(wù)。同時(shí)本文還對(duì)系統(tǒng)在檢索結(jié)果的個(gè)性化排序方面也進(jìn)行了測試,結(jié)果證明搜索結(jié)果能夠具有一定的個(gè)性化特性,達(dá)到了預(yù)定的研究目標(biāo)。
張永光[5](2015)在《基于分布式的搜索引擎技術(shù)研究與設(shè)計(jì)》文中研究說明隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息幾乎是呈現(xiàn)爆炸式增長,這對(duì)傳統(tǒng)的搜索引擎技術(shù)帶來不小的挑戰(zhàn)。面對(duì)海量數(shù)據(jù)的處理和存儲(chǔ),人們對(duì)搜索引擎的需求,不僅僅局限于能夠盡可能地獲取準(zhǔn)確的檢索結(jié)果,還需其具有更好的時(shí)效性,更高的可擴(kuò)展性,更低的故障率。大數(shù)據(jù)時(shí)代,對(duì)數(shù)據(jù)的處理能力要求越來越高,隨著分布式計(jì)算技術(shù)的不斷發(fā)展,以及云計(jì)算的不斷普及,基于分布式的搜索引擎無疑會(huì)成為未來發(fā)展的趨勢。本論文針對(duì)基于分布式的搜索引擎,論述了國內(nèi)外對(duì)搜索引擎的研究現(xiàn)狀以及未來發(fā)展的趨勢,分析了搜索引擎的工作原理,詳細(xì)介紹了分布式搜索引擎涉及的相關(guān)理論技術(shù)。對(duì)主要的幾種分布式搜索引擎方案進(jìn)行對(duì)比分析,研究改進(jìn)措施,提出了基于Hadoop的分布式搜索引擎技術(shù)方案。根據(jù)搜索引擎本身特點(diǎn),將搜索引擎分為爬行、索引、檢索三個(gè)子模塊,對(duì)系統(tǒng)的每個(gè)子模塊進(jìn)行詳細(xì)設(shè)計(jì)并實(shí)現(xiàn),將Hadoop的Map/Reduce模型和分布式文件系統(tǒng)HDFS應(yīng)用在整個(gè)搜索引擎中。在原有PageRank算法基礎(chǔ),進(jìn)行優(yōu)化,添加用戶訪問反饋影響因子,提出一種基于用戶訪問反饋的PageRank算法,來對(duì)網(wǎng)頁進(jìn)行評(píng)分。利用輕量級(jí)Web應(yīng)用框架SpringMVC對(duì)檢索子模塊進(jìn)行構(gòu)建,視圖層采用新一代Java模板引擎jetbrick-template替代Jsp,提高了頁面加載速度,提升搜索引擎的時(shí)效性。最后,對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行介紹和部署,搭建分布式搜索引擎系統(tǒng),對(duì)實(shí)現(xiàn)的搜索引擎系統(tǒng)從功能、可靠性、可擴(kuò)展性幾個(gè)方面分別進(jìn)行了測試。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比和分析,論證了基于Hadoop的分布式搜索引擎技術(shù)方案的可行性。
李青山,王俊,褚華,季陶然[6](2015)在《基于Agent的智能化元搜索引擎?zhèn)€性化機(jī)制》文中研究說明大數(shù)據(jù)環(huán)境下,信息量過載,人們需要精準(zhǔn)、智能的檢索工具.本文研究了基于Agent的智能元搜索引擎中的個(gè)性化機(jī)制,準(zhǔn)確地理解用戶的搜索意圖,有效地提高了信息檢索的服務(wù)質(zhì)量.文中著重研究基于Agent的智能元搜索引擎?zhèn)€性化方法及功能實(shí)現(xiàn)所需的相關(guān)理論與技術(shù),給出了查詢語句分析與查詢興趣挖掘及成員搜索引擎調(diào)度過程,設(shè)計(jì)了基于動(dòng)態(tài)學(xué)習(xí)的復(fù)雜查詢識(shí)別機(jī)制,基于動(dòng)態(tài)更新的用戶興趣概貌模型的檢索興趣挖掘機(jī)制,以及基于概念格與日志分析的搜索引擎評(píng)估調(diào)度策略機(jī)制.最后,針對(duì)復(fù)雜查詢語句識(shí)別、搜索引擎調(diào)度策略效果及檢索結(jié)果相關(guān)性的測試結(jié)果表明,本文提出的基于Agent的智能元搜索引擎?zhèn)€性化機(jī)制,可較為準(zhǔn)確地識(shí)別出復(fù)雜的查詢語句并進(jìn)行預(yù)處理,高效學(xué)習(xí)用戶的查詢興趣,達(dá)到明顯提高檢索結(jié)果相關(guān)程度的目的,并智能化地調(diào)度成員搜索引擎,為提高用戶信息檢索效率提供充分支持,從而提高用戶的檢索體驗(yàn).
董佳[7](2016)在《基于垂直搜索技術(shù)的互聯(lián)網(wǎng)公開文檔搜集系統(tǒng)》文中提出現(xiàn)今,伴隨著云存儲(chǔ)、虛擬化辦公等多種互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們獲取信息的途徑和方式,已從傳統(tǒng)的社交媒體時(shí)代進(jìn)入網(wǎng)絡(luò)信息時(shí)代,谷歌、百度等通用搜索引擎正廣泛被人們用于從互聯(lián)網(wǎng)上檢索信息,獲取資訊。通用搜索引擎主要依賴傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù),“大而全”地采集互聯(lián)網(wǎng)上的信息數(shù)據(jù),忽略了“準(zhǔn)而精”地滿足用戶在專業(yè)檢索領(lǐng)域、索引海量級(jí)數(shù)據(jù)、信息更新速度、個(gè)性化服務(wù)等方面的需求。為此,針對(duì)某一特定使用者,涉獵某一特定領(lǐng)域,滿足某一特定需求的主題網(wǎng)絡(luò)爬蟲和垂直搜索服務(wù)應(yīng)運(yùn)而生,正逐漸成為信息搜索領(lǐng)域至關(guān)重要的一部分。本文針對(duì)目前使用頻率較高且迅速增長的文檔檢索垂直服務(wù)領(lǐng)域,主要研究如何基于垂直搜索技術(shù),對(duì)互聯(lián)網(wǎng)上的各類文檔,進(jìn)行定向化搜集和個(gè)性化應(yīng)用,實(shí)現(xiàn)基于垂直搜索技術(shù)的互聯(lián)網(wǎng)公開文檔搜集系統(tǒng)。一是運(yùn)用垂直搜索技術(shù)和信息抽取技術(shù),搜集和存儲(chǔ)指定專業(yè)網(wǎng)站上用戶關(guān)注的網(wǎng)頁信息和文檔數(shù)據(jù);二是結(jié)合采集型元搜索技術(shù),利用已有的通用搜索引擎,搜集和存儲(chǔ)互聯(lián)網(wǎng)上存在的多種類型公開電子文檔;三是運(yùn)用增量索引技術(shù),實(shí)現(xiàn)對(duì)搜集文檔數(shù)據(jù)的二次搜索和結(jié)果展示。本文的創(chuàng)新點(diǎn)在于:一是筆者分析研究了網(wǎng)頁URL鏈接的智能識(shí)別處理算法和基于DOM樹的文本密度正文提取算法,優(yōu)化了文檔數(shù)據(jù)采集方案;二是筆者通過Lucene全文檢索引擎,研發(fā)出獨(dú)具特色的自建索引模塊,并結(jié)合成熟的百度硬盤搜索技術(shù),實(shí)現(xiàn)對(duì)word、excel、pdf、ppt等多種互聯(lián)網(wǎng)公開文檔的索引、關(guān)鍵詞搜索和文檔提取。
武耀旭[8](2014)在《基于遺傳算法的專業(yè)元搜索引擎技術(shù)研究》文中研究指明當(dāng)今互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展,網(wǎng)絡(luò)普及率直線上升,網(wǎng)民的數(shù)量以指數(shù)量級(jí)增長,由于網(wǎng)絡(luò)使用人數(shù)的增多,網(wǎng)絡(luò)信息量也是每天都在大量增加,目前網(wǎng)絡(luò)的信息量非常龐大,現(xiàn)在的網(wǎng)民使用網(wǎng)絡(luò)去查找信息的意識(shí)不斷增強(qiáng),但是由于不同的網(wǎng)民對(duì)專業(yè)信息需求面各不相同再加上現(xiàn)在網(wǎng)絡(luò)信息爆炸式的增長,單單依靠獨(dú)立的搜索引擎去查找真正自己需要的信息是非常困難的,那么怎么解決針對(duì)不同領(lǐng)域的用戶搜索引擎能夠返回用戶相關(guān)領(lǐng)域的結(jié)果,使搜索引擎返回的結(jié)果更能人性的接近用戶對(duì)某一專業(yè)領(lǐng)域的需求,成為各大搜索引擎運(yùn)營商的首要任務(wù)。本文深層次的分析和研究了各個(gè)獨(dú)立搜索引擎的相關(guān)理論信息和元搜索引擎的相關(guān)理論信息,結(jié)合各自的優(yōu)點(diǎn)改進(jìn)彼此的缺點(diǎn),建立起了一個(gè)面向培訓(xùn)領(lǐng)域的專業(yè)元搜索引擎。由于本文的搜索引擎是面向?qū)I(yè)領(lǐng)域的,所以就要分析網(wǎng)頁結(jié)果集的各個(gè)網(wǎng)頁的專業(yè)相關(guān)度,網(wǎng)頁相關(guān)度的計(jì)算就要建立一個(gè)網(wǎng)頁相關(guān)度模型,用模型來預(yù)測計(jì)算網(wǎng)頁的專業(yè)相關(guān)的值并且利用這個(gè)值對(duì)網(wǎng)頁進(jìn)行排序,把結(jié)果返回給查詢用戶,本文就是利用改進(jìn)的遺傳算法在專業(yè)詞匯表里篩選出對(duì)專業(yè)網(wǎng)頁排序影響較高的關(guān)鍵詞然后建網(wǎng)頁相關(guān)度模型,最后對(duì)模型進(jìn)行檢測驗(yàn)證了模型的可靠性。本文根據(jù)改進(jìn)的遺傳算法建立的網(wǎng)頁相關(guān)度模型作為網(wǎng)頁排序的結(jié)果優(yōu)化算法,并且建立起了面向教育培訓(xùn)領(lǐng)域的專業(yè)元搜索引擎,介紹了相關(guān)模塊的設(shè)計(jì)與實(shí)現(xiàn),最后對(duì)這個(gè)搜索引擎的搜索結(jié)果進(jìn)行了評(píng)價(jià)和分析。
孫穎成[9](2013)在《基于Agent的智能元搜索引擎?zhèn)€性化功能的研究與實(shí)現(xiàn)》文中研究指明隨著信息資源的不斷膨脹及用戶需求的不斷提高,傳統(tǒng)搜索引擎逐漸暴露出信息覆蓋率低、智能化服務(wù)水平不足等方面的問題,能夠有效提高信息檢索覆蓋率及準(zhǔn)確率的智能化元搜索引擎因而被提出并得到廣泛關(guān)注。本文重點(diǎn)研究基于Agent的智能元搜索引擎中的個(gè)性化功能,利用Agent技術(shù)優(yōu)勢實(shí)現(xiàn)用戶興趣的主動(dòng)學(xué)習(xí)及檢索結(jié)果的個(gè)性化過濾,為獲得更高質(zhì)量的檢索結(jié)果提供支持。本文介紹了基于Agent的智能元搜索引擎中個(gè)性化功能的研究與實(shí)現(xiàn)。首先明確了目前搜索引擎存在的不足之處及國內(nèi)外的相關(guān)研究,然后概述了個(gè)性化方法研究及功能實(shí)現(xiàn)所需的相關(guān)理論與技術(shù)。接下來提出了可解決目前搜索引擎不足的基于Agent的智能元搜索引擎體系結(jié)構(gòu),包括其框架模型、檢索結(jié)果合成模型、Agent結(jié)構(gòu)模型及Agent生命周期。隨后著重研究了個(gè)性化功能的設(shè)計(jì),給出了查詢興趣挖掘與查詢語句分析過程,設(shè)計(jì)了基于公共興趣黑板的群組推薦檢索結(jié)果生成機(jī)制、基于動(dòng)態(tài)學(xué)習(xí)的復(fù)雜查詢識(shí)別機(jī)制及相關(guān)數(shù)據(jù)庫。接下來給出了個(gè)性化功能具體實(shí)現(xiàn),包括基于公共興趣黑板的群組推薦檢索結(jié)果生成機(jī)制的實(shí)現(xiàn)以及復(fù)雜查詢語句識(shí)別方法的實(shí)現(xiàn)。針對(duì)檢索結(jié)果相關(guān)性和復(fù)雜查詢語句識(shí)別效果的測試結(jié)果表明,本文提出的基于Agent的智能元搜索引擎?zhèn)€性化功能可有效學(xué)習(xí)用戶的查詢興趣,明顯提高檢索結(jié)果相關(guān)程度,較為準(zhǔn)確地識(shí)別出復(fù)雜的查詢語句,能夠?yàn)樘岣哂脩粜畔z索效率提供充分支持。
張春磊[10](2012)在《基于元搜索的Web信息搜索技術(shù)研究》文中研究說明伴隨著互聯(lián)網(wǎng)的普及和發(fā)展,網(wǎng)絡(luò)信息內(nèi)容日益增加,這些信息中不但包含文本形式的內(nèi)容,圖片、音頻、視頻等內(nèi)容也夾雜其中。如何在網(wǎng)絡(luò)資源中快速準(zhǔn)確地篩選和整理用戶所需信息成為信息檢索領(lǐng)域的一個(gè)研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)在人工智能領(lǐng)域也稱之為知識(shí)發(fā)現(xiàn),它是通過分析已有數(shù)據(jù),從海量數(shù)據(jù)中找尋相同的規(guī)律,并將發(fā)現(xiàn)的規(guī)律進(jìn)行展示的技術(shù)。而Web信息搜索技術(shù)是數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)上的一項(xiàng)拓展。搜索引擎最早的收錄方式是人工收錄,人工收錄的方法建立的搜索引擎以雅虎為代表。這種方法將互聯(lián)網(wǎng)的信息經(jīng)過人工搜集、篩選并進(jìn)行相關(guān)分類,之后將整理好的結(jié)果收錄到網(wǎng)站中。但是這種方法由于人工維護(hù)成本高昂、用戶知識(shí)結(jié)構(gòu)各不相同等因素不能滿足用戶多方面需求。伴隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,自動(dòng)化的搜索引擎應(yīng)運(yùn)而生。搜索引擎通過網(wǎng)絡(luò)機(jī)器人程序?qū)⒒ヂ?lián)網(wǎng)中所有數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)并進(jìn)行爬行抓取,從而得到信息索引。同時(shí),它為用戶提供一個(gè)信息檢索平臺(tái),用戶可以通過該平臺(tái)使用關(guān)鍵詞進(jìn)行檢索。搜索引擎可分為:全文搜索引擎、目錄搜索引擎、元搜索引擎等。其中元搜索引擎是網(wǎng)頁搜索引擎的進(jìn)一步延伸,用戶可以在一個(gè)用戶交互平臺(tái)中根據(jù)關(guān)鍵詞選擇在多個(gè)搜索引擎中進(jìn)行相關(guān)檢索操作,元搜索的特點(diǎn)就在于可以獨(dú)立調(diào)用其他搜索引擎,實(shí)現(xiàn)信息的跨引擎融合,滿足用戶快速整合信息的需求。元搜索引擎與傳統(tǒng)搜索引擎相比,前者能夠獲得更加精確而全面的信息。本文系統(tǒng)地闡述了Web信息提取技術(shù)的相關(guān)原理和研究現(xiàn)狀,同時(shí)介紹了Web信息提取技術(shù)的關(guān)鍵步驟。重點(diǎn)研究了搜索引擎的流程以及關(guān)鍵性技術(shù),并對(duì)元搜索進(jìn)行了深入研究。本文的主要工作主要體現(xiàn)在:(1)對(duì)Web信息提取技術(shù)的研究背景以及Web信息提取技術(shù)的分類和步驟進(jìn)行了闡述。(2)對(duì)Web信息提取模型、HTML語言和DOM文檔對(duì)象進(jìn)行了介紹。(3)對(duì)SSH框架中Struts、Spring、Hibernate框架進(jìn)行了介紹,對(duì)網(wǎng)站的結(jié)構(gòu)信息進(jìn)行了分析。(4)對(duì)搜索引擎的背景和分類以及關(guān)鍵技術(shù)進(jìn)行了總結(jié),以AJAX技術(shù)、HTML Parser等技術(shù)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)元搜索引擎。(5)對(duì)搜索引擎得到的結(jié)果進(jìn)行了分析比對(duì)。(6)對(duì)搜索引擎程序進(jìn)行了測試。本文的研究以原有搜索引擎技術(shù)為基礎(chǔ),為實(shí)現(xiàn)更好的元搜索和開發(fā)更優(yōu)秀的網(wǎng)絡(luò)信息檢索工具提供了一些參考。
二、一種基于Java的元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(論文開題報(bào)告)
(1)論文研究背景及目的
此處內(nèi)容要求:
首先簡單簡介論文所研究問題的基本概念和背景,再而簡單明了地指出論文所要研究解決的具體問題,并提出你的論文準(zhǔn)備的觀點(diǎn)或解決方法。
寫法范例:
本文主要提出一款精簡64位RISC處理器存儲(chǔ)管理單元結(jié)構(gòu)并詳細(xì)分析其設(shè)計(jì)過程。在該MMU結(jié)構(gòu)中,TLB采用叁個(gè)分離的TLB,TLB采用基于內(nèi)容查找的相聯(lián)存儲(chǔ)器并行查找,支持粗粒度為64KB和細(xì)粒度為4KB兩種頁面大小,采用多級(jí)分層頁表結(jié)構(gòu)映射地址空間,并詳細(xì)論述了四級(jí)頁表轉(zhuǎn)換過程,TLB結(jié)構(gòu)組織等。該MMU結(jié)構(gòu)將作為該處理器存儲(chǔ)系統(tǒng)實(shí)現(xiàn)的一個(gè)重要組成部分。
(2)本文研究方法
調(diào)查法:該方法是有目的、有系統(tǒng)的搜集有關(guān)研究對(duì)象的具體信息。
觀察法:用自己的感官和輔助工具直接觀察研究對(duì)象從而得到有關(guān)信息。
實(shí)驗(yàn)法:通過主支變革、控制研究對(duì)象來發(fā)現(xiàn)與確認(rèn)事物間的因果關(guān)系。
文獻(xiàn)研究法:通過調(diào)查文獻(xiàn)來獲得資料,從而全面的、正確的了解掌握研究方法。
實(shí)證研究法:依據(jù)現(xiàn)有的科學(xué)理論和實(shí)踐的需要提出設(shè)計(jì)。
定性分析法:對(duì)研究對(duì)象進(jìn)行“質(zhì)”的方面的研究,這個(gè)方法需要計(jì)算的數(shù)據(jù)較少。
定量分析法:通過具體的數(shù)字,使人們對(duì)研究對(duì)象的認(rèn)識(shí)進(jìn)一步精確化。
跨學(xué)科研究法:運(yùn)用多學(xué)科的理論、方法和成果從整體上對(duì)某一課題進(jìn)行研究。
功能分析法:這是社會(huì)科學(xué)用來分析社會(huì)現(xiàn)象的一種方法,從某一功能出發(fā)研究多個(gè)方面的影響。
模擬法:通過創(chuàng)設(shè)一個(gè)與原型相似的模型來間接研究原型某種特性的一種形容方法。
三、一種基于Java的元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(論文提綱范文)
(1)基于Solr的新媒體稿件檢索系統(tǒng)研究與設(shè)計(jì)(論文提綱范文)
摘要 |
ABSTRACT |
第一章 緒論 |
1.1 項(xiàng)目背景 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.3 研究內(nèi)容 |
1.4 本論文的組織結(jié)構(gòu) |
1.5 本章總結(jié) |
第二章 系統(tǒng)技術(shù)方案 |
2.1 搜索引擎研究 |
2.1.1 搜索引擎介紹 |
2.1.2 搜索引擎原理 |
2.2 企業(yè)搜索引擎方案選定 |
2.3 Solr介紹 |
2.4 Solr原理 |
2.4.1 數(shù)據(jù)分類 |
2.4.2 搜索分類 |
2.4.3 索引原理 |
2.4.4 索引實(shí)現(xiàn)步驟 |
2.4.5 評(píng)分規(guī)則 |
2.5 中文分詞 |
2.5.1 中文分詞介紹 |
2.5.2 分詞算法 |
2.5.3 技術(shù)難點(diǎn) |
2.5.4 分詞應(yīng)用 |
2.6 本章總結(jié) |
第三章 系統(tǒng)詳細(xì)設(shè)計(jì) |
3.1 系統(tǒng)需求分析 |
3.1.1 資源導(dǎo)入模塊 |
3.1.2 預(yù)處理模塊 |
3.1.3 Solr模塊 |
3.1.4 查詢模塊 |
3.2 系統(tǒng)總體架構(gòu) |
3.2.1 總體架構(gòu)設(shè)計(jì) |
3.2.2 系統(tǒng)技術(shù)框架 |
3.3 系統(tǒng)模塊設(shè)計(jì) |
3.3.1 資源導(dǎo)入模塊 |
3.3.2 預(yù)處理模塊 |
3.3.3 Solr索引模塊 |
3.3.4 查詢模塊 |
3.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì) |
3.4.1 MySQL數(shù)據(jù)庫設(shè)計(jì) |
3.4.2 Solr字段設(shè)計(jì) |
3.5 本章總結(jié) |
第四章 系統(tǒng)實(shí)現(xiàn)方案 |
4.1 系統(tǒng)整體架構(gòu)實(shí)現(xiàn) |
4.2 軟件技術(shù)方案 |
4.2.1 數(shù)據(jù)庫MySQL |
4.2.2 依賴管理Maven |
4.2.3 版本管理Git |
4.2.4 服務(wù)器Tomcat |
4.3 系統(tǒng)功能實(shí)現(xiàn) |
4.3.1 資源導(dǎo)入模塊 |
4.3.2 預(yù)處理模塊 |
4.3.3 Solr檢索模塊 |
4.3.4 查詢模塊 |
4.4 本章總結(jié) |
第五章 系統(tǒng)測試 |
5.1 系統(tǒng)部署方案 |
5.2 系統(tǒng)測試方案 |
5.2.1 單元測試 |
5.2.2 功能測試 |
5.2.3 性能測試 |
5.2.4 安全性測試 |
5.3 查詢方案對(duì)比 |
5.4 本章總結(jié) |
第六章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
參考文獻(xiàn) |
致謝 |
(2)基于Lucene的搜索引擎的研究與實(shí)現(xiàn)(論文提綱范文)
摘要 |
Abstract |
1 緒論 |
1.1 課題內(nèi)容簡介 |
1.2 課題的研究背景與意義 |
1.2.1 課題的研究背景 |
1.2.2 課題的研究意義 |
1.2.3 搜索引擎的重要性 |
1.3 論文結(jié)構(gòu) |
2 搜索引擎概述 |
2.1 搜索引擎定義 |
2.2 搜索引擎的特點(diǎn) |
2.3 搜索引擎的分類 |
2.3.1 全文索引搜索引擎 |
2.3.2 目錄索引搜索引擎 |
2.3.3 元搜索引擎搜索引擎 |
2.4 本章小結(jié) |
3 需求分析 |
3.1 可行性分析 |
3.1.1 技術(shù)可行性 |
3.1.2 經(jīng)濟(jì)可行性 |
3.1.3 法律可行性 |
3.1.4 操作可行性 |
3.2 系統(tǒng)的綜合需求分析 |
3.3 功能需求分析 |
3.4 搜索引擎的功能描述 |
3.4.1 目錄搜索功能 |
3.4.2 網(wǎng)絡(luò)機(jī)器人搜索功能 |
3.4.3 元搜索搜索功能 |
3.5 搜索引擎的用例分析 |
3.6 本章小結(jié) |
4 Lucene分析與設(shè)計(jì) |
4.1 Lucene相關(guān)概念 |
4.2 Lucene索引建立 |
4.2.1 邏輯文件 |
4.2.2 索引工具 |
4.2.3 切分詞問題(Word Segment) |
4.2.4 簡單化查詢處理器 |
4.2.5 處理指定記錄 |
4.2.6 排序功能 |
4.2.7 更通用的輸入輸出接口 |
4.3 本章小結(jié) |
5 網(wǎng)絡(luò)爬蟲Heritrix |
5.1 抓取任務(wù) |
5.2 中央控制器 |
5.3 搜索效果優(yōu)化 |
5.4 本章小結(jié) |
6 系統(tǒng)實(shí)現(xiàn)與界面顯示 |
6.1 網(wǎng)絡(luò)爬蟲 |
6.1.1 抓取 |
6.1.2 提取文本信息 |
6.2 實(shí)現(xiàn)過程 |
6.2.1 數(shù)據(jù)庫中建表 |
6.2.2 在spring-bean中配置 |
6.2.3 對(duì)文檔進(jìn)行索引 |
6.2.4 Lucene搜索 |
6.2.5 查詢結(jié)果的顯示方式 |
6.2.6 Web通用文件配置 |
6.3 界面顯示 |
6.3.1 搜索主要界面 |
6.3.2 詳細(xì)頁面 |
6.4 系統(tǒng)功能與運(yùn)行環(huán)境 |
6.5 系統(tǒng)運(yùn)行和操作指南 |
6.6 本章小結(jié) |
結(jié)論 |
參考文獻(xiàn) |
致謝 |
(3)主題元搜索引擎排序算法研究(論文提綱范文)
摘要 |
ABSTRACT |
第1章 緒論 |
1.1 選題背景及意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 元搜索引擎:提高查全率 |
1.2.2 主題搜索引擎:提高查準(zhǔn)率 |
1.2.3 開源搜索引擎:Nutch |
1.3 本文工作 |
1.4 章節(jié)安排 |
第2章 搜索引擎及NUTCH系統(tǒng)研究 |
2.1 搜索引擎概述 |
2.1.1 元搜索引擎 |
2.1.2 全文搜索引擎 |
2.1.3 目錄索引 |
2.1.4 主題搜索引擎 |
2.1.5 主題元搜索引擎 |
2.2 NUTCH系統(tǒng) |
2.2.1 Crawler爬蟲 |
2.2.2 Searcher查詢 |
2.2.3 Nutch分詞機(jī)制 |
2.2.4 Nutch網(wǎng)頁排序方法 |
2.3 本章小結(jié) |
第3章 中文分詞技術(shù)研究 |
3.1 中文分詞技術(shù)分析 |
3.2 常用中文分詞插件 |
3.2.1 ICTCLAS2015分詞器 |
3.2.2 庖丁中文分詞 |
3.2.3 IKAnalyzer |
3.2.4 其他分詞器 |
3.3 中文分詞器性能對(duì)比 |
3.3.1 分詞效果對(duì)比 |
3.3.2 分詞速度對(duì)比 |
3.3.3 建立索引效率對(duì)比 |
3.4 分詞效果演示 |
3.5 本章小結(jié) |
第4章 NUTCH網(wǎng)頁排序算法優(yōu)化 |
4.1 常用網(wǎng)頁排序算法分析 |
4.1.1 基于詞頻統(tǒng)計(jì)和位置加權(quán)的排序算法 |
4.1.2 Page Rank算法 |
4.1.3 HITS算法 |
4.2 排序算法性能對(duì)比 |
4.3 NUCTH網(wǎng)頁排序算法改進(jìn) |
4.3.1 權(quán)威性改進(jìn) |
4.3.2 本地相關(guān)度改進(jìn) |
4.4 實(shí)驗(yàn)驗(yàn)證及分析 |
4.5 本章小結(jié) |
第5章 基于NUTCH的主題元搜索引擎實(shí)現(xiàn) |
5.1 NUTCH系統(tǒng)開發(fā)環(huán)境 |
5.2 NUTCH搜索引擎系統(tǒng)中文分詞模塊改進(jìn) |
5.3 NUTCH搜索引擎系統(tǒng)排序算法改進(jìn) |
5.4 NUTCH搜索引擎系統(tǒng)效果演示 |
5.5 本章小結(jié) |
第6章 總結(jié)與展望 |
6.1 總結(jié) |
6.2 展望 |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間發(fā)表的論文及其他研究成果 |
致謝 |
(4)智能化元搜索引擎中多Agent系統(tǒng)架構(gòu)的研究與實(shí)現(xiàn)(論文提綱范文)
摘要 |
ABSTRACT |
縮略語對(duì)照表 |
第一章 緒論 |
1.1 研究背景與意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.2.1 典型的元搜索引擎系統(tǒng) |
1.2.2 基于Agent的元搜索引擎系統(tǒng)架構(gòu) |
1.3 論文工作內(nèi)容 |
1.4 本文組織結(jié)構(gòu) |
第二章 理論基礎(chǔ)與關(guān)鍵技術(shù) |
2.1 元搜索引擎技術(shù) |
2.2 Agent相關(guān)理論與技術(shù) |
2.3 JADE框架 |
2.3.1 JADE基本架構(gòu) |
2.3.2 Agent的生命周期 |
2.3.3 Agent的交互機(jī)制 |
2.4 本章小結(jié) |
第三章 元搜索引擎中多Agent系統(tǒng)結(jié)構(gòu)的設(shè)計(jì) |
3.1 元搜索引擎系統(tǒng)目標(biāo)分析 |
3.2 系統(tǒng)框架模型 |
3.3 Agent模型設(shè)計(jì) |
3.3.1 接口Agent |
3.3.2 用戶個(gè)性化Agent |
3.3.3 調(diào)度管理Agent |
3.3.4 結(jié)果合成Agent |
3.3.5 系統(tǒng)推薦Agent |
3.4 本章小結(jié) |
第四章 元搜索引擎中多Agent系統(tǒng)的實(shí)現(xiàn) |
4.1 多Agent系統(tǒng)初始化模塊的實(shí)現(xiàn) |
4.2 Agent模型及相關(guān)支撐環(huán)境的實(shí)現(xiàn) |
4.2.1 接口Agent的實(shí)現(xiàn) |
4.2.2 用戶個(gè)性化Agent的實(shí)現(xiàn) |
4.2.3 調(diào)度管理Agent的實(shí)現(xiàn) |
4.2.4 結(jié)果合成Agent的實(shí)現(xiàn) |
4.2.5 系統(tǒng)推薦Agent的實(shí)現(xiàn) |
4.3 本章小結(jié) |
第五章 實(shí)驗(yàn)測試與分析 |
5.1 實(shí)驗(yàn)?zāi)康?/td> |
5.2 實(shí)驗(yàn)環(huán)境 |
5.3 實(shí)驗(yàn)過程及結(jié)果分析 |
5.3.1 系統(tǒng)功能測試結(jié)果分析 |
5.3.2 系統(tǒng)性能測試結(jié)果分析 |
5.4 本章小結(jié) |
第六章 總結(jié)與展望 |
6.1 本文工作總結(jié) |
6.2 后續(xù)工作展望 |
參考文獻(xiàn) |
致謝 |
作者簡介 |
(5)基于分布式的搜索引擎技術(shù)研究與設(shè)計(jì)(論文提綱范文)
摘要 |
abstract |
第1章 緒論 |
1.1 研究背景及意義 |
1.1.1 研究背景 |
1.1.2 研究意義 |
1.2 國內(nèi)外研究現(xiàn)狀 |
1.3 論文主要研究內(nèi)容 |
1.4 論文結(jié)構(gòu) |
第2章 相關(guān)理論技術(shù)分析 |
2.1 搜索引擎原理 |
2.2 分布式計(jì)算技術(shù) |
2.2.1 分布式計(jì)算平臺(tái) |
2.2.2 Hadoop中的Map/Reduce編程模型 |
2.2.3 HDFS分布式文件系統(tǒng) |
2.3 網(wǎng)絡(luò)爬蟲 |
2.4 分詞技術(shù) |
2.5 索引技術(shù) |
2.5.1 索引技術(shù)介紹 |
2.5.2 倒排索引 |
2.5.3 基于Lucene的全文檢索 |
2.6 網(wǎng)頁評(píng)分與排序機(jī)制 |
2.7 本章小結(jié) |
第3章 分布式搜索引擎技術(shù)方案分析 |
3.1 分布式搜索引擎技術(shù)方案 |
3.1.1 分布式元搜索引擎 |
3.1.2 散列式分布搜索引擎 |
3.1.3 基于P2P的分布搜索引擎 |
3.1.4 局部遍歷型搜索引擎 |
3.2 基于Hadoop的分布式搜索引擎技術(shù)方案 |
3.3 技術(shù)方案對(duì)比分析 |
3.4 本章小結(jié) |
第4章 基于Hadoop的分布式搜索引擎設(shè)計(jì) |
4.1 系統(tǒng)總體設(shè)計(jì) |
4.2 爬行子模塊設(shè)計(jì) |
4.2.1 初始URL注入 |
4.2.2 注入生成待下載列表 |
4.2.3 網(wǎng)頁內(nèi)容下載 |
4.2.4 crawldb數(shù)據(jù)庫更新 |
4.3 索引子模塊設(shè)計(jì) |
4.3.1 非結(jié)構(gòu)化文檔解析 |
4.3.2 Jcesg中文分詞 |
4.3.3 基于用戶訪問反饋的PageRank算法 |
4.3.4 索引庫構(gòu)建 |
4.4 檢索子模塊設(shè)計(jì) |
4.4.1 前臺(tái)展示 |
4.4.2 后臺(tái)查詢處理 |
4.5 系統(tǒng)評(píng)測分析 |
4.5.1 分布式環(huán)境部署 |
4.5.2 系統(tǒng)測試 |
4.6 本章小結(jié) |
結(jié)論 |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果 |
致謝 |
(7)基于垂直搜索技術(shù)的互聯(lián)網(wǎng)公開文檔搜集系統(tǒng)(論文提綱范文)
中文摘要 |
Abstract |
第一章 引言 |
1.1 研究的背景與意義 |
1.1.1 研究的背景 |
1.1.2 研究的意義 |
1.1.3 研究對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的作用 |
1.2 國內(nèi)外的研究現(xiàn)狀 |
1.2.1 垂直搜索的定義 |
1.2.2 垂直搜索的研究現(xiàn)狀 |
1.2.3 文檔垂直搜索服務(wù) |
1.3 研究目的和研究內(nèi)容 |
1.3.1 研究目的 |
1.3.2 研究內(nèi)容 |
1.4 論文結(jié)構(gòu) |
第二章 理論基礎(chǔ) |
2.1 主題網(wǎng)絡(luò)爬蟲技術(shù) |
2.1.1 主題網(wǎng)絡(luò)爬蟲的定義 |
2.1.2 主題網(wǎng)絡(luò)爬蟲的工作原理 |
2.1.3 主題網(wǎng)絡(luò)爬蟲的搜索策略 |
2.1.4 開源的主題網(wǎng)絡(luò)爬蟲策略 |
2.2 元搜索技術(shù) |
2.2.1 元搜索技術(shù)概述 |
2.2.2 元搜索工作原理 |
2.2.3 元搜索的特點(diǎn) |
2.2.4 采集型元搜索技術(shù) |
2.3 Web信息抽取技術(shù) |
2.3.1 Web信息抽取技術(shù)概述 |
2.3.2 HTML基本語法分析 |
2.3.3 HTML網(wǎng)頁的預(yù)處理 |
2.3.4 Web信息內(nèi)容的抽取 |
2.4 基于Lucene的索引與搜索技術(shù) |
2.4.1 Lucene概述 |
2.4.2 Lucene的索引技術(shù) |
2.4.3 Lucene的搜索技術(shù) |
2.4.4 文本分詞技術(shù) |
2.5 本章小結(jié) |
第三章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) |
3.1 系統(tǒng)概述 |
3.2 目標(biāo)定義 |
3.2.1 使用需求的定義 |
3.2.2 檢索數(shù)據(jù)的定義 |
3.3 難點(diǎn)處理和技術(shù)實(shí)現(xiàn) |
3.3.1 指定網(wǎng)站文檔采集的優(yōu)化方案 |
3.3.2 通用搜索引擎的文檔采集策略 |
3.3.3 文檔索引檢索功能的實(shí)現(xiàn)方案 |
3.4 本章小結(jié) |
第四章 系統(tǒng)實(shí)驗(yàn)與結(jié)果分析 |
4.1 實(shí)驗(yàn)環(huán)境 |
4.2 系統(tǒng)功能 |
4.2.1 文件操作功能 |
4.2.2 模式操作功能 |
4.2.3 設(shè)置操作功能 |
4.2.4 抓取操作功能 |
4.3 實(shí)驗(yàn)結(jié)果與分析 |
4.3.1 指定網(wǎng)站信息抓取模式的功能實(shí)驗(yàn) |
4.3.2 網(wǎng)絡(luò)文檔信息抓取模式的功能實(shí)驗(yàn) |
4.3.3 自建索引和百度索引二次搜索模式的功能實(shí)驗(yàn) |
4.4 本章小結(jié) |
第五章 總結(jié)和展望 |
5.1 研究工作總結(jié) |
5.2 論文的創(chuàng)新點(diǎn) |
5.3 后續(xù)研究展望 |
參考文獻(xiàn) |
致謝 |
個(gè)人簡歷 |
攻讀碩士期間的研究經(jīng)歷與成果 |
(8)基于遺傳算法的專業(yè)元搜索引擎技術(shù)研究(論文提綱范文)
摘要 |
Abstract |
目錄 |
緒論 |
一、課題研究背景 |
二、論文的意義以及主要研究內(nèi)容 |
第一章 專業(yè)元搜索引擎相關(guān)理論技術(shù)研究 |
1.1 引言 |
1.2 搜索引擎概述 |
1.2.1 搜索引擎的發(fā)展歷史 |
1.2.2 搜索引擎的研究現(xiàn)狀 |
1.2.3 搜索引擎發(fā)展趨勢 |
1.2.4 搜索引擎的分類 |
1.2.5 搜索引擎的原理和結(jié)構(gòu) |
1.3 專業(yè)搜索引擎概述 |
1.3.1 專業(yè)搜索引擎的研究現(xiàn)狀 |
1.3.2 專業(yè)搜索引擎的研究意義 |
1.3.3 專業(yè)搜索引擎特點(diǎn)及優(yōu)勢 |
1.3.4 專業(yè)搜索引擎的結(jié)構(gòu)和原理 |
1.4 元搜索引擎概述 |
1.4.1 元搜索引擎的特點(diǎn)及優(yōu)勢 |
1.4.2 元搜索引擎分類 |
1.4.3 元搜索引擎原理和結(jié)構(gòu) |
本章小結(jié) |
第二章 遺傳算法理論研究 |
2.1 引言 |
2.2 遺傳算法發(fā)展歷史及現(xiàn)狀 |
2.2.1 發(fā)展歷史 |
2.2.2 發(fā)展現(xiàn)狀 |
2.3 遺傳算法基本思想及特點(diǎn) |
2.4 遺傳算法基本操作步驟 |
2.5 遺傳算法流程 |
本章小結(jié) |
第三章 遺傳算法改進(jìn)研究 |
3.1 引言 |
3.2 選擇算子的改進(jìn) |
3.3 交叉算子的改進(jìn) |
3.4 變異算子的改進(jìn) |
3.5 改進(jìn)遺傳算法的流程 |
本章小結(jié) |
第四章 基于改進(jìn)的遺傳算法的網(wǎng)頁相關(guān)度模型建立 |
4.1 引言 |
4.2 最小二乘法研究 |
4.2.1 多元線性回歸最小二乘解法 |
4.2.2 求解正規(guī)方程組的算法 |
4.3 網(wǎng)頁相關(guān)度模型建立 |
4.3.1 編碼 |
4.3.2 適應(yīng)度函數(shù) |
4.3.3 模型建立 |
4.4 模型檢測 |
本章小結(jié) |
第五章 面向培訓(xùn)領(lǐng)域的專業(yè)元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) |
5.1 引言 |
5.2 專業(yè)元搜索引擎系統(tǒng)的設(shè)計(jì) |
5.2.1 專業(yè)元搜索引擎系統(tǒng)結(jié)構(gòu) |
5.2.2 查詢代理模塊的設(shè)計(jì)與實(shí)現(xiàn) |
5.2.3 URL管理器 |
5.2.4 分詞系統(tǒng) |
5.3 專業(yè)元搜索引擎的實(shí)現(xiàn) |
5.3.1 系統(tǒng)實(shí)現(xiàn) |
5.3.2 結(jié)果實(shí)驗(yàn)與分析 |
本章小結(jié) |
第六章 總結(jié) |
參考文獻(xiàn) |
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文 |
致謝 |
(9)基于Agent的智能元搜索引擎?zhèn)€性化功能的研究與實(shí)現(xiàn)(論文提綱范文)
摘要 |
Abstract |
第一章 緒論 |
1.1 研究背景及意義 |
1.2 國內(nèi)外研究現(xiàn)狀分析 |
1.2.1 典型的元搜索引擎 |
1.2.2 元搜索引擎?zhèn)€性化方法與技術(shù) |
1.3 論文工作內(nèi)容 |
1.4 論文組織結(jié)構(gòu) |
第二章 相關(guān)技術(shù)概述 |
2.1 Agent 理論與技術(shù) |
2.2 元搜索引擎 |
2.3 SSH 框架介紹 |
2.3.1 Struts2 框架 |
2.3.2 Spring 框架 |
2.3.3 Hibernate 框架 |
2.4 本章小結(jié) |
第三章 基于 Agent 的智能元搜索引擎體系結(jié)構(gòu) |
3.1 系統(tǒng)框架模型 |
3.2 檢索結(jié)果合成模型 |
3.3 系統(tǒng) Agent 結(jié)構(gòu)模型及其交互關(guān)系 |
3.4 系統(tǒng) Agent 生命周期 |
3.5 本章小結(jié) |
第四章 基于 Agent 的智能元搜索引擎?zhèn)€性化功能設(shè)計(jì) |
4.1 查詢興趣挖掘與查詢語句分析過程 |
4.2 基于動(dòng)態(tài)學(xué)習(xí)的復(fù)雜查詢語句識(shí)別方法 |
4.2.1 復(fù)雜查詢語句相關(guān)定義 |
4.2.2 基于動(dòng)態(tài)學(xué)習(xí)的查詢語句復(fù)雜性分析 |
4.3 個(gè)性化功能相關(guān)的數(shù)據(jù)庫設(shè)計(jì) |
4.4 本章小結(jié) |
第五章 基于 Agent 的智能元搜索引擎?zhèn)€性化功能實(shí)現(xiàn) |
5.1 基于公共興趣黑板的群組推薦檢索結(jié)果生成機(jī)制的實(shí)現(xiàn) |
5.2 復(fù)雜查詢語句識(shí)別方法的實(shí)現(xiàn) |
5.3 本章小結(jié) |
第六章 實(shí)驗(yàn)研究與測試 |
6.1 實(shí)驗(yàn)環(huán)境 |
6.2 檢索結(jié)果相關(guān)性測試 |
6.2.1 用戶興趣學(xué)習(xí)效果測試 |
6.2.2 檢索效果對(duì)比測試 |
6.3 復(fù)雜查詢語句識(shí)別功能測試 |
6.3.1 復(fù)雜查詢語句的提出必要性實(shí)驗(yàn) |
6.3.2 復(fù)雜查詢語句識(shí)別效果測試 |
6.4 本章小結(jié) |
第七章 結(jié)束語 |
7.1 論文工作總結(jié) |
7.2 后續(xù)工作展望 |
致謝 |
參考文獻(xiàn) |
在研期間研究成果 |
(10)基于元搜索的Web信息搜索技術(shù)研究(論文提綱范文)
摘要 |
Abstract |
第1章 緒論 |
1.1 研究背景 |
1.2 研究現(xiàn)狀和分類 |
1.3 本文的研究內(nèi)容 |
1.4 本文的內(nèi)容組織 |
第2章 WEB 信息提取模型 |
2.1 概述 |
2.2 抽象模型架構(gòu) |
2.2.1 Struts 構(gòu)架概述 |
2.2.2 Spring 概述 |
2.2.3 Hibernate 框架概述 |
2.3 頁面分析 |
2.4 本章小結(jié) |
第3章 基于元搜索的網(wǎng)絡(luò)搜索引擎 |
3.1 元搜索理論概述 |
3.1.1 搜索引擎介紹 |
3.1.2 搜索引擎的分類 |
3.1.3 搜索引擎的關(guān)鍵技術(shù) |
3.2 基于 AJAX 語言實(shí)現(xiàn)元搜索 |
3.2.1 元搜索介紹 |
3.2.2 AJAX 語言實(shí)現(xiàn)元搜索 |
3.3 數(shù)據(jù)抽取規(guī)則相關(guān)工作 |
3.3.1 正則表達(dá)式介紹 |
3.3.2 HTML Parser 介紹 |
3.4 JAVA 語言內(nèi)部程序設(shè)計(jì) |
3.5 信息結(jié)果對(duì)比 |
3.6 本章小結(jié) |
第4章 元搜索引擎實(shí)現(xiàn)與測試 |
4.1 源代碼實(shí)現(xiàn)與軟件運(yùn)行 |
4.1.1 軟件功能圖 |
4.1.2 軟件流程圖 |
4.1.3 搜索引擎前臺(tái)工作流程圖 |
4.1.4 搜索引擎后臺(tái)工作流程圖 |
4.2 基于小樣的文本抽取規(guī)則實(shí)現(xiàn)測試 |
4.2.1 軟件測試基礎(chǔ) |
4.2.2 搜索引擎用例 |
4.3 本章小結(jié) |
第5章 總結(jié)與進(jìn)一步工作 |
5.1 總結(jié) |
5.2 進(jìn)一步工作 |
參考文獻(xiàn) |
附錄 |
作者簡介 |
致謝 |
四、一種基于Java的元搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(論文參考文獻(xiàn))
- [1]基于Solr的新媒體稿件檢索系統(tǒng)研究與設(shè)計(jì)[D]. 胡曉峰. 北京郵電大學(xué), 2020(05)
- [2]基于Lucene的搜索引擎的研究與實(shí)現(xiàn)[D]. 宏樸. 大連理工大學(xué), 2016(07)
- [3]主題元搜索引擎排序算法研究[D]. 王然. 華北電力大學(xué), 2016(03)
- [4]智能化元搜索引擎中多Agent系統(tǒng)架構(gòu)的研究與實(shí)現(xiàn)[D]. 周承璐. 西安電子科技大學(xué), 2015(03)
- [5]基于分布式的搜索引擎技術(shù)研究與設(shè)計(jì)[D]. 張永光. 哈爾濱工程大學(xué), 2015(08)
- [6]基于Agent的智能化元搜索引擎?zhèn)€性化機(jī)制[J]. 李青山,王俊,褚華,季陶然. 中國科學(xué):信息科學(xué), 2015(05)
- [7]基于垂直搜索技術(shù)的互聯(lián)網(wǎng)公開文檔搜集系統(tǒng)[D]. 董佳. 福州大學(xué), 2016(05)
- [8]基于遺傳算法的專業(yè)元搜索引擎技術(shù)研究[D]. 武耀旭. 大連交通大學(xué), 2014(04)
- [9]基于Agent的智能元搜索引擎?zhèn)€性化功能的研究與實(shí)現(xiàn)[D]. 孫穎成. 西安電子科技大學(xué), 2013(02)
- [10]基于元搜索的Web信息搜索技術(shù)研究[D]. 張春磊. 吉林大學(xué), 2012(10)
標(biāo)簽:搜索引擎論文; 目錄搜索引擎論文; 搜索引擎基本工作原理論文; 搜索引擎原理論文; 谷歌搜索引擎論文;