Apache Nutch免費下載(zǎi) 最新軟件|熱門排行|軟件(jiàn)分類|軟件專題|廠商大全

您(nín)的位置: 首頁編程開(kāi)發編程工具 → Apache Nutch v2.3 最新版

Apache Nutch

v2.3 最新版 Apache Nutch 網友評分:8

同類相關軟件

軟件介紹

軟件標簽: ApacheNutch 編程工具

Apache Nutch是一款用於java編程(chéng)工具的搜(sōu)索引擎軟件,快速完成(chéng)java數據編程,智能檢索java資源便捷使用。快來綠色資源網下(xià)載體驗吧!

軟件(jiàn)介紹

Nutch是一個開源Java 實現的搜索(suǒ)引擎。它提供了我們運行自己的(de)搜(sōu)索引擎所需的全部工具。包括全文搜(sōu)索和Web爬蟲。Nutch誕生於2002年8月,是Apache旗(qí)下(xià)的一個用(yòng)Java實現的開源搜索引擎項目,自Nutch1.2版本之(zhī)後,Nutch已經從搜索引擎演化為網絡爬(pá)蟲(chóng),接著(zhe)Nutch進一(yī)步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在於2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎.

使(shǐ)用原(yuán)理

在創建一個WebDB之後(步驟1), “產生/抓取(qǔ)/更新”循環(步驟3-6)根據一些種子URLs開始啟動。當這個循(xún)環徹底結束,Crawler根據(jù)抓取(qǔ)中生成的segments創建索引(步(bù)驟7-10)。在進行重複URLs清(qīng)除(步驟9)之前,每個(gè)segment的索引都是獨立的(步驟8)。最終,各個(gè)獨立(lì)的segment索引被合並為一個最終的索引index(步驟10)。

其中有一個細節問題,Dedup操作主(zhǔ)要用於(yú)清除segment索引中的重複URLs,但是我們知道,在WebDB中是不(bú)允(yǔn)許重(chóng)複(fù)的URL存在的,那麽為什麽這裏還要(yào)進行清除呢?原因(yīn)在於抓取的更新。比方說一個月之前(qián)你抓取過這些網頁,一個月後為了更新進行了(le)重新抓取,那麽舊的segment在沒有刪(shān)除之前(qián)仍然起作用,這個時候就需要在新舊segment之(zhī)間進行除(chú)重。

軟件截圖

下載地址 電腦版

點擊報錯 軟件無法下(xià)載或下載後無法使用,請點擊(jī)報錯,謝(xiè)謝!

用戶評論

熱門評論

最(zuì)新評論

發表評論 查看所有(yǒu)評論(0)

昵稱:
請不要評論無意義或(huò)髒話,我們所有評論會有人(rén)工審核.
字數: 0/500 (您的評論需要經過審(shěn)核才能顯示)
免费人欧美成又黄又爽的视频丨一本色道久久88综合日韩精品丨国产专区日韩精品欧美色丨午夜无遮挡男女啪啪视频丨国产欧美日韩综合精品一区二区丨亚洲精品无码不卡在线播HE丨亚洲精品国产精品国自产观看丨日韩国产高清av不卡