當前位置：趣味科普網>經驗>

網路爬蟲的原理是怎樣的

經驗閱讀(3.07W)

網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成，傳統爬蟲從一個或若干初始網頁的網頁地址開始，獲得初始網頁上的網頁地址，在抓取網頁的過程中，不斷從當前頁面上抽取新的網頁地址放入佇列，直到滿足系統的一定停止條件，聚焦爬蟲的工作流程較為複雜，需要根據一定的網頁分析演算法過濾與主題無關的連結，保留有用的連結並將其放入等待抓取的網頁地址佇列，然後，它將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁地址，並重覆上述過程，直到達到系統的某一條件時停止，所有被爬蟲抓取的網頁將會被系統存貯，進行一定的分析、過濾，並建立索引，以便之後的查詢和檢索。

標籤：爬蟲

圖文推薦