爬虫-网路爬虫-中文百科全书

汉语词语

爬虫

基本解释

[reptile] 爬行动物

英语释义

1. [Zoology] a reptile; a reptilian; Reptilia

网路语言

主要分类

网路爬虫为搜寻引擎从全球资讯网下载网页。一般分为传统爬虫和聚焦爬虫。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入伫列，直到满足系统的一定停止条件。通俗的讲，也就是通过源码解析来获得想要的内容。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析演算法过滤与主题无关的连结，保留有用的连结并将其放入等待抓取的URL伫列。然后，它将根据一定的搜寻策略从伫列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索;对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

防爬虫:KS-WAF将爬虫行为分为搜寻引擎爬虫及扫描程式爬虫，可禁止特定的搜寻引擎爬虫节省频宽和性能，也可禁止扫描程式爬虫，避免网站被恶意抓取页面。