导语
网络爬虫作为一种自动采集数据的技术,凭借吱声强大的自动抓取网页数据的能力,成为当下互联网高效、灵活的解决方法之一
什么是网络爬虫
网络爬虫(Web Crawler)是一种按照一定规则,自动请求网站并提取网页数据的程序和脚本
按照系统结构和实现即时可以分为以下几种类型:
-
通用网络爬虫
- 搜索引擎抓取系统的重要组成部分,在本地形成一个互联网网页的镜像备份、
- 数量巨大且范围广泛
- 爬行速度和存储空间要求高,但对抓取网页的顺序的要求相对较低
-
聚焦网络爬虫
- 针对特定目标,有选择性的访问与目标主题相关的网页
- 减少了访问和保存的页面数量,提高网页的更新速度
-
增量式网络爬虫
- 抓取已下载的网页中新产生或内容变化的网页
- 减少网页的下载量和访问时间,以及减少存储空间的耗费
- 增加了网页抓取算法的复杂度和实现难度
-
深层网络爬虫
- 抓取网页层次较深,需要通过一定的附加策略才能自动抓取,实现难度大
表层网页和深层网页