【网络爬虫】| python 爬虫

导语

网络爬虫作为一种自动采集数据的技术，凭借吱声强大的自动抓取网页数据的能力，成为当下互联网高效、灵活的解决方法之一

网络爬虫（Web Crawler）是一种按照一定规则，自动请求网站并提取网页数据的程序和脚本

按照系统结构和实现即时可以分为以下几种类型：

通用网络爬虫
- 搜索引擎抓取系统的重要组成部分，在本地形成一个互联网网页的镜像备份、
- 数量巨大且范围广泛
- 爬行速度和存储空间要求高，但对抓取网页的顺序的要求相对较低
聚焦网络爬虫
- 针对特定目标，有选择性的访问与目标主题相关的网页
- 减少了访问和保存的页面数量，提高网页的更新速度
增量式网络爬虫
- 抓取已下载的网页中新产生或内容变化的网页
- 减少网页的下载量和访问时间，以及减少存储空间的耗费
- 增加了网页抓取算法的复杂度和实现难度
深层网络爬虫
- 抓取网页层次较深，需要通过一定的附加策略才能自动抓取，实现难度大

表层网页和深层网页