返回
Featured image of post 【网络爬虫】| python 爬虫

【网络爬虫】| python 爬虫

导语

网络爬虫作为一种自动采集数据的技术,凭借吱声强大的自动抓取网页数据的能力,成为当下互联网高效、灵活的解决方法之一

什么是网络爬虫

网络爬虫(Web Crawler)是一种按照一定规则,自动请求网站并提取网页数据的程序和脚本

按照系统结构和实现即时可以分为以下几种类型:

  • 通用网络爬虫

    • 搜索引擎抓取系统的重要组成部分,在本地形成一个互联网网页的镜像备份、
    • 数量巨大且范围广泛
    • 爬行速度和存储空间要求高,但对抓取网页的顺序的要求相对较低
  • 聚焦网络爬虫

    • 针对特定目标,有选择性的访问与目标主题相关的网页
    • 减少了访问和保存的页面数量,提高网页的更新速度
  • 增量式网络爬虫

    • 抓取已下载的网页中新产生或内容变化的网页
    • 减少网页的下载量和访问时间,以及减少存储空间的耗费
    • 增加了网页抓取算法的复杂度和实现难度
  • 深层网络爬虫

    • 抓取网页层次较深,需要通过一定的附加策略才能自动抓取,实现难度大

表层网页和深层网页

Licensed under CC BY-NC-SA 4.0
/* */