前言


本文来谈谈爬虫是什么,它的作用、分类以及工作原理。


一、Python爬虫是什么


Python爬虫也叫网络爬虫,它是一种程序。它可以通过程序模拟浏览器请求站点的行为,从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。

Python爬虫,它到底是什么?_HTML

简单来说,爬虫就是帮助我们获取网络资源的一种程序。


二、爬虫有什么作用?

1、搜集数据

爬虫可以用来抓取网络上的数据,当你的同事还在百度疯狂找材料的时候,你已经使用爬虫爬到了。


2、秒杀商品

参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,优惠券,抢机票和火车票。当你还在卡点手动抢的时候,别人已经挂好程序了。这就是你为什么会慢人一步的原因。


3、搜索引擎

比如百度、谷歌的搜索引擎都是基于爬虫技术。


三、爬虫的分类

1、通用网络爬虫

是搜索引擎的重要组成部分,通用网络爬虫需要遵守 robots 协议,网站通过此协议告诉搜索引擎哪些页面可以抓取,哪些页面不允许抓取。


2、聚焦网络爬虫

是面向特定需求的一种网络爬虫程序。它与通用爬虫的区别在于,聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫极大地节省了硬件和网络资源,由于保存的页面数量少所以更新速度很快,这也很好地满足一些特定人群对特定领域信息的需求。


3、增量式网络爬虫

指对已下载网页采取增量式更新,它是一种只爬取新产生的或者已经发生变化网页的爬虫程序,能够在一定程度上保证所爬取的页面是最新的页面。


四、爬虫的工作原理

1、发起请求

通过HTTP协议向目标站点发送请求(一个request),然后等待目标站点服务器的响应。


2、获取响应内容

如果服务器能正常响应,会得到一个Response。Response的内容便是所要获取的页面内容,响应的内容可能有HTML,Json串,二进制数据(如图片视频)等等。


3、解析内容

得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析;可能是Json,可以直接转为Json对象解析;可能是二进制数据,可以做保存或者进一步的处理。


4、保存数据

数据解析完成后,将保存下来。既可以存为文本文档、可以存到数据库中。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: python