Python爬虫，它到底是什么?

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

前言

本文来谈谈爬虫是什么，它的作用、分类以及工作原理。

一、Python爬虫是什么

Python爬虫也叫网络爬虫，它是一种程序。它可以通过程序模拟浏览器请求站点的行为，从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地，进而提取自己需要的数据，存放起来使用。

Python爬虫，它到底是什么?_HTML

简单来说，爬虫就是帮助我们获取网络资源的一种程序。

二、爬虫有什么作用？

1、搜集数据

爬虫可以用来抓取网络上的数据，当你的同事还在百度疯狂找材料的时候，你已经使用爬虫爬到了。

2、秒杀商品

参与各种秒杀活动，包括但不限于在各种电商网站上抢商品，优惠券，抢机票和火车票。当你还在卡点手动抢的时候，别人已经挂好程序了。这就是你为什么会慢人一步的原因。

3、搜索引擎

比如百度、谷歌的搜索引擎都是基于爬虫技术。

三、爬虫的分类

1、通用网络爬虫

是搜索引擎的重要组成部分，通用网络爬虫需要遵守 robots 协议，网站通过此协议告诉搜索引擎哪些页面可以抓取，哪些页面不允许抓取。

2、聚焦网络爬虫

是面向特定需求的一种网络爬虫程序。它与通用爬虫的区别在于，聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选和处理，尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫极大地节省了硬件和网络资源，由于保存的页面数量少所以更新速度很快，这也很好地满足一些特定人群对特定领域信息的需求。

3、增量式网络爬虫

指对已下载网页采取增量式更新，它是一种只爬取新产生的或者已经发生变化网页的爬虫程序，能够在一定程度上保证所爬取的页面是最新的页面。

四、爬虫的工作原理

1、发起请求

通过HTTP协议向目标站点发送请求（一个request），然后等待目标站点服务器的响应。

2、获取响应内容

如果服务器能正常响应，会得到一个Response。Response的内容便是所要获取的页面内容，响应的内容可能有HTML，Json串，二进制数据（如图片视频）等等。

3、解析内容

得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析；可能是Json，可以直接转为Json对象解析；可能是二进制数据，可以做保存或者进一步的处理。

4、保存数据

数据解析完成后，将保存下来。既可以存为文本文档、可以存到数据库中。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

标签: python

返回列表

上一篇：百度@全球开发者，见证中国科技超级“碗”！

下一篇：B2014 与圆相关的计算

“Python爬虫，它到底是什么?” 的相关文章

python实现——处理Excel表格（超详细）_python excel1年前 (2023-02-02)

LDA主题模型简介及Python实现_lda主题模型1年前 (2023-02-02)

Python制作爱心跳动代码，这就是程序员的烂漫吗1年前 (2023-02-02)

基于OpenCv的人脸识别（Python完整代码）_基于opencv的人脸识别1年前 (2023-02-02)

在python中读取和写入CSV文件（你真的会吗？）1年前 (2023-02-02)

【毕设必备】Python制作GUI学生管理系统，这把直接稳赢1年前 (2023-02-02)

Python1年前 (2023-02-02)

【PTA｜Python】浙大版《Python 程序设计》题目集：第四章（适合Pythno新手的基础练习题集）1年前 (2023-02-02)

Python数学建模问题总结(3)数据可视化Cookbook指南·下1年前 (2023-02-02)

Python经典编程习题100例：第79例：字符串排序1年前 (2023-02-02)

Python爬虫，它到底是什么?

“Python爬虫，它到底是什么?” 的相关文章

阿里云国际版