Python学习笔记-网络爬虫基础
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
一、网络爬虫概述
- 网络爬虫概述
网络爬虫又称网络蜘蛛、网络机器人在某社区中经常被称为网页追逐者。
网络爬虫可以按照指定规则自动浏览或抓取网络中的信息python可以很轻松的编写爬虫程序或脚本。
网络爬虫基本工作流程
- 网络爬虫的常用技术
2.1 Python的网络请求
Python实现Http网络请求的三种常见方式rullib、urllib3和requests模块。
2.1.1 urllib模块
urllib是python的自带模块提供urlopen()方法通过指定URL发送网络请求获取数据。
rullib模块的子模块
模块名称 | 描述 |
urllib.request | 定义打开url主要为http的方法和类例如身份验证重定向cookie等 |
urllib.error | 定义异常类基本的异常为URLError |
urllib.parse | 分为两大类URL解析和URL引用 |
urllib.robotparser | 用于解析robots.txt文件 |
通过urllib.request模块发送请求