python爬虫电影数据抓取实战

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

想要了解最近电影院播放的都有什么影视电影，哪部值得推荐，如果单纯靠手动收搜不全面，下面我们就先使用urllib.request模块抓取整个网页，再使用re模块获取电影信息，做个简单的爬虫做个数据分析。

编写simpleCrawlerNowMoive.py代码如下

#!/usr/bin/env python
# coding: utf-8
__author__ = 'www.py3study.com'
import re
import urllib.request
class TodayMoive(object):
    def __init__(self):
        self.url = 'https://movie.douban.com/people/1166776/'
        self.timeout = 3
        self.filename = 'todaymoive.txt'
        '''内部变量定义完毕'''
        self.getmoiveinfo()

    def getmoiveinfo(self):
        response = urllib.request.urlopen(self.url, timeout=self.timeout)
        content = response.read().decode('utf-8')
        #findall匹配电影名字的段落
        moivelist = re.findall('class="cover"><img alt="', '')
        st = st.replace('"', '')
        #split字符串切割，以' '空格为分隔符，取第0个值
        st = st.split(' ')[0]
        return st

if __name__ == '__main__':
    tm = TodayMoive()

应该看到的结果

python爬虫电影数据抓取实战_python

会在当前目录下生成一个todaymoive.txt文件，内容如下。

python爬虫电影数据抓取实战_python_02

如果单从这些代码看起来是不是以为不是爬虫，其实严格意义上来说这个就是爬虫，只是相对来说内容简单，爬取的数据相对较少。大体上的爬虫框架是这么回事，如果用来爬取大型项目也是没有问题的。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

标签: python

返回列表

上一篇：【BP靶场portswigger-客户端12】跨站点请求伪造CSRF-12个实验（全）

下一篇：EMQX 在 Kubernetes 中如何进行优雅升级

“python爬虫电影数据抓取实战” 的相关文章

Python基础知识进阶之正则表达式1年前 (2023-02-02)

❤️爆肝十二万字《python从零到精通教程》，从零教你变大佬❤️（建议收藏）1年前 (2023-02-02)

python发送邮件_python 发送邮件1年前 (2023-02-02)

用Python的内置包Tkinter写一个练习系统2.01年前 (2023-02-02)

[ 环境搭建篇 ] 安装python环境并配置环境变量(附python3.10.3安装包)1年前 (2023-02-02)

Open3D 点云法向量重定向（基于连续切平面，Python版本）1年前 (2023-02-02)

python 控制鼠标操作1年前 (2023-02-02)

Open3D 删除点云重复点（Python版本）1年前 (2023-02-02)

Python编码基本规范----缩进，注释——总结分析，带实例1年前 (2023-02-02)

Open3D 点云最小二乘法拟合平面（Python版本）1年前 (2023-02-02)