python爬虫top250电影数据-CSDN博客

阿里云国际版折扣https://www.yundadi.com

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

之前看到的我改了一下多了很多东西
在这里插入图片描述

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from openpyxl.styles import Font
import re

def extract_movie_info(info):
    # 使用正则表达式提取信息
    pattern = re.compile(r'导演: (.*?)\s*主演: (.*?)\s*(\d{4})\s*/\s*(.*?)\s*/\s*(.*)')
    match = pattern.match(info)
    
    if match:
        director = match.group(1).strip()
        actors = match.group(2).strip()
        year = match.group(3).strip()
        country = match.group(4).strip()
        genre = match.group(5).strip()
        return director, actors, year, country, genre
    else:
        return None

def douban_top250():
    url = 'https://movie.douban.com/top250'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.79'}

    movies = []

    for start_num in range(0, 250, 25):
        page_url = f'{url}?start={start_num}'
        response = requests.get(page_url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')

        for movie in soup.select('.item'):
            title = movie.select_one('.title').text.strip()
            rating = movie.select_one('.rating_num').text.strip()
            
            # 获取导演、主演和其他信息
            info = movie.select_one('p').text.strip()
            movie_info = extract_movie_info(info)
            
            if movie_info:
                director, actors, year, country, genre = movie_info
                movies.append((title, rating, director, actors, year, country, genre))

    return movies

def create_excel(movies):
    wb = Workbook()
    ws = wb.active

    title_font = Font(color='FF0000', bold=True)
    ws.append(['电影名称', '评分', '导演', '主演', '年份', '国家', '类型'])

    for cell in ws[1]:
        cell.font = title_font

    for movie in movies:
        ws.append(movie)

    wb.save('豆瓣_top250.xlsx')

if __name__ == '__main__':
    movies = douban_top250()
    create_excel(movies)
    print('Excel文件已生成。')

阿里云国际版折扣https://www.yundadi.com

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：Python进行多线程爬取数据通用模板-CSDN博客

下一篇：Android图形系统之X11、Weston、Wayland、Mesa3D、ANGLE、SwiftShader介绍(十五)-CSDN博客

“python爬虫top250电影数据-CSDN博客” 的相关文章

SparkSubmit提交yarn流程分析（学习版）2年前 (2023-02-02)

react-项目结构2年前 (2023-02-02)

【敏捷转型，效能提升】万字长文敏捷转型实践系列分享2年前 (2023-02-02)

基于Xlinx的时序分析与约束（8）----关于时序路径、时钟悲观度和建立时间/保持时间的一些问题2年前 (2023-02-02)

OpenMP Parallel Construct 实现原理与源码分析2年前 (2023-02-02)

【学习笔记】Kruskal 重构树2年前 (2023-02-02)

Linux操作系统导学专栏（一）——专栏要讲些什么？2年前 (2023-02-02)

【Rust日报】2023-01-09 使用 ES 构建超快数据索引2年前 (2023-02-02)

Keil 5（Keil C51）安装与注册 [ 图文教程 ]2年前 (2023-02-02)

《安富莱嵌入式周报》第301期：ThreadX老大离开微软推出PX5 RTOS第5代系统，支持回流焊的自焊接PCB板设计，单色屏实现多级灰度播放视频效果2年前 (2023-02-02)