通过使用 Python 的 requests 和 beautiful soup 库,您可以实现以下步骤来爬取电影数据:向目标网站发送 HTTP 请求。使用 Beautiful Soup 库解析 html 响应。从 DOM 中提取电影数据,例如名称、评分和上映日期。
使用 Python 爬取电影数据
简介
Python 是一种强大的编程语言,拥有丰富的库和工具,可用于从各种网站上抓取数据。本文将向您展示如何使用 Python 爬取电影数据,具体包括以下内容:
设置
- 安装 Requests 库:使用 pip install requests 安装。
- 安装 Beautiful Soup 库:使用 pIP install beautifulsoup4 安装。
爬取流程
立即学习“Python免费学习笔记(深入)”;
点击下载“修复打印机驱动工具”;
- 获取请求:使用 Requests.get() 方法向目标电影网站发送 HTTP 请求。
- 解析响应:使用 Beautiful Soup 库解析 HTML 响应并将其转换为可导航的文档对象模型 (DOM)。
- 提取数据:从 DOM 中提取所需电影数据,例如电影名称、评分、上映日期等。
示例代码
以下 Python 代码演示了如何从 IMDb 网站爬取电影数据:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
import requests
from bs4 import BeautifulSoup
# 定义目标 URL
url = "HTTPS://www.imdb.com/title/tt0111161/"
# 发送 HTTP 请求
response = requests.get(url)
# 解析 HTML 响应
soup = BeautifulSoup(response.text, 'html.parser' )
# 提取电影名称
title = soup.find( "h1" , class_= "sc-b732c443-0" ).text.strip()
# 提取电影评分
rating = soup.find( "span" , class_= "AggregateRatingButton__RatingScore-sc-1il3a0c-1" ).text.strip()
# 提取上映日期
release_date = soup.find( "span" , class_= "ipc-inline-list__item" ).text.strip()
# 打印结果
|