当前位置：首页 > python > 正文

python爬虫简单举例

python
2024-05-08 15:16:11
5791

Python 爬虫是一个使用 Python 语言编写的小程序，用于自动提取和解析网站上的数据。它可以模拟人类行为，发送 HTTP 请求、解析 HTML 或 JSON 响应，并从页面中提取指定的信息。
Python 爬虫的组成
一个基本的 Python 爬虫通常包括以下组件：
HTTP 客户端：用于发送和接收 HTTP 请求。
HTML/JSON 解析器：用于解析 HTML 或 JSON 响应，从中提取数据。
数据提取规则：定义如何从 HTML/JSON 响应中提取特定信息。
数据存储：用于存储提取的数据，通常采用文件、数据库或内存等方式。
Python 爬虫的示例
以下是一个简单的 Python 爬虫示例，用于从 Google 搜索结果中提取标题和链接：
python
import requests
from bs4 import BeautifulSoup
# 创建一个 HTTP 客户端
client = requests.session()
# 发送 HTTP GET 请求
response = client.get("http://www.google.com/search?q=python+tutorial")
# 解析 HTML 响应
soup = BeautifulSoup(response.text, "html.parser")
# 提取每个搜索结果的标题和链接
results = soup.find_all("div", class_="result")
for result in results:
title = result.find("h3").text
link = result.find("a")["href"]
print(title, link)
这个爬虫使用 requests 库发送 HTTP 请求，并使用 BeautifulSoup 库解析 HTML 响应。然后，它遍历搜索结果，提取每个结果的标题和链接，并将其打印出来。
注意事项
使用 Python 爬虫时，需要注意以下事项：
遵守网站使用条款：确保爬虫不会违反目标网站的使用条款。
限制请求频率：避免发送过多的请求，以防止被网站封锁。
处理反爬虫措施：爬虫可能会遇到反爬虫措施，例如验证码或 IP 封锁。
使用代理：使用代理可以绕过 IP 封锁并提高爬虫效率。