当前位置:首页 > python > 正文

python爬虫简单举例

  • python
  • 2024-05-08 15:16:11
  • 5791

Python 爬虫是一个使用 Python 语言编写的小程序,用于自动提取和解析网站上的数据。 它可以模拟人类行为,发送 HTTP 请求、解析 HTML 或 JSON 响应,并从页面中提取指定的信息。
Python 爬虫的组成
一个基本的 Python 爬虫通常包括以下组件:
HTTP 客户端:用于发送和接收 HTTP 请求。
HTML/JSON 解析器:用于解析 HTML 或 JSON 响应,从中提取数据。
数据提取规则:定义如何从 HTML/JSON 响应中提取特定信息。
数据存储:用于存储提取的数据,通常采用文件、数据库或内存等方式。
Python 爬虫的示例
以下是一个简单的 Python 爬虫示例,用于从 Google 搜索结果中提取标题和链接:
python
import requests
from bs4 import BeautifulSoup
# 创建一个 HTTP 客户端
client = requests.session()
# 发送 HTTP GET 请求
response = client.get("http://www.google.com/search?q=python+tutorial")
# 解析 HTML 响应
soup = BeautifulSoup(response.text, "html.parser")
# 提取每个搜索结果的标题和链接
results = soup.find_all("div", class_="result")
for result in results:
title = result.find("h3").text
link = result.find("a")["href"]
print(title, link)
这个爬虫使用 requests 库发送 HTTP 请求,并使用 BeautifulSoup 库解析 HTML 响应。 然后,它遍历搜索结果,提取每个结果的标题和链接,并将其打印出来。
注意事项
使用 Python 爬虫时,需要注意以下事项:
遵守网站使用条款:确保爬虫不会违反目标网站的使用条款。
限制请求频率:避免发送过多的请求,以防止被网站封锁。
处理反爬虫措施:爬虫可能会遇到反爬虫措施,例如验证码或 IP 封锁。
使用代理:使用代理可以绕过 IP 封锁并提高爬虫效率。