Python 数据抓取教程：完结篇

老三的休闲书屋 2024-07-06 发布于湖北

展开全文

Socket

Socket是一种工具，用于将多个设备连接起来，实现它们之间的数据交流。在这个过程中，会用到一个中介服务器，它负责在设备之间传递信息，但不允许设备之间直接建立联系。

现在，如何使用套接字发出 HTTP 请求？嗯，可以通过打开套接字来完成。让我们通过一个简单的Python代码来理解。

import socketsock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)sock.connect((“www.google.com', 80))sock.send(b”GET / HTTP/1.1\r\nHost:www.google.com\r\n\r\n')response = sock.recv(4096)sock.close()print(response.decode())

这段代码分为七个部分，我们将逐一进行详细解析。

首先，我们需要导入套接字库。
接着，我们定义了一个套接字构造函数，它需要两个参数：套接字家族和套接字类型。
然后，我们指定了一个网址，用于建立网络连接。你可以根据需要选择任何有效的网址。
接下来，我们发起了一个 GET 请求。这个请求最初是以普通文本格式存在的，但通过 .send() 方法，我们将其转换为字节格式以便于发送。
作为客户端，我们在这里捕获服务器的响应。我们设置接收的数据量为4096字节，以确保能够获取尽可能多的信息。
一旦从服务器接收到所有数据，我们便关闭了连接，这是完成通信的一个必要环节。
最后，我们打印出了服务器的响应内容。

Urllib3

Urllib3 是 Python 标准库中的一个官方 HTTP 请求库。它之所以被认为是官方的，是因为与 requests 库不同，它是 Python 的核心组成部分。如果你希望减少外部依赖，可以选择使用 urllib3。这个库包括五个主要模块：

request — 主要用来打开网络链接。
response — 这是 request 模块内部使用的，你通常不需要直接操作。
error — 提供了 request 模块所需的错误处理类。
parse — 负责将 URL 分解成协议、主机名、端口号、路径等组成部分。
robotparser — 用于解析 robots.txt 文件，以了解网站的爬虫协议。

接下来，我们将通过一段简单的代码示例来学习如何使用 urllib3。

import urllib3http = urllib3.PoolManager()r = http.request('GET’, 'https://www.scrapingdog.com/robots.txt')print(r.status)print(r.data)

步骤看起来与请求库类似。 PoolManager 跟踪许多连接。然后我们向 robots.txt URL 发送一个普通的 GET 请求。我们甚至可以使用 urllib3 发送 POST 和 DELETE 请求。

// POST requestimport urllib3http = urllib3.PoolManager()r = http.request('POST’, 'http://httpbin.org/post', fields={“Title”: “Scrapingdog”, “Purpose”: “Web Scraping API”, “Feature”: “Fastest Web Scraper”})print(r.status)print(r.data)

fields 参数会将数据从客户端发送到服务器。我们正在发送一个 JSON 对象。服务器将发送响应以确认数据已添加到其数据库中。

作为初学者，您很有可能不会使用 urllib3 进行网页抓取。您很可能会使用请求。但与 requests 相比，使用 urllib3 有一定的优势。对于解析数据，您可以使用 BS4 或 RegEx。

MechanicalSoup

它如同 Beautiful Soup 4（BS4）的衍生物，因为它需要借助 BS4 的能力来实现自动化处理。它使我们能够用更简洁的代码完成更多的任务。它不仅能够自动化网页抓取，还能自动处理页面重定向，并且具备发送和存储 cookie 的功能。

让我们通过一些 Python 代码来初步探索 MechanicalSoup。

import mechanicalsoupbrowser = mechanicalsoup.StatefulBrowser()

browser 对象将允许我们输入命令而无需创建新变量。现在，我们要打开目标 URL。

url=”https://www.scrapingdog.com'browser.open(url)

.open() 将返回一个请求类型的对象。响应，这是由于 Mechanical Soup 正在使用 requests 模块进行调用。

browser.get_current_page() 函数可以获取到当前页面的 HTML 源代码。此外，它还提供了多种方法，例如 .find_all() 和 .select_form()，这些方法可以帮助我们在 HTML 数据中查找特定的元素或标签。总的来说，这个库为我们提供了一种新颖的网页抓取方式。