如何制作最简单的python爬虫

爬虫，顾名思义，就是自动抓取互联网上信息的程序，Python作为一种易学易用的编程语言，非常适合初学者编写爬虫，如何制作最简单的Python爬虫呢？下面我将一步一步地为大家讲解。

我们需要准备一下环境，确保你的电脑上已经安装了Python，如果没有安装，可以前往Python官网下载安装包进行安装，安装完成后，打开命令行窗口，输入“python”并回车，如果出现Python解释器提示符，说明安装成功。

我们需要安装一个非常重要的库——requests，requests库的作用是发送HTTP请求，获取网页内容，在命令行窗口中输入以下命令安装requests库：

pip install requests

等待安装完成后，我们就可以开始编写爬虫代码了。

我们新建一个Python文件，命名为simple_crawler.py，在这个文件中，我们将使用requests库获取网页内容，以下是一个最简单的例子：

Python

import requests
目标网址
url = 'http://www.example.com'
发送HTTP请求，获取网页内容
response = requests.get(url)
打印网页内容
print(response.text)

如何制作最简单的python爬虫

将上面的代码保存为simple_crawler.py，并在命令行窗口中运行：

python simple_crawler.py

如果一切正常，你应该会看到网页的HTML源代码输出到命令行窗口中。

获取到网页内容后，我们需要解析出我们需要的信息，这里，我们使用Python内置的库——html.parser，以下是一个简单的例子，演示如何解析网页中的标题：

Python

import requests
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.recording = False
    def handle_starttag(self, tag, attrs):
        if tag == 'title':
            self.recording = True
    def handle_data(self, data):
        if self.recording:
            print(data)
    def handle_endtag(self, tag):
        if tag == 'title':
            self.recording = False
目标网址
url = 'http://www.example.com'
发送HTTP请求，获取网页内容
response = requests.get(url)
创建HTML解析器实例
parser = MyHTMLParser()
喂数据给解析器
parser.feed(response.text)

运行上述代码，你应该会看到网页标题输出到命令行窗口中。

保存数据

解析出我们需要的信息后，我们可以将这些信息保存到文件中，以下是一个简单的例子，将网页标题保存到文本文件中：

Python

import requests
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.recording = False
        self.data = []
    def handle_starttag(self, tag, attrs):
        if tag == 'title':
            self.recording = True
    def handle_data(self, data):
        if self.recording:
            self.data.append(data)
    def handle_endtag(self, tag):
        if tag == 'title':
            self.recording = False
目标网址
url = 'http://www.example.com'
发送HTTP请求，获取网页内容
response = requests.get(url)
创建HTML解析器实例
parser = MyHTMLParser()
喂数据给解析器
parser.feed(response.text)
保存数据到文件
with open('title.txt', 'w') as f:
    f.write(''.join(parser.data))