PHP如何读取跳转的网页源码

在PHP编程中,有时候我们需要获取跳转后的网页源码，以便进行数据分析、采集或其他操作，如何实现这一功能呢？本文将详细介绍几种方法，帮助大家解决这个问题。

我们要明确一点：直接使用file_get_contents()或fopen()等函数是无法获取跳转后的网页源码的，因为这些函数只能获取到原始的HTML内容，要获取跳转后的网页源码，我们需要模拟浏览器行为，跟踪重定向，以下是一些常用的方法：

使用curl库

PHP的curl库是一个非常强大的工具,可以用来模拟各种HTTP请求，以下是使用curl获取跳转后网页源码的代码：

<?php
// 初始化curl
$ch = curl_init();
// 设置目标URL
$url = 'http://www.example.com';
// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url); // 目标URL
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 返回内容，而不是直接输出
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 跟踪重定向
// 执行请求
$output = curl_exec($ch);
// 关闭curl
curl_close($ch);
// 输出结果
echo $output;
?>

在这段代码中,我们设置了CURLOPT_FOLLOWLOCATION为1，这样curl就会自动跟踪重定向，最终返回跳转后的网页源码。

PHP如何读取跳转的网页源码

使用file_get_contents()和stream_context_create()

如果你不想使用curl库,还可以使用file_get_contents()函数结合stream_context_create()来实现同样的功能，以下是示例代码：

<?php
// 设置目标URL
$url = 'http://www.example.com';
// 创建stream上下文
$opts = [
    'http' => [
        'method' => 'GET',
        'header' => 'Accept-language: en\r\n' .
                    'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)\r\n',
        'follow_location' => 1 // 跟踪重定向
    ]
];
$context = stream_context_create($opts);
// 读取网页内容
$output = file_get_contents($url, false, $context);
// 输出结果
echo $output;
?>

在这段代码中,我们通过stream_context_create()创建了一个HTTP上下文，并设置了跟踪重定向的选项，使用file_get_contents()函数读取网页内容。