PHP爬虫框架第1章 Goutte

一、介绍

Goutte 库非常有用，它可以为您提供有关如何使用 PHP 抓取内容的出色支持。

基于 Symfony 框架，它提供了 API 来抓取网站并从 HTML / XML响应中抓取数据，它是免费开源的。

基于 OOP 的编程思想，非常适合大型项目的爬虫，同时它有着还不错的解析速度。

它需要 php 满足 5.5+。

Goutte：支持 JavaScript，支持 Cookie

二、安装

通过 composer 安装

composer require fabpot/goutte

三、例子

3.1、简单例子

use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', 'http://www.baidu.com/');
$crawler->filter('a')->each(function ($node) {
    print $node->attr('href');
});

该实例访问百度首页，获取所有链接的地址并输出。首先我们创建了一个 Client 实例，然后使用 request 方法获取百度首页 HTML 内容，接着使用 filter 方法选择 DOM 节点，并使用 each 方法进行循环处理每个节点。

3.2、获取页面内容

通过 Goutte 可以获取网页的所有内容，如标题、Meta 标签、CSS 样式、JavaScript 脚本等。

下面是一个实例：

use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', 'https://www.sina.com.cn/');
$title = $crawler->filterXPath('//title')->text();
$meta = $crawler->filterXPath('//meta[@name="description"]')->attr('content');
$css = $crawler->filterXPath('//link[@rel="stylesheet"]')->attr('href');
$script = $crawler->filterXPath('//script[@src]')->attr('src');
echo "title: ".$title;
echo "meta_description: ".$meta;
echo "css: ".$css;
echo "script: ".$script;

上述实例获取了新浪网首页的标题、Meta 标签中的 description、CSS 样式文件和 JavaScript 脚本文件，并输出到控制台中。

3.3、表单提交

在某些情况下，我们需要模拟用户登录并提交表单来获取目标数据。

Goutte 可以通过类似用户行为的方式提交表单。

下面是一个实例：

use Symfony\Component\DomCrawler\Form;

$client = new Client();
$crawler = $client->request('GET', 'http://localhost/login.php');

$form = $crawler->selectButton('login')->form();

$form['username'] = 'admin';
$form['password'] = '123456';

$crawler = $client->submit($form);

echo $crawler->filterXPath('//div[@class="alert alert-success"]')->text();

该实例模拟用户通过 POST 方式提交了用户名和密码，登录了本地服务器的一个测试站点，并获取了登录后的页面内容。

3.4、AJAX 请求

现如今，越来越多的网页采用了 AJAX 的技术，动态更新数据。

Goutte 同样也支持模拟 AJAX 请求并抓取返回的结果。

下面是一个实例：

use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', 'https://www.taobao.com/');
$ajax_url = $crawler->filterXPath('//a[@data-ajax]');
$response = $client->request('GET', $ajax_url->attr('href'));
echo $response->filterXPath('//title')->text();

该实例获取了淘宝首页中带 data-ajax 属性的链接地址，并使用 Goutte 进行 AJAX 请求，并输出返回的页面标题。

3.5、登录并抓取数据

在某些情况下，我们需要先登录才能抓取到目标数据。

下面是一个实例：

use Goutte\Client;
$client = new Client();
// login first
$crawler = $client->request('GET', 'http://localhost/login.php');
$form = $crawler->selectButton('login')->form();
$form['username'] = 'admin';
$form['password'] = '123456';
$crawler = $client->submit($form);
// then visit the page you want
$crawler = $client->request('GET', 'http://localhost/data.php');
echo $crawler->filterXPath('//table')->text();

该实例先模拟用户登录操作，然后再访问数据页面，并输出数据表格内容。

3.6、获取表格内容

use Goutte\Client;

$client = new Client();

$crawler = $client->request('GET', 'http://www.example.com/table.html');

$tableRows = $crawler->filter('table tr')->each(function ($row) {
    return $row->filter('td')->each(function ($cell) {
        return $cell->text();
    });
});

var_dump($tableRows);

3.7、处理 JavaScript 渲染的内容

use Goutte\Client;
use Symfony\Component\DomCrawler\Crawler;

$client = new Client();

$crawler = $client->request('GET', 'http://www.example.com');

// 等待JavaScript加载完成
$client->wait(5000, "document.readyState === 'complete'");

// 使用Crawler对象解析JavaScript渲染后的HTML内容
$javascriptRenderedHtml = $client->executeScript('return document.documentElement.outerHTML;');
$crawler = new Crawler($javascriptRenderedHtml);

$crawler->filter('h1')->each(function ($node) {
    echo $node->text()."\n";
});

3.8、使用代理访问网页

use Goutte\Client;

$client = new Client();

// 设置代理服务器
$client->setProxy('http://proxy.example.com:8080');

// 访问需要使用代理的页面
$crawler = $client->request('GET', 'http://www.example.com');

$crawler->filter('h1')->each(function ($node) {
    echo $node->text()."\n";
});

3.9、处理 XML 数据

use Goutte\Client;

$client = new Client();

$crawler = $client->request('GET', 'http://www.example.com/xml');

$xml = simplexml_load_string($crawler->html());

foreach ($xml->item as $item) {
    echo $item->title."\n";
    echo $item->description."\n";
}

3.10、获取多个页面的数据

use Goutte\Client;

$client = new Client();

$urls = [
    'http://www.example.com/page1',
    'http://www.example.com/page2',
    'http://www.example.com/page3',
];

foreach ($urls as $url) {
    $crawler = $client->request('GET', $url);

    $crawler->filter('h1')->each(function ($node) {
        echo $node->text()."\n";
    });
}

3.11、使用 cookie 访问网页

use Goutte\Client;

$client = new Client();

// 设置cookie
$client->getCookieJar()->set(new \Symfony\Component\BrowserKit\Cookie('session_id', '123'));

$crawler = $client->request('GET', 'http://www.example.com');

$crawler->filter('h1')->each(function ($node) {
    echo $node->text()."\n";
});

3.12、处理AJAX响应

use Goutte\Client;

$client = new Client();
$client->request('GET', 'http://www.example.com');

// 发送异步请求获取数据
$response = $client->getClient()->request('POST', 'http://www.example.com/ajax', [
    'headers' => ['X-Requested-With' => 'XMLHttpRequest'],
    'json' => ['key' => 'value'],
]);

// 处理响应
$data = json_decode($response->getBody(), true);
echo $data['name']."\n";
echo $data['age']."\n";

3.13、从 JSON 数据中获取内容

use Goutte\Client;

$client = new Client();
$crawler = $client->request('GET', 'http://www.example.com/api');

$jsonData = json_decode($crawler->html());

foreach ($jsonData as $item) {
    echo $item->name."\n";
    echo $item->age."\n";
}

3.14、使用队列爬取网页

use Goutte\Client;
use Symfony\Component\DomCrawler\Link;

$client = new Client();

$queue = new \SplQueue();
$queue->enqueue('http://www.example.com/');

while (!$queue->isEmpty()) {
    $url = $queue->dequeue();

    $crawler = $client->request('GET', $url);

    $crawler->filter('a')->each(function (Link $link) use ($queue) {
        $url = $link->getUri();
        if (strpos($url, 'http://www.example.com/') === 0) {
            $queue->enqueue($url);
        }
    });

    $crawler->filter('h1')->each(function ($node) {
        echo $node->text()."\n";
    });
}

3.15、处理下载文件

use Goutte\Client;

$client = new Client();

// 访问包含文件下载链接的页面
$crawler = $client->request('GET', 'http://www.example.com/files');

// 获取下载链接并下载文件
$link = $crawler->filter('a')->eq(0)->link();
$fileContent = $client->click($link)->getContent();

// 写入文件
file_put_contents('/path/to/downloaded/file', $fileContent);

3.16、获取图片链接并下载图片

use Goutte\Client;

$client = new Client();

$crawler = $client->request('GET', 'http://www.example.com/images');

// 获取图片链接并下载图片
$crawler->filter('img')->each(function ($image) use ($client) {
    $imageUrl = $image->attr('src');
    $imageContent = $client->request('GET', $imageUrl)->getContent();

    // 写入文件
    file_put_contents('/path/to/downloaded/image.jpg', $imageContent);
});

3.17、关闭自动重定向

use Goutte\Client;

$client = new Client(['allow_redirects' => false]);

$crawler = $client->request('GET', 'http://www.example.com');

if ($client->getResponse()->getStatusCode() == 301) {
    $redirectUrl = $client->getResponse()->getHeader('location')[0];
    $crawler = $client->request('GET', $redirectUrl);
}

$crawler->filter('h1')->each(function ($node) {
    echo $node->text()."\n";
});

PHP爬虫框架第1章 Goutte

一、介绍

二、安装

三、例子

3.1、简单例子

3.2、获取页面内容

3.3、表单提交

3.4、AJAX 请求

3.5、登录并抓取数据

3.6、获取表格内容

3.7、处理 JavaScript 渲染的内容

3.8、使用代理访问网页

3.9、处理 XML 数据

3.10、获取多个页面的数据

3.11、使用 cookie 访问网页

3.12、处理AJAX响应

3.13、从 JSON 数据中获取内容

3.14、使用队列爬取网页

3.15、处理下载文件

3.16、获取图片链接并下载图片

3.17、关闭自动重定向

PHP爬虫框架文章

带到手机上看

PHP爬虫框架 第1章 Goutte

一、介绍

二、安装

三、例子

3.1、简单例子

3.2、获取页面内容

3.3、表单提交

3.4、AJAX 请求

3.5、登录并抓取数据

3.6、获取表格内容

3.7、处理 JavaScript 渲染的内容

3.8、使用代理访问网页

3.9、处理 XML 数据

3.10、获取多个页面的数据

3.11、使用 cookie 访问网页

3.12、处理AJAX响应

3.13、从 JSON 数据中获取内容

3.14、使用队列爬取网页

3.15、处理下载文件

3.16、获取图片链接并下载图片

3.17、关闭自动重定向

PHP爬虫框架文章

带到手机上看

PHP爬虫框架第1章 Goutte