Laravel Cloud 来了!为 Laravel 应用提供零配置的托管基础​​设施。 立即部署

一个用于并发网站爬取的 PHP 包

最后更新于 经过

一个用于并发网站爬取图像的 PHP 包

太空/爬行者 是一个 PHP 包 弗里克·范德赫滕 用于使用 Guzzle Promise 并发抓取网站的工具。它最近更新到了版本 9,引入了新的功能。 CrawlResponse 对象、改进的作用域控制、测试工具等等。

主要特点包括:

  • 通过闭包回调和观察者类处理爬虫事件
  • CrawlResponse 具有类型化访问器的对象
  • 收集 URL 并控制抓取范围
  • 测试 fake()
  • 和更多...

处理爬行事件

该爬虫支持两种处理爬取事件的方法:闭包回调和观察者类。闭包方法如下所示:

使用 太空爬行者 ;
使用 空间\爬行器\爬行响应 ;
爬行者 :: 创造 'https://example.com'
-> 爬取 功能 细绳 $url, 爬取响应 $response) {
回声 "{ $url }: { $响应 -> 地位 ()} \n ;
})
-> 开始 ();

onFailed()onFinished() 处理程序遵循相同的模式来处理错误和爬取后逻辑。此外,还有 onWillCrawl() 这是在抓取 URL 之前调用的函数。

爬取响应

每个被抓取的 URL 都会提供一个 CrawlResponse 具有用于常见检查需求的类型化访问器的对象:

爬行者 :: 创造 'https://example.com'
-> 爬取 功能 细绳 $url, 爬取响应 $response) {
如果 ($响应) -> 重定向 ()){
回声 重定向自: 内爆 ' → ' ,$response -> 重定向历史记录 ()) \n ;
}
$dom = $响应 -> dom (); // Symfony DomCrawler 实例
})
-> 开始 ();

该对象还暴露了 body() , header() , 和 transferStats() 用于计时数据。

收集 URL 并控制范围

借助爬虫,您可以控制范围并收集 URL,而无需单独抓取每个链接。这在您想要抓取页面上的链接(甚至仅按内部链接筛选)并直接返回它们而无需处理时非常有用:

$urls = 爬行者 :: 创造 'https://example.com'
-> 仅限内部使用 ()
-> 深度 3
-> 找到的网址 ();

测试 fake()

Spatie 的软件包中总是包含优秀的测试辅助工具,这款爬虫软件包也不例外。该软件包的 fake() 该方法允许您在不发出实际 HTTP 请求的情况下测试爬虫逻辑。传递一个 URL 到 HTML 字符串的映射表,爬虫程序会将这些映射表用作响应:

爬行者 :: 创造 'https://example.com'
-> 伪造的 ([
'https://example.com' => '关于' ,
'https://example.com/about' => '关于页面' ,
])
-> 找到的网址 ();

其他亮点

  • 节流: FixedDelayThrottle 对于固定的请求延迟, AdaptiveThrottle 根据服务器响应时间进行退避
  • retry() : 连接错误和 5xx 响应自动重试
  • stream() : 选择加入式流媒体传输可减少大型爬虫作业的内存占用
  • FinishReason 枚举: start() 回报 Completed , CrawlLimitReached , TimeLimitReached , 或者 Interrupted
  • JavaScript渲染: A JavaScriptRenderer 与……的接口 CloudflareRenderer 包括和 spatie/browsershot 作为推荐司机
  • 和更多

您可以在以下网址找到完整来源: 太空/爬行者 在 GitHub 上。

保罗·雷德蒙德照片

Laravel News 特约撰稿人。全栈 Web 开发人员兼作家。

归档于:
立方体

Laravel 时事通讯

加入超过 4 万名开发者的行列,不错过任何新的技巧、教程等内容。

图像
廷克威尔

这款编辑器专为快速反馈和快速迭代而设计,让您尽享编码和调试的乐趣。它就像您应用程序的一个外壳——但具备多行编辑、代码自动完成等更多功能。

参观廷克韦尔
Tinkerwell 徽标

廷克威尔

Laravel 开发者必备的代码运行器。可在本地和生产环境中体验 AI、自动补全和即时反馈功能。

廷克威尔
几天内即可获得 Laravel 代码审查徽标的专家指导

几天内即可获得 Laravel 代码审查方面的专家指导

专家级代码审查!两位拥有 10 年以上 Laravel 开发经验的开发者将为您提供清晰、实用的反馈,帮助团队构建更优质的应用程序。

几天内即可获得 Laravel 代码审查方面的专家指导
PhpStorm 标志

PhpStorm

首选的 PHP IDE,对 Laravel 及其生态系统提供广泛的开箱即用支持。

PhpStorm
Laravel Cloud 标志

Laravel 云

轻松创建和管理服务器,并在几秒钟内部署 Laravel 应用程序。

Laravel 云
了解 Softtech 的标志

了解软科技

Acquaint Softtech 提供 AI 就绪的 Laravel 开发人员,48 小时内即可上手,每月费用为 3000 美元,没有冗长的销售流程,并提供 100% 退款保证。

了解软科技
Kirschbaum 标志

樱桃树

提供创新和稳定性,确保您的Web应用程序取得成功。

樱桃树
Shift 标志

转移

还在运行旧版本的 Laravel?立即实现 Laravel 自动升级和代码现代化,让您的应用程序保持最新状态。

转移
鱼叉:新一代时间跟踪和发票标志

Harpoon:新一代时间跟踪和发票系统

新一代时间跟踪和计费软件,帮助您的机构规划和预测盈利的未来。

Harpoon:新一代时间跟踪和发票系统
Lucky Media 标志

幸运传媒

Get Lucky Now——拥有十余年经验的 Laravel 开发理想之选!

幸运传媒
SaaSykit:Laravel SaaS 入门套件徽标

SaaSykit:Laravel SaaS 入门套件

SaaSykit 是一个多租户 Laravel SaaS 入门套件,包含运行现代 SaaS 所需的所有功能,例如支付、美观的结账界面、管理面板、用户仪表盘、身份验证、现成组件、统计数据、博客、文档等等。

SaaSykit:Laravel SaaS 入门套件
Laravel Boost v2.3.0 镜像中的 Inertia v3 升级提示和 JSON 日志支持

Laravel Boost v2.3.0 中新增 Inertia v3 升级提示和 JSON 日志支持

阅读文章
Laracon AU 重返布里斯班——演讲者招募现已开放(图片)

Laracon AU 重返布里斯班——演讲者招募现已开放

阅读文章
检测和修复 Laravel 应用中的竞态条件(图片)

检测和修复 Laravel 应用程序中的竞态条件

阅读文章
LaraCopilot:利用 AI 图像,从单个提示生成 Laravel MVP

LaraCopilot:利用人工智能,仅需一个提示即可生成 Laravel MVP。

阅读文章
Laravel 12.54.0 图片中的 Model::withoutRelation()

Laravel 12.54.0 中的 Model::withoutRelation()

阅读文章
Tyro Checkpoint:Laravel 本地开发镜像的即时 SQLite 快照

Tyro Checkpoint:为 Laravel 本地开发提供即时 SQLite 快照

阅读文章