PHP实现抓取百度搜索结果，并分析数据结构

作者：空心悟心 | 来源：互联网 | 2020-10-02 10:01

百度的搜索引擎有反爬虫机制，我先直接用guzzle试试水。代码如下...

推荐：《PHP视频教程》

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构

百度的搜索引擎有反爬虫机制，我先直接用guzzle试试水。代码如下：

 true]);
$ql = $client->request(&＃39;GET&＃39;, &＃39;https://www.baidu.com&＃39;, [
    &＃39;COOKIEs&＃39; => $jar
]);
if($ql->getStatusCode()!=200){
    echo &＃39;网站状态不正常&＃39;;die;
}
echo  $ql->getBody();

百度直接拦截了，进了跳转页面，我试试加个浏览器头文件，再试试。

修改后的header如下：

$ql = $client->request(&＃39;GET&＃39;, &＃39;https://www.baidu.com&＃39;, [
    &＃39;COOKIEs&＃39; => $jar,
    &＃39;headers&＃39; => [
    &＃39;Accept-Encoding&＃39; => &＃39;gzip, deflate, br&＃39;,
    &＃39;Accept&＃39;     => &＃39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8&＃39;,
    &＃39;Accept-Language&＃39;      => &＃39;zh-CN,zh;q=0.9,en;q=0.8&＃39;,
    &＃39;Cache-Control&＃39;      => &＃39;no-cache&＃39;,
    &＃39;Connection&＃39;      => &＃39;keep-alive&＃39;,
    &＃39;User-Agent&＃39;      => &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36&＃39;,
]
]);

我测试了下，网站打开了。

我们继续，输入关键词，并搜索,结果发现被安全拦截了，所以我感觉直接用GuzzleHttp搞不动，于是我继续我的神器：jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤：

1.安装依赖

在这之前，要先启用php的proc_open函数，否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下：

use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto(&＃39;https://www.baidu.com&＃39;);
    // 这里故意设置一个很长的延长时间，让你可以看到chrome浏览器的启动
    sleep(3);
    //输入关键词
    $wd = &＃39;简庆旺博客&＃39;;
    $page->type("input[id=&＃39;kw&＃39;]",$wd);
    sleep(1);
    //点击搜索
    $page->click("input[type=&＃39;submit&＃39;]");
    //等待搜索结果
    sleep(3);
    //获取结果
    $html = $page->content();
    //用jquery选择器抽取结果
    $rules = array(
        &＃39;title&＃39;=>[&＃39;#content_left h3 a&＃39;,&＃39;text&＃39;],//标题
        &＃39;url&＃39;=>[&＃39;#content_left h3 a&＃39;,&＃39;href&＃39;],//跳转网址
        &＃39;description&＃39;=>[&＃39;div .c-abstract&＃39;,&＃39;text&＃39;],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要，可以把$rt入库，以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是页面的HTML内容
    return $html;
},[
    &＃39;headless&＃39; => false, // 启动可视化Chrome浏览器,方便调试
    &＃39;devtools&＃39; => false, // 打开浏览器的开发者工具
])->find(&＃39;title&＃39;)->text();

$rt是我的结果集合，打印下，如下

以上就是PHP实现抓取百度搜索结果，并分析数据结构的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

io
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
io
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
io
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
go
2015款Chromebook Pixel评测：高端Chrome OS笔记本体验

在笔记本电脑领域，Chromebook Pixel凭借其精致的铝合金外壳、细腻的显示屏和舒适的键盘，成为了外观设计的佼佼者。然而，尽管外观出众，它是否值得购买仍需考量。 ... [详细]

蜡笔小新 2024-12-15 16:12:50
io
使用 NDB 提升 Node.js 应用调试体验

本文介绍了由 Google Chrome 实验室推出的新一代 Node.js 调试工具 NDB，旨在为开发者提供更加高效和便捷的调试解决方案。 ... [详细]

蜡笔小新 2024-12-02 20:52:15
go
Valve 发布 Steam Deck 的新版 Windows 驱动程序

Valve 最新发布了针对 Steam Deck 掌机的 Windows 驱动程序，旨在提升其在 Windows 环境下的兼容性、安全性和性能表现。 ... [详细]

蜡笔小新 2024-12-28 10:31:16
io
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
go
云计算的优势与应用场景

本文详细探讨了云计算为企业和个人带来的多种优势，包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点，并结合实际案例进行分析。 ... [详细]

蜡笔小新 2024-12-23 13:54:13
object
解析：IE 浏览器中 IMG 元素 alt 属性的误用及其正确处理方式

在跨浏览器开发中，一个常见的问题是关于如何在鼠标悬停时显示图片提示信息。本文深入探讨了 IE 浏览器对 IMG 元素 alt 属性的特殊处理，并提供了最佳实践建议。 ... [详细]

蜡笔小新 2024-12-23 12:35:10
get
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
go
Java SpringMVC SSM 实现多模块集成：操作日志、文件管理、头像编辑、权限控制及缓存优化

本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统，涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等，旨在提供一个高效且功能丰富的开发平台。 ... [详细]

蜡笔小新 2024-12-20 19:17:47
go
Vue 开发与调试工具指南

本文介绍了如何使用 Vue 调试工具，包括克隆仓库、安装依赖包、构建项目以及在 Chrome 浏览器中加载扩展的详细步骤。 ... [详细]

蜡笔小新 2024-12-20 16:28:04
go
Web App vs Native App：未来的移动应用趋势

随着移动互联网的发展，Web App和Native App之间的竞争日益激烈。对于开发者而言，选择哪一种技术路径更为明智？本文将深入探讨两种应用模式的特点及未来趋势。 ... [详细]

蜡笔小新 2024-12-13 13:50:17
io
利用CSS3和React实现数字滚动动画组件

在前端开发中，数字滚动动画是一个常见的需求。本文将详细介绍如何使用CSS3和React构建一个数字滚动动画组件，包括组件的代码实现和样式设计。如果您对HTML版本感兴趣，欢迎留言获取。 ... [详细]

蜡笔小新 2024-12-13 13:48:05
io
微信小程序长文本折叠解决方案探讨

在进行微信小程序开发过程中，遇到了需要实现类似微信朋友圈那样的长文本折叠功能的需求。本文将详细探讨其实现方法及注意事项。 ... [详细]

蜡笔小新 2024-12-11 10:42:21

空心悟心

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章