go语言操作html压面,Go语言使用chromedp爬虫

作者：吴怡瑜故事_398 | 来源：互联网 | 2023-09-14 07:14

title:Go语言使用chromedp爬虫tags:Go，chromedpauthor:Clown95背景最近朋友让我帮忙爬取一个网站上面的数据，当时

title: Go语言使用chromedp爬虫

tags: Go&＃xff0c;chromedp

author: Clown95

背景

最近朋友让我帮忙爬取一个网站上面的数据&＃xff0c;当时看到页面觉得很简单&＃xff0c;虽然有25000多页&＃xff0c;但是网站没有反爬虫机制&＃xff0c;只要多开几个协程就行。

当我简单的爬取第一页之后&＃xff0c;发现url没有page参数。好吧&＃xff0c;查看翻页的源代码看看, Javascript:__doPostBack(&＃39;anpDataPager&＃39;,&＃39;2&＃39;) 看到这个翻页我有点头疼&＃xff0c;是aps写的后台&＃xff0c;通过js调dll内部跳转的。

考虑到一般翻页无非是url和ajax。我又去控制台查看ajax,打开控制台选中 XHR ,结果让我有点懵逼&＃xff0c;根本就没有ajax。

我当时就打退堂鼓了&＃xff0c;但是又考虑到跟朋友一口一个保证&＃xff0c;没办法硬着头皮来吧&＃xff0c;那就在url上尝试使用anpDataPager传参看看&＃xff0c;还是不行&＃xff0c;那就再换curpage依然不行&＃xff0c;当我尝试了N遍了常用的curpage参数后&＃xff0c;这种方法也以失败告终。

没法比&＃xff0c;答应别人的事情当然得尽力完成&＃xff0c;就突发奇想使用按键精灵这里脚本语言&＃xff0c;模拟手动操作。因为需要查找翻页按钮操作&＃xff0c;我只能前台运行。但是有一个很棘手的问题&＃xff0c;网站所在服务器速度很慢&＃xff0c;大概2-4秒才能显示出数据&＃xff0c;而且数据量稍大25675页&＃xff0c;我这模拟下去&＃xff0c;我得几天不干活。

百度搜索看看有没有其他大佬遇到过类似的情况&＃xff0c;你别说还真有&＃xff0c;但是大佬使用的 Python 模拟提交form __VIEWSTATE __EVENTTARGET __EVENTARGUMENT __EVENTVALIDATION 这四个数据&＃xff0c;我用 go 模仿大佬的方法不知道怎么就是不行。

那就在继续搜索下&＃xff0c;看到可以用 selenium 和 chromedp 来模拟浏览器操作&＃xff0c;最终选择了 chromedp

chromedp 介绍

chromedp包是一种更快&＃xff0c;更简单的方法&＃xff0c;可以使用无外部依赖关系(即Selenium&＃xff0c;PhantomJS等)来驱动支持Go中的Chrome DevTools协议的浏览器。

安装

go get -u github.com/chromedp/chromedp

注意&＃xff1a;需要安装chrome浏览器或者chromedrive

使用

官方提供的Demo

Api查询地址

需要爬的内容

12019/3/22 11:11:314001,000,0001,0001,000,400aabb123 92fox92fox上分

.....

我直接贴上我爬虫的代码

package main

import (

"context"

"errors"

"github.com/chromedp/cdproto/cdp"

"github.com/chromedp/cdproto/network"

"time"

"log"

"github.com/chromedp/chromedp"

)

var res string // 定义全局变量&＃xff0c;用来保存爬虫的数据

func main() {

var err error

// 创建链接

ctxt, cancel :&＃61; context.WithCancel(context.Background())

defer cancel()

//创建chrome.New()创建新的chrome实例

c, err :&＃61; chromedp.New(ctxt, chromedp.WithLog(log.Printf))

if err !&＃61; nil {

log.Fatal(err)

}

x, err :&＃61; chromedp.New(ctxt, chromedp.WithLog(log.Printf))

if err !&＃61; nil {

log.Fatal(err)

}

//执行任务

err &＃61; c.Run(ctxt, visitWeb("http://dl.gaggjz.pw:8086/OpRoot/MemberScoreList.aspx?uid&＃61;0&op&＃61;0&uname&＃61;sdafsadsaf"))

if err !&＃61; nil {

log.Fatal(err)

}

// 循环翻页

for i :&＃61; 1; i <25000; i&＃43;&＃43; {

//执行

err &＃61; x.Run(ctxt, DoCrawler()) //执行爬虫任务

WirteTXT(res)// res的内容写入文本

}

// 任务主要用来设置COOKIE &＃xff0c;获取登录账号后的页面

func visitWeb(url string) chromedp.Tasks {

return chromedp.Tasks{

chromedp.ActionFunc(func(ctxt context.Context, h cdp.Executor) error {

expr :&＃61; cdp.TimeSinceEpoch(time.Now().Add(180 * 24 * time.Hour))

success, err :&＃61; network.SetCOOKIE("ASP.NET_SessionId", "这里是值"). //设置COOKIE

WithExpires(&expr).

WithDomain("dl.gaggjz.pw:8086"). //访问网站主体

WithHTTPOnly(true).

Do(ctxt, h)

if err !&＃61; nil {

return err

}

if !success {

return errors.New("could not set COOKIE")

}

return nil

}),

chromedp.Navigate(url), //页面跳转

}

// 任务主要执行翻页功能和或者html

func DoCrawler() chromedp.Tasks {

//sel &＃61;fmt.Sprintf(&＃96;Javascript:__doPostBack(&＃39;anpDataPager&＃39;,&＃39;%s&＃39;)&＃96;,"2")

return chromedp.Tasks{

chromedp.Sleep(1*time.Second), // 等待

chromedp.WaitVisible(&＃96;#form1&＃96;, chromedp.ByQuery),等待id&＃61;from1页面可见 ByQuery是使用DOM选择器查找

chromedp.Sleep(1*time.Second),

chromedp.Click(&＃96;.pagination li:nth-last-child(4) a&＃96;, chromedp.ByQuery),//点击翻页

chromedp.OuterHTML(&＃96;tbody&＃96;, &res, chromedp.ByQuery), //获取改 tbody标签的html

}

func WirteTXT(txt string ) {

f, err :&＃61; os.OpenFile("1.txt", os.O_RDWR|os.O_CREATE|os.O_APPEND, 0777)

if err !&＃61; nil {

fmt.Println("os Create error: ", err)

return

}

defer f.Close()

bw :&＃61; bufio.NewWriter(f)

bw.WriteString(txt&＃43;"\n")

bw.Flush()

}

总结

通过代码可以看到我创建了 chromedp.Tasks 任务&＃xff0c;第一个任务主要就是为了设置COOKIE即模拟登录&＃xff0c;第二个任务是最重要的&＃xff0c;它主要用来点击下一页按钮和获取指定 html 内容。因为第一次接触chromedp&＃xff0c;所以我刚开始把两个任务放在一个任务里&＃xff0c;就造成了第一页和第二页来回跳转。所以突发奇想创建了2个任务。当然我后来才知道&＃xff0c;单独执行第二个任务的时候&＃xff0c;可以手动输入地址和登录账号&＃xff0c;程序也是可以执行的&＃xff0c;就是有个缺点&＃xff0c;执行一段时间可能COOKIE失效&＃xff0c;需要重新登录。要注意的是chromedp使用的是DOM 原生选择器&＃xff0c;我刚开始看到ByQuery 以为可以使用 JQuery 选择器&＃xff0c;一直筛选不到内容。还有一个坑点就是&＃xff0c;我爬取的td标签是在tbody内的&＃xff0c;直接使用 chromedp.Text() 获取不到内容&＃xff0c;所以退而求次&＃xff0c;获取了html&＃xff0c;但是我发现goquery 读取文本里面的html也不能获取到td的内容&＃xff0c;最后我把tbody替换成table&＃xff0c;可以成功的获取到内容。

推荐阅读

dll
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
php
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
php
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
php
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
php
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
php
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
header
解决全栈跨域问题的方法及步骤详解

本文详细介绍了解决全栈跨域问题的方法及步骤，包括添加权限、设置Access-Control-Allow-Origin、白名单等。通过这些操作，可以实现在不同服务器上的数据访问，并解决后台报错问题。同时，还提供了解决second页面访问数据的方法。 ... [详细]

蜡笔小新 2023-12-13 18:07:28
main
开发笔记：使用Junit和黄瓜进行自动化测试步骤缺失

本文由编程笔记小编整理，主要介绍了使用Junit和黄瓜进行自动化测试中步骤缺失的问题。文章首先介绍了使用cucumber和Junit创建Runner类的代码，然后详细说明了黄瓜功能中的步骤和Steps类的实现。本文对于需要使用Junit和黄瓜进行自动化测试的开发者具有一定的参考价值。摘要长度：187字。 ... [详细]

蜡笔小新 2023-12-11 20:20:32
function
HTML5网页模板怎么加百度统计？

本文介绍了如何在HTML5网页模板中加入百度统计，并对模板文件、css样式表、js插件库等内容进行了说明。同时还解答了关于HTML5网页模板的使用方法、表单提交、域名和空间的问题，并介绍了如何使用Visual Studio 2010创建HTML5模板。此外，还提到了使用Jquery编写美好的HTML5前端框架模板的方法，以及制作企业HTML5网站模板和支持HTML5的CMS。 ... [详细]

蜡笔小新 2023-12-11 12:06:41
function
JavaScript简介及语言特点

本文介绍了JavaScript的起源和发展历程，以及其在前端验证和服务器端开发中的应用。同时，还介绍了ECMAScript标准、DOM对象和BOM对象的作用及特点。最后，对JavaScript作为解释型语言和编译型语言的区别进行了说明。 ... [详细]

蜡笔小新 2023-12-10 17:45:49
function
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
function
HTML学习02 图像标签的使用和属性

本文介绍了HTML中图像标签的使用和属性，包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项，帮助读者更好地理解和应用图像标签。 ... [详细]

蜡笔小新 2023-12-13 11:31:26
php
深入理解CSS中的margin属性及其应用场景

本文主要介绍了CSS中的margin属性及其应用场景，包括垂直外边距合并、padding的使用时机、行内替换元素与费替换元素的区别、margin的基线、盒子的物理大小、显示大小、逻辑大小等知识点。通过深入理解这些概念，读者可以更好地掌握margin的用法和原理。同时，文中提供了一些相关的文档和规范供读者参考。 ... [详细]

蜡笔小新 2023-12-12 18:01:10
sum
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
php
分享css中提升优先级属性!important的用法总结

web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]

蜡笔小新 2023-12-11 11:25:16

吴怡瑜故事_398

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章