cloudflare5s后跳转的网页怎么爬取

作者：手机用户2602939883 | 来源：互联网 | 2023-09-07 12:21

有很多网站使用了cloudflare的反爬虫服务，第一次打开任何页面都需要等待5s才能进入后面的页面。这种页面需要解析js才能获取到跳转参数。完成跳转后才能获取有效c

有很多网站使用了cloudflare 的反爬虫服务&＃xff0c;第一次打开任何页面都需要等待5s才能进入后面的页面。这种页面需要解析js才能获取到跳转参数。完成跳转后才能获取有效COOKIE。

不喜欢bb&＃xff0c;直接上代码了。

# -*- coding: utf-8 -*- # &＃64;Time : 2019/8/21 20:48 # &＃64;Author : meng_zhihao # &＃64;Email : 312141830&＃64;qq.com # &＃64;File : five_seconds_redirect.py&＃39;curl "https://steamdb.info/cdn-cgi/l/chk_jschl?s&＃61;a008fbe38534ed25da1fcfeee8818c71088155e2-1566391545-1800-AS6fBv4Md5hbFH5KuOu3rUO53K8YLifU6bByW039xKgE^%^2BB^%^2Fl3rJNXQjLqvAq^%^2FCNSWqfrbNCiBprNC4fTtXfmasWS20yWx2vBKGjya^%^2BTVhU8PsS8myK8ty1gUsqY7iuvZmw^%^3D^%^3D^&jschl_vc&＃61;bd263529a25342dfc2bf2d06ec6a32f9^&pass&＃61;1566391549.871-VHEZj8fTNM^&jschl_answer&＃61;16.6665600261" -H "authority: steamdb.info" -H "pragma: no-cache" -H "cache-control: no-cache" -H "upgrade-insecure-requests: 1" -H "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36" -H "accept: text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8,application/signed-exchange;v&＃61;b3" -H "referer: https://steamdb.info/" -H "accept-encoding: gzip, deflate, br" -H "accept-language: zh-CN,zh;q&＃61;0.9" -H "COOKIE: __cfduid&＃61;d1117a0185a634e26f5f076daff94a2c01566391545" --compressed&＃39;import requests from lxml import etree import re from js2py import eval_js import time import urllib HEADERS &＃61; {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36&＃39;}def getXpath(xpath, content): # xptah操作貌似会把中文变成转码&＃xxxx; /text()变unicode编码tree &＃61; etree.HTML(content)out &＃61; []results &＃61; tree.xpath(xpath)for result in results:if &＃39;ElementStringResult&＃39; in str(type(result)) or &＃39;ElementUnicodeResult&＃39; in str(type(result)):out.append(result)else:out.append(etree.tostring(result))return outdef get_js_return(content):""""""# jschl_vc &＃61; "bd263529a25342dfc2bf2d06ec6a32f9"# passwd &＃61; "1566391549.871-VHEZj8fTNM"# jschl_answer &＃61; "16.6665600261"l &＃61; re.findall(r&＃39;name&＃61;"jschl_vc" value&＃61;"(.*?)"&＃39;, content)if l: jschl_vc &＃61; l[0]l &＃61; re.findall(r&＃39;name&＃61;"pass" value&＃61;"(.*?)"&＃39;, content)if l: passwd &＃61; l[0]m &＃61; re.search(r&＃39;setTimeout\(function\(\)\{((?:.|\n)*?)f\.submit\(\)&＃39;, content)if m:s &＃61; m.group(1)l &＃61; s.split("\n")l &＃61; [i for i in l if i.split()]first &＃61; l[0]last &＃61; l[-2]_ret &＃61; re.search(r"(.*?)a\.value\s&＃43;&＃61;\s&＃43;((.*?)121&＃39;)", last)if _ret:last &＃61; _ret.group(1)ret &＃61; _ret.group(2)js &＃61; "function f(){ %s %s %s return %s }" % (first,"""t &＃61; &＃39;https://steamdb.info/&＃39;;r &＃61; t.match(/https?:\/\//)[0];t &＃61; t.substr(r.length); t &＃61; t.substr(0,t.length-1);""", last,ret)jschl_answer &＃61; eval_js(js)()print(jschl_answer)return jschl_vc, passwd, jschl_answerdef get_COOKIE():se &＃61; requests.session()page &＃61; se.get(&＃39;https://steamdb.info/&＃39;,timeout&＃61;10,headers&＃61;HEADERS).content.decode(&＃39;utf8&＃39;)print(page)l &＃61; re.findall(r&＃39;name&＃61;"s" value&＃61;"(.*?)"&＃39;, page)if l:s &＃61; l[0]s &＃61; urllib.parse.quote(s)else:raise Exceptionjschl_vc, passwd, jschl_answer &＃61; get_js_return(page)print(s,jschl_vc, passwd, jschl_answer)time.sleep(4)url &＃61; &＃39;https://steamdb.info/cdn-cgi/l/chk_jschl?s&＃61;%s&jschl_vc&＃61;%s&pass&＃61;%s&jschl_answer&＃61;%s&＃39;%(s,jschl_vc,passwd,jschl_answer)print(url)se.get(url,timeout&＃61;10,headers&＃61;HEADERS)time.sleep(2)new_page &＃61; se.get(&＃39;https://steamdb.info/&＃39;,timeout&＃61;10,headers&＃61;HEADERS,).content.decode(&＃39;utf8&＃39;)print(new_page) # 完整的页面COOKIE &＃61; se.COOKIEs.get_dict() # 完整的COOKIEprint(COOKIE)return COOKIEif __name__ &＃61;&＃61; &＃39;__main__&＃39;:get_COOKIE()

推荐阅读

js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
io
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
io
优化分页组件：高效渲染数据数组

在处理大规模数据数组时，优化分页组件对于提高页面加载速度和用户体验至关重要。本文探讨了如何通过高效的分页策略，减少数据渲染的负担，提升应用性能。具体方法包括懒加载、虚拟滚动和数据预取等技术，这些技术能够显著降低内存占用和提升响应速度。通过实际案例分析，展示了这些优化措施的有效性和可行性。 ... [详细]

蜡笔小新 2024-11-11 10:02:01
io
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
io
jQuery 入门指南与实战应用

本文详细介绍了 jQuery 的入门知识与实战应用，首先讲解了如何引入 jQuery 库及入口函数的使用方法，为初学者提供了清晰的操作指南。此外，还深入探讨了 jQuery 在实际项目中的多种应用场景，包括 DOM 操作、事件处理和 AJAX 请求等，帮助读者全面掌握 jQuery 的核心功能与技巧。 ... [详细]

蜡笔小新 2024-11-04 17:28:16
io
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
io
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
js
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
js
Python应用实例大揭秘：七大令人惊叹的高阶技巧展示

2020年，Python无疑成为了最炙手可热的编程语言，其影响力已远远超出程序员的范畴。从初学者到资深从业者，甚至小学生，都在纷纷加入Python的学习热潮中。凭借其低门槛、易上手和强大的功能，Python正逐渐成为各行业不可或缺的工具。本文将揭示七个令人惊叹的Python高级应用技巧，帮助读者进一步提升编程水平。 ... [详细]

蜡笔小新 2024-11-11 15:04:48
js
AngularJS 进阶指南：第三部分深入解析

在本文中，我们将深入探讨 AngularJS 的指令模型，特别是 `ng-model` 指令。`ng-model` 指令用于将 HTML 元素与应用程序数据进行双向绑定，支持多种数据类型验证，如数字、电子邮件地址和必填项检查。此外，我们还将介绍如何利用该指令优化表单验证和数据处理流程，提升开发效率和用户体验。 ... [详细]

蜡笔小新 2024-11-07 18:51:13
io
小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限

小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限 ... [详细]

蜡笔小新 2024-11-07 15:11:42
search
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
io
微信小程序实现类似微博的无限回复功能，内置云开发数据库支持

本文详细介绍了如何利用微信小程序实现类似于微博的无限回复功能，并充分利用了微信云开发的数据库支持。文中不仅提供了关键代码片段，还包含了完整的页面代码，方便开发者按需使用。此外，HTML页面中包含了一些示例图片，开发者可以根据个人喜好进行替换。文章还将展示详细的数据库结构设计，帮助读者更好地理解和实现这一功能。 ... [详细]

蜡笔小新 2024-11-07 09:43:24
search
使用Python编写自动化脚本实现文件的全量与增量备份

本文探讨了利用Python编程语言开发自动化脚本来实现文件的全量和增量备份方法。通过详细分析不同备份策略的特点，文章介绍了如何使用Python标准库中的os和shutil模块来高效地管理和执行备份任务。此外，还提供了示例代码和最佳实践，帮助读者快速掌握自动化备份技术，确保数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-05 09:50:57
nodejs
CentOS 7环境下Jenkins的安装与前后端应用部署详解

CentOS 7环境下Jenkins的安装与前后端应用部署详解 ... [详细]

蜡笔小新 2024-11-04 16:46:02

手机用户2602939883

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章