iframe嵌套页面_网络爬虫|网页中嵌套iframe框架内容爬取的两种思路

作者：HAOCWH | 来源：互联网 | 2023-09-18 21:13

本文只介绍解决相应问题的解决思路，做技术分享，请勿滥用，否则后果自负。前言最近在网站看书的时候，遇到了一种iframe嵌套的

本文只介绍解决相应问题的解决思路&＃xff0c;做技术分享&＃xff0c;请勿滥用&＃xff0c;否则后果自负。

前言

最近在网站看书的时候&＃xff0c;遇到了一种iframe嵌套的网站&＃xff0c;然后就习惯性的考虑了进行数据获取的时候应该如何解决。

分析

进入网站点击下一页发现地址栏并不发生变化&＃xff0c;但是改变地址栏的相应页面数字的时候小说的页数能够随着变化&＃xff0c;我觉得很大可能是ajax绑定了数据。之后打开f12审查元素&＃xff0c;又打开网页源码进行查看网页源码进行比较&＃xff0c;发现f12审查元素中存在一个iframe标签&＃xff0c;在这个iframe标签中存在小说相应的数据&＃xff0c;如下图&＃xff1a;

之后查看源码中并不存在iframe相关的内容&＃xff0c;只有一个form表单

如果在这个状态下直接使用requests请求网址肯定是获取不到任何数据的,因为requests获取到的就是网站的源码。如果图省事的话可以直接考虑使用selenium&＃xff0c;只要网站上看得到的都可以使用selenium进行获取&＃xff0c;另外也是可以考虑使用requests进行分析network中各个请求进行获取数据。下面从两个角度对该问题进行解决。

思路一&＃xff1a;使用requests获取数据

1.分析network

如果直接请求地址栏中的url是不可能获取到小说相关的内容的。因此先从network下手&＃xff0c;看看点击下一页之后网站的发起请求的情况。点击下一页之后发现出现三个请求&＃xff0c;并且出现了3&＃xff1f;t&＃61;一串数字

打开第一个文件发现里边的链接恰好就是下一个访问的链接

进入第二个链接发现里边的内容恰好就是小说内容

由此可以得出我们只要获取到第一个链接就可以得到小说的内容。

2.分析网页源码中的js部分

从1中我们得出只要能够获得链接1我们就能获取到数据&＃xff0c;分析网页源码的目的也就是为了找到构造这个链接的js部分。首先肯定会考虑那个form表单&＃xff0c;看看有什么用处&＃xff0c;在里边的参数有一个${m}感觉有点像后端的EL表达式&＃xff0c;数据是从后端传过来的。此路解决起来可能有点难度&＃xff0c;继续看看其他的js方法&＃xff0c;发现有一个方法里构造的url和我们在1中发现的第一个url极度相似

两个参数&＃xff0c;一个pageIndex不用说了肯定是页码&＃xff0c;但是这个t是什么&＃xff0c;然后可以考虑在全局中搜索一下

发现如下

{t}仅仅是个字符&＃xff0c;被一个方法替换了(new Date().getTime()&＃xff1a;获取时间戳)&＃xff0c;看这个方法应该是和时间有关系&＃xff0c;那么t应该就是time的意思&＃xff0c;然后去在线js执行一下方法

3.构造url进行访问

用上边的时间戳构造url

成功获取到信息

现在url地址栏的信息则为1中的第二个链接

4.正则匹配url

使用requests进行请求的时候&＃xff0c;看源码发现那个url与网站源码有些出入&＃xff0c;按照requests请求后的源码解决即可。

把中间的jsessionid相关的东西匹配出来之后替换掉

于是就匹配出来了&＃xff0c;之后使用replace换成相应的内容就可以了

代码如下&＃xff1a;

import requests import re import time from bs4 import BeautifulSoup user_agent &＃61;"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11" headers &＃61; {&＃39;User-Agent&＃39;: user_agent} url&＃61;"http://shuxiang.chineseall.cn/v3/book/read/qDkFg/EPUB/1" res&＃61;requests.get(url&＃61;url,headers&＃61;headers) res_text&＃61;res.text patterns&＃61;&＃39;/v3/book/.&＃43;?t&＃61;{t}&＃39;#Reader Url正则匹配规则 url_true&＃61;re.findall(patterns,res_text)#对整体进行匹配 re_text&＃61;re.findall(";.*?/",url_true[0])#匹配出来jsessionid print(re_text[0]) print(url_true[0].replace(re_text[0],"/").replace("{pageIndex}","1").replace("{t}",str(int(time.time()))))#将链接中的jsessionid除去加入pagenumber以及时间戳 newurl&＃61;"http://shuxiang.chineseall.cn"&＃43;url_true[0].replace(re_text[0],"/").replace("{pageIndex}","4").replace("{t}",str(int(time.time()))) result&＃61;requests.get(newurl,headers&＃61;headers) print(result.text) soup&＃61;BeautifulSoup(result.text,&＃39;lxml&＃39;) print(soup.find_all(&＃39;p&＃39;))

运行结果&＃xff1a;

思路二&＃xff1a;使用selenium获取数据

1.找到iframe的class或者id

使用selenium中的switch_to.frame(id)就可以转达框架内进行操作

代码如下&＃xff1a;

from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver import ActionChainsb_driver &＃61; webdriver.Chrome() url_str&＃61;"http://shuxiang.chineseall.cn/v3/book/read/OtuGg/EPUB/" url&＃61;[url_str&＃43;str(i)for i in range(2,8)] #actions&＃61;ActionChains(b_driver) f&＃61;open("D:研究数据爬取datatext.txt",&＃39;a&＃39;) def getTexts(url,urla):webdriver.Chrome()b_driver.get(url)b_driver.switch_to.frame(&＃39;epubViewFrame&＃39;)#转入iframe标签内page&＃61;b_driver.page_sourceprint(page)soup&＃61;BeautifulSoup(page,&＃39;lxml&＃39;)soup_text&＃61;soup.select(&＃39;p[class&＃61;"content"]&＃39;)for i in range(0,len(soup_text)):print(soup_text[i].string)if soup_text[i].string&＃61;&＃61;None:f.write(" ")else:f.write(soup_text[i].string)f.write("n")f.write("*"*30&＃43;"n")b_driver.switch_to.window(b_driver.window_handles[-1])#使用新的标签进行访问下一个链接b_driver.get(urla) for i in range(1,len(url)):if i&＃61;&＃61;len(url):breakelse:getTexts(url[i],url[i&＃43;1])

效果如下&＃xff1a;

总结

遇到需要爬取iframe内的信息网站的时候如果不要求时间的话完全可以使用selenium来爬取就可以&＃xff0c;任何的js或者ajax对其都没有什么作用&＃xff0c;但是如果有$cbc以及webdriver检测的话可能selenium就不行了。requests相对麻烦一些&＃xff0c;因为需要抓包看一下相关的链接情况。最后还是要提醒一下&＃xff0c;写任何的爬虫都不要给网站服务器造成负担&＃xff0c;设置合理的休眠时间。

http://weixin.qq.com/r/dDnN1XzE9CGLrTi292xm (二维码自动识别)

推荐阅读

import
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
import
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
import
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
import
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
instance
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
import
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
import
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
数组
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
request
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
import
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
import
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
import
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
数组
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
search
PHP 实现网页内容抓取及数据解析

本文由杨勇和思远于2012年12月27日撰写，主要探讨了如何使用PHP进行网页内容抓取，特别是针对字符较多的网站。文章详细介绍了正则表达式失效的原因，并提供了优化方法，同时展示了如何抓取淘宝服饰栏、天气信息以及IP地址对应的地理位置。 ... [详细]

蜡笔小新 2024-12-23 11:27:18
ascii
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04

HAOCWH

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章