热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python如何解析网页源码里没有的,但在审查元素的Elements里有的的
如何获取论坛http:bbs.byr.cn#!boardJobInfo列表里面的各个帖子的名字,链接,发表时间?源码里面看不到这个<table>,在chrome的审查元素里面
如何获取论坛 http://bbs.byr.cn/#!board/JobInfo列表里面的各个帖子的名字,链接,发表时间?
源码里面看不到这个
,在chrome的审查元素里面的Elements里面有,不知道怎么抓取这些内容,求教?
需要了解哪些东西,使用什么工具?

8 个解决方案

#1


Request URL:http://bbs.byr.cn/board/JobInfo?_uid=guest


首先分析请求在哪里

#2


@人傻且呆但不萌  表格是由是由js生成的,不知道如何获取表格里面的内容

#3


引用 2 楼 xiaoxu1148 的回复:
@人傻且呆但不萌  表格是由是由js生成的,不知道如何获取表格里面的内容


明明是get请求出来的数据你要说是js生成的

#4


@人傻且呆但不萌  额  不好意思,这方面我完全不懂。get好像拿不到帖子的标题、时间等内容。表格内容好像是JS生成的,我用PhantomJS拿到了表格里面的内容,不过还不怎么了解原理。请多多指教相关的基础知识及技术。
非常感谢您的回复

#5


get 请求就是在本来的网站后面添加几个参数就可以跳另外一个链接
比如你要爬的那个网页,点进去每个帖子,你看看那个网站地址的变化就知道了,比如下面这个:



看到这里你就知道怎么做了吧?循环后面的参数变化,在打开的每个网页中找到对应的标题跟内容就行了

#6


安装firebug

#7


这个情况我也遇到过~~
我使用的 from selenium import webdriver 模拟浏览器

browser = webdriver.Chrome(executable_path=chrome_path)
browser.get(url) #这个就是chrome浏览器中的element的内容了
browser.find_elements_by_tag_name('td') #获取element中 td下的内容

#8


引用 7 楼 kongpahuixiao 的回复:
这个情况我也遇到过~~
我使用的 from selenium import webdriver 模拟浏览器

browser = webdriver.Chrome(executable_path=chrome_path)
browser.get(url) #这个就是chrome浏览器中的element的内容了
browser.find_elements_by_tag_name('td') #获取element中 td下的内容
这个我搞了半天装不下来firefox driver。我python3.5,请问为什么啊?

推荐阅读
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 利用Selenium与ChromeDriver实现豆瓣网页全屏截图
    本文介绍了一种使用Selenium和ChromeDriver结合Python代码,轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行,而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]
  • Python自动化测试入门:Selenium环境搭建
    本文详细介绍如何在Python环境中安装和配置Selenium,包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外,还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
  • Python技巧:利用Cookie实现自动登录绕过验证码
    本文详细介绍了如何通过Python和Selenium库利用浏览器Cookie实现自动登录,从而绕过验证码验证。文章提供了具体的操作步骤,并附有代码示例,帮助读者理解和实践。 ... [详细]
  • 并发编程 12—— 任务取消与关闭 之 shutdownNow 的局限性
    Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]
  • 本文详细比较了CSS选择器和XPath在Selenium中通过页面结构定位元素的优劣,并提供了具体的代码示例,帮助读者理解两者在不同场景下的适用性。 ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • JavaScript 中创建对象的多种方法
    本文详细介绍了 JavaScript 中创建对象的几种常见方式,包括对象字面量、构造函数和 Object.create 方法,并提供了示例代码和属性描述符的解释。 ... [详细]
  • 在PHP后端开发中遇到一个难题:通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]
  • 推荐几款高效测量图片像素的工具
    本文介绍了几款适用于Web前端开发的工具,这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]
  • 本文介绍了Python编程中的字符串操作基础知识,包括字符串拼接、索引、子序列选择和查找。此外,还探讨了如何利用字符串处理技术从HTML代码中提取超链接信息,为简单的网页抓取打下基础。 ... [详细]
author-avatar
-____Ddddear_534
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有