热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python如何解析网页源码里没有的,但在审查元素的Elements里有的的
如何获取论坛http:bbs.byr.cn#!boardJobInfo列表里面的各个帖子的名字,链接,发表时间?源码里面看不到这个<table>,在chrome的审查元素里面
如何获取论坛 http://bbs.byr.cn/#!board/JobInfo列表里面的各个帖子的名字,链接,发表时间?
源码里面看不到这个
,在chrome的审查元素里面的Elements里面有,不知道怎么抓取这些内容,求教?
需要了解哪些东西,使用什么工具?

8 个解决方案

#1


Request URL:http://bbs.byr.cn/board/JobInfo?_uid=guest


首先分析请求在哪里

#2


@人傻且呆但不萌  表格是由是由js生成的,不知道如何获取表格里面的内容

#3


引用 2 楼 xiaoxu1148 的回复:
@人傻且呆但不萌  表格是由是由js生成的,不知道如何获取表格里面的内容


明明是get请求出来的数据你要说是js生成的

#4


@人傻且呆但不萌  额  不好意思,这方面我完全不懂。get好像拿不到帖子的标题、时间等内容。表格内容好像是JS生成的,我用PhantomJS拿到了表格里面的内容,不过还不怎么了解原理。请多多指教相关的基础知识及技术。
非常感谢您的回复

#5


get 请求就是在本来的网站后面添加几个参数就可以跳另外一个链接
比如你要爬的那个网页,点进去每个帖子,你看看那个网站地址的变化就知道了,比如下面这个:



看到这里你就知道怎么做了吧?循环后面的参数变化,在打开的每个网页中找到对应的标题跟内容就行了

#6


安装firebug

#7


这个情况我也遇到过~~
我使用的 from selenium import webdriver 模拟浏览器

browser = webdriver.Chrome(executable_path=chrome_path)
browser.get(url) #这个就是chrome浏览器中的element的内容了
browser.find_elements_by_tag_name('td') #获取element中 td下的内容

#8


引用 7 楼 kongpahuixiao 的回复:
这个情况我也遇到过~~
我使用的 from selenium import webdriver 模拟浏览器

browser = webdriver.Chrome(executable_path=chrome_path)
browser.get(url) #这个就是chrome浏览器中的element的内容了
browser.find_elements_by_tag_name('td') #获取element中 td下的内容
这个我搞了半天装不下来firefox driver。我python3.5,请问为什么啊?

推荐阅读
  • 本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。 ... [详细]
  • 使用Tkinter构建51Ape无损音乐爬虫UI
    本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面,用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单,但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]
  • 本文详细探讨了使用Python3编写爬虫时如何应对网站的反爬虫机制,通过实例讲解了如何模拟浏览器访问,帮助读者更好地理解和应用相关技术。 ... [详细]
  • 周排行与月排行榜开发总结
    本文详细介绍了如何在PHP中实现周排行和月排行榜的开发,包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]
  • Cookie学习小结
    Cookie学习小结 ... [详细]
  • Webdriver中元素定位的多种技术与策略
    在Webdriver中,元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略,包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景,通过合理选择和组合使用,可以显著提高测试脚本的稳定性和效率。此外,文章还探讨了在复杂页面结构中如何灵活运用这些定位技术,以应对各种挑战。 ... [详细]
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • 本指南介绍了 `requests` 库的基本使用方法,详细解释了其七个主要函数。其中,`requests.request()` 是构建请求的基础方法,支持其他高级功能的实现。此外,我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容,这是进行网页数据抓取和解析的重要步骤。通过这些基础方法,读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]
  • 本文介绍了Go语言中正则表达式的基本使用方法,并提供了一些实用的示例代码。 ... [详细]
  • 本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用,仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]
  • python模块之正则
    re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求,从一段字符串中找到符合要求的内容。在 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
author-avatar
-____Ddddear_534
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有