BeautifulSoup号码提取

作者：罗丝012 | 来源：互联网 | 2023-09-16 03:59

``所以我试图从这个天气网站上获得学位。但是我一直没有返回一个空白的答案。这是我的代码

``所以我试图从这个天气网站上获得学位。但是我一直没有返回一个空白的答案。这是我的代码
Link to a screenshot

import requests from bs4 import BeautifulSoup # -----------------------------get site info------------------------------- # URL = "https://www.theweathernetwork.com/ca/hourly-weather-forecast/ontario/oakville" request = requests.get(URL) # print(request.content) # ----------------------parse site info---------------- # soup = BeautifulSoup(request.content,'html5lib') #print(soup.prettify().encode("utf-8")) weatherdata = soup.find('span',class_='temp') print(weatherdata)

这些值可能是动态呈现的，即这些值可能由页面中的Javascript填充。

requests.get()只是返回从服务器接收到的标记，而无需进行任何其他客户端更改，因此它并不是完全等待。

您也许可以使用Selenium Chrome Webdriver来加载页面URL并获取页面源。（或者您可以使用Firefox驱动程序。）

转到chrome://settings/help检查当前的Chrome版本，然后从here下载该版本的驱动程序。确保将驱动程序文件保存在PATH或python脚本所在的文件夹中。

尝试一下：

from bs4 import BeautifulSoup as bs from selenium.webdriver import Chrome # pip install selenium from selenium.webdriver.chrome.options import Options url = "https://www.theweathernetwork.com/ca/hourly-weather-forecast/ontario/oakville" #Make it headless i.e. run in backgroud without opening chrome window chrome_optiOns= Options() chrome_options.add_argument("--headless") # use Chrome to get page with Javascript generated content with Chrome(executable_path="./chromedriver",optiOns=chrome_options) as browser: browser.get(url) page_source = browser.page_source #Parse the final page source soup = bs(page_source,'html.parser') weatherdata = soup.find('span',class_='temp') print(weatherdata.text)

10

参考文献：

Get page generated with Javascript in Python

selenium - chromedriver executable needs to be in PATH

问题似乎是通过Javascript加载了数据，因此需要一段时间才能加载该特定范围的值。当您执行请求时，它似乎是空的，只是稍后加载。一种可能的解决方案是使用硒等待页面加载，然后再提取html。

from bs4 import BeautifulSoup from selenium import webdriver url = "https://www.theweathernetwork.com/ca/hourly-weather-forecast/ontario/oakville" browser = webdriver.Chrome() browser.get(url) html = browser.page_source soup = BeautifulSoup(html,'html.parser') elem = soup.find('span',class_='temp') print(elem.text)

推荐阅读

数组
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
数组
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
hook
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
rsa
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
rsa
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
rsa
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
rsa
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
go
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
go
解决 Python 项目中 setuptools_rust 模块缺失问题

本文介绍了在安装或运行 Python 项目时遇到的 'ModuleNotFoundError: No module named setuptools_rust' 错误，并提供了解决方案。 ... [详细]

蜡笔小新 2024-12-27 18:06:18
export
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
export
深入解析 BERT 中的 Transformer Attention 机制

本文详细介绍了 BERT 模型中 Transformer 的 Attention 机制，包括其原理、实现代码以及在自然语言处理中的应用。通过结合多个权威资源，帮助读者全面理解这一关键技术。 ... [详细]

蜡笔小新 2024-12-28 12:57:56
char
Python 实现字符串双拆分并转换为矩阵

本文介绍如何使用 Python 将一个字符串按照指定的行和元素分隔符进行两次拆分，最终将字符串转换为矩阵形式。通过两种不同的方法实现这一功能：一种是使用循环与 split() 方法，另一种是利用列表推导式。 ... [详细]

蜡笔小新 2024-12-28 12:15:45
byte
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
shell
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23

罗丝012

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章