Python获取当前页面内的所有链接的五种方法

作者：俞承豪那个男人- | 来源：互联网 | 2023-09-24 21:11

本文讲述了Python获取当前页面内的所有链接的五种方法,分享给大家仅供参考,具体如下:#利用requests_htmlfromrequests_htmlimportHTMLSes

本文讲述了 Python 获取当前页面内的所有链接的五种方法,分享给大家仅供参考,具体如下:

# 利用 requests_html
from requests_html import HTMLSession
session &＃61; HTMLSession()
url &＃61; &＃39;https://www.baidu.com&＃39;
r &＃61; session.get(url)
print(r.html.links)
print(&＃39;*&＃39;*100)
# 利用 BeautifulSoup
import requests
from bs4 import BeautifulSoup
url &＃61; &＃39;http://www.baidu.com&＃39;
res &＃61; requests.get(url)
soup &＃61; BeautifulSoup(res.text, &＃39;lxml&＃39;)
for a in soup.find_all(&＃39;a&＃39;):
print(a[&＃39;href&＃39;])
print(&＃39;*&＃39;*100)
# 利用 re (不推荐用正则,太麻烦)
# 利用 lxml.etree
from lxml import etree
tree &＃61; etree.HTML(r.text)
for link in tree.xpath(&＃39;//&＃64;href&＃39;):
print(link)
print(&＃39;*&＃39;*100)
# 利用 selenium
from selenium import webdriver
chrome_options &＃61; webdriver.ChromeOptions()
chrome_options.add_argument(&＃39;--headless&＃39;)
browser &＃61; webdriver.Chrome(chrome_options&＃61;chrome_options)
browser.get(url)
for link in browser.find_elements_by_tag_name(&＃39;a&＃39;):
print(link.get_attribute(&＃39;href&＃39;))

推荐阅读

get
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
python
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
get
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
python
python模块之正则

re模块可以读懂你写的正则表达式根据你写的表达式去执行任务用re去操作正则正则表达式使用一些规则来检测一些字符串是否符合个人要求，从一段字符串中找到符合要求的内容。在 ... [详细]

蜡笔小新 2024-11-14 15:52:38
get
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
byte
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
search
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
main
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
get
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
get
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
get
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
get
Android 自定义 RecycleView 左滑上下分层示例代码

为了满足项目需求，需要在多个场景中实现左滑删除功能，并且后续可能在列表项中增加其他功能。虽然网络上有很多左滑删除的示例，但大多数封装不够完善。因此，我们尝试自己封装一个更加灵活和通用的解决方案。 ... [详细]

蜡笔小新 2024-11-13 17:43:59
get
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
python
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
get
Android 系统版本号获取方法详解

本文详细介绍了如何在 Android 应用中获取系统的版本号，包括具体的应用场景和实现步骤。 ... [详细]

蜡笔小新 2024-11-12 14:43:24

俞承豪那个男人-

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章