python爬虫下载链接_python爬虫下载链接

作者：晓晓鱼美人 | 来源：互联网 | 2023-09-16 13:36

使用requests获取html后，分析html中的标签发现所需要的链接在中然后分别获却和中的内容，使用xpath时可以写成xpath(table[cl

使用requests获取html后&＃xff0c;分析html中的标签发现所需要的链接在

中

然后分别获却和中的内容 &＃xff0c;使用xpath时可以写成xpath(&＃39;//table[&＃64;class&＃61;"list"]/tr[&＃64;class&＃61;"even" or "odd"]/td/span/a[1]/&＃64;href&＃39;)

import re

import requests

import urllib2

from lxml import etree

url&＃61;&＃39;https://pypi.python.org/pypi/lxml/2.3/&＃39;

head&＃61;{&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36&＃39;}

def gethtml(url, *args):

html &＃61; requests.get(url, *args).content

return html

def writfile(cont):

try:

fd &＃61; open(&＃39;x.txt&＃39;, &＃39;w&＃39;)

try:

fd.write(cont)

finally:

fd.close()

except IOError:

print "file not existing!"

def readfile():

try:

fd &＃61; open(&＃39;x.txt&＃39;, &＃39;r&＃39;)

try:

all_the_text &＃61; fd.read()

finally:

fd.close()

except IOError:

print "File open error !"

return all_the_text

html &＃61; gethtml(url, head)

writfile(html)

all_text &＃61; readfile()

dom &＃61; etree.HTML(all_text)

url_list &＃61; dom.xpath(&＃39;//table[&＃64;class&＃61;"list"]/tr[&＃64;class&＃61;"even" or "odd"]/td/span/a[1]/&＃64;href&＃39;)

for url in url_list:

print url

经测试&＃xff0c;可以正常获取对应的下载链接。作为初学者&＃xff0c;代码有很多不当地方&＃xff0c;还请大牛审阅之后加以指正。

推荐阅读

header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
header
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
range
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
text
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
text
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
text
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
text
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
select
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
select
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
get
探索Web 2.0新概念：Widget

尽管你可能尚未注意到Widget，但正如几年前对RSS的陌生一样，这一概念正逐渐走入大众视野。据美国某权威杂志预测，2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]

蜡笔小新 2024-11-12 18:36:54
select
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
header
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
header
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
text
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
io
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56

晓晓鱼美人

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章