热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:requests模块学习

篇首语:本文由编程笔记#小编为大家整理,主要介绍了requests模块学习相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了requests模块学习相关的知识,希望对你有一定的参考价值。



import requests
url
= https://item.jd.com/2967929.html
try:
r
= requests.get(url)
r.raise_for_status()
r.encoding
= r.apparent_encoding
print(r.text[:1000])
except:
print("抓取失败")

抓jd产品页面信息^

 


import requests
url
= https://www.amazon.cn/gp/product/B01M8L5Z3Y
try:
kv
= {user-agent:Mozilla/5.0}
r
= requests.get(url,headers = kv)
r.raise_for_status()
r.encoding
= r.apparent_encoding
print(r.text[1000:2000])
except:
print("抓取失败")

抓z产品页面信息,较jd页面,加入headers参数,意在说明,有些网站屏蔽程序访问页面。^

 


import requests
keyword
= Python
try:
kv
= {wd:keyword}
r
= requests.get(http://www.baidu.com/s,params=kv)
# 百度搜索URL一般为:http://www.baidu.com/s?wd=关键字
# params参数加了“?wd=Python",现在(20200225)还需参考z产品页面抓取示例,百度也有屏蔽user-agent为python
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print("抓取失败")

通过代码提交关键字搜索,并抓取页面,上文注释具体情况如下:^


print(r.request.headers)
#{‘User-Agent‘: ‘python-requests/2.22.0‘, ‘Accept-Encoding‘: ‘gzip, deflate‘, ‘Accept‘: ‘*/*‘, ‘Connection‘: ‘keep-alive‘}

r = requests.get(‘http://www.baidu.com/s‘,params=kv)
改为:

r = requests.get(‘http://www.baidu.com/s‘,headers={‘user-agent‘:‘Mozilla/5.0‘}params=kv)

 


import requests
import os
url
= http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg
root
= "D://pics//"
path
= root +url.split(/)[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r
= requests.get(url)
with open(path,
wb) as f:
f.write(r.content)
# 写二进制文件内容
f.close()
print(保存文件成功)
else:
print(文件已存在)
except:
print("抓取失败")

保存国家地理杂志网站的一幅图片^

 


import requests
import re
c
= re.compile(r"

  • (.*?)
  • ") # 非贪婪模式

    url
    = http://www.ip138.com/iplookup.asp?ip=
    try:
    r
    = requests.get(url + 202.204.80.112 + &action=2,headers={User-Agent:Mozilla/5.0})  # url较教程做了调整
    r.raise_for_status()
    r.encoding
    = r.apparent_encoding
    cMatch
    = c.search(str(r.text))
    print(cMatch.group(1))
    except:
    print("抓取失败")

    地址所属地查询^,比嵩天老师的代码多了re表达式,直接匹配出结果


    D:python_workvenvScriptspython.exe D:/python_work/test.py
    本站数据:北京市海淀区 北京理工大学 教育网
    Process finished with exit code 0

     


    推荐阅读
    • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
    • 如何实现织梦DedeCms全站伪静态
      本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
    • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
    • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
    • 开发笔记:加密&json&StringIO模块&BytesIO模块
      篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
    • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
    • sklearn数据集库中的常用数据集类型介绍
      本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
    • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
    • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
    • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
    • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
    • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
    • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
    • Java序列化对象传给PHP的方法及原理解析
      本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
    • Windows下配置PHP5.6的方法及注意事项
      本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
    author-avatar
    mobiledu2502868653
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有