热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python豆瓣的简单爬虫

https:movie.douban.com直奔主题,给个要爬取的豆瓣电影地址,爬取热门电影名字。右键选择查看网页源码,我们可以发现在网页静态源码里,是找不到‘来电狂想

https://movie.douban.com/

直奔主题,给个要爬取的豆瓣电影地址,爬取热门电影名字。

 

右键选择查看网页源码,我们可以发现在网页静态源码里,是找不到‘来电狂想’这些关键字的。

通过检查网页,查看network下的XHR,我们可以找到对应的信息。说明我们想要爬取的这部分内容是通过Ajax从后台拿到的json数据。

copy link address得到访问的url:https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0

分析url,传入的参数:

{\'type\': \'movie\', \'tag\': \'热门\', \'page_limit\': 50, \'page_start\': 0}  # 数据类型是电影,标签是热门,返回数据总数50条,数据起始位置第0条

 

 

于是我们就可以写个脚本,将0-50条json数据里title字段的值(热门电影的名字)爬取下来。

from urllib.parse import urlencode
from urllib.request import urlopen, Request
import simplejson
import ssl

# 伪装成浏览器
ua = \'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36\'
base_url = \'https://movie.douban.com/j/search_subjects\'
d = {
    \'type\': \'movie\',
    \'tag\': \'热门\',
    \'page_limit\': 50,
    \'page_start\': 0
}

# ssl验证问题:忽略不信任的证书。就可以访问该网站
cOntext= ssl._create_unverified_context()

# url编码后,传入Request()函数;headers参数伪装浏览器
req = Request(\'{}?{}\'.format(base_url, urlencode(d)), headers={\'User-agent\': ua})

with urlopen(req, context=context) as res:
    res = simplejson.loads(res.read())  # json转dict

    for subject in res[\'subjects\']:
        print(subject[\'title\'])  # 取出电影名字
        with open(\'douban.txt\', \'a\') as f:
            f.write(subject[\'title\'] + \'\n\')

  

部分结果:

小偷家族
蜘蛛侠:平行宇宙
三次元女友
悠哉日常大王剧场版:假期活动
独家记忆番外之相信爱
波西米亚狂想曲
白蛇:缘起
谁先爱上他的
“大”人物
无敌破坏王2:大闹互联网
来电狂响
神奇动物:格林德沃之罪
无名之辈
毒液:致命守护者

 

 

写到这里还有一个小知识点想记录一下。就是爬虫中最常见遇到的有SSL导致的‘urllib.error.URLError:

其实也就是https的问题:

HTTP(HyperText Transfer Protocol)超文本传输协议是浏览器和服务器之间传递信息的一种协议。HTTP以明文的方式发送信息,不进行任何的加密。所以如果攻击者截取了浏览器和服务器之间的报文,就可以直接获得其中的信息,如果里面包含了用户名、密码、银行卡号等敏感信息就很不安全了。

HTTPS(Hypertext Transfer Protocol Secure)超文本传输安全协议在HTTP基础上加入了SSL(Secure Sockets Layer)协议构建的可进行加密传输、身份验证的网络协议,来保证数据的安全。

HTTPS通过两种方法保证数据安全:

1.建立一个信息安全通道,来保证数据传输的安全

2.确认网站的真实性

 

https http
需要CA(Cerfificate Authority)申请证书,需要一定费用 不需要CA证书
ssl加密传输 信息是明文传输
连接端口:443 连接端口:80

 

https工作原理:

1.客户端发起HTTPS请求(浏览器输入一个https网址,连接到服务器的443端口);

2.服务器端的配置(采用HTTPS协议的服务器必须有一套数字证书(一对公钥和私钥),可以自己制作(自己颁发的证书需要客户端验证通过),可以向组织申请(CA:发放、管理、废除数字证书的机构));

3.传送证书(公钥:包含证书颁发机构、过期时间等信息);

4.客户端解析证书(由客户端的TLS完成:验证公钥是否有效,如果发现异常,会弹出一个警告框,提示证书存在问题;如果没有问题,就会生成一个随机值,然后用证书对随机值加密);

5.客户端传送加密信息(传送证书加密后的随机值,让服务器端得到这个随机值。以后客户端和服务器端的通信就是通过这个随机值进行加密解密);

6.服务器端解密信息(服务器端用自己的私钥解密后,得到客户端传来的随机值(私钥)。然后内容通过该随机值(私钥)进行对称加密);

7.服务器端向客户端传输加密后的信息(这部分信息为步骤6中通过随机值进行加密的内容);

8.客户端解密信息(客户端通过该随机值对信息进行解密。所以整个过程即使被第三方监听到,也无法获取明文信息)。

 

爬虫时,会遇到因为https的ssl验证问题导致网站访问不了,通常的解决办法是在代码里忽略不信任的证书:

import ssl

url = \'https://12306.cn/index/
cOntext= ssl._create_unverified_context()
res = urlopen(url, cOntext=context)  # 忽略不信任的证书就可以正常访问了

 


推荐阅读
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • 【爬虫】关于企业信用信息公示系统加速乐最新反爬虫机制
    ( ̄▽ ̄)~又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构。升级后网站的层次结构并没有太多变化,表面上 ... [详细]
  • 使用nodejs爬取b站番剧数据,计算最佳追番推荐
    本文介绍了如何使用nodejs爬取b站番剧数据,并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据,以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • 本文介绍了如何通过conda安装Selenium的wheel文件,包括查看环境、卸载旧版本、下载新版本的wheel文件以及安装操作的步骤。同时提供了使用清华源的方法。 ... [详细]
  • Ihavethefollowingonhtml我在html上有以下内容<html><head><scriptsrc..3003_Tes ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
author-avatar
胆小的女屌丝
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有