热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python3爬虫从零开始:抓取天猫电影排行

抓取分析首先打开要抓取的目标站点:http:maoyan.comboard4我们需要爬取得实惠电影名称、主演、评分等信息。可以看到在这个页面只有10部影片࿰

抓取分析

    首先打开要抓取的目标站点:http://maoyan.com/board/4

    我们需要爬取得实惠电影名称、主演、评分等信息。可以看到在这个页面只有10部影片,而我们需要爬取前100,也就是需要爬取10页。

    滚动到最下方分页列表,打开下一页,可以看到页面的URL发生了变化,多了参数offset=10。根据这个规律,我们可以通过改变URL的offset参数请求10次即可。

补充:确定一个网站是否可被爬取,可以先在网站根目录下查看Robots协议确定是否可爬:

 


抓取一页

这里,我们将提取一页的代码用一个函数表示:

def get_one_page(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',}response = requests.get(url,headers = headers)if response.status_code == 200:return response.textreturn Nonedef main():url = 'http://maoyan.com/board/4'html = get_one_page(url)print(html)main()

这样就可以得到我们的页面源代码。

 


正则提取

    这里,我们要按需进行提取,网页源码信息那么多,但是我们只需要提取我们需求的影片信息。因此,需要对源码进行正则提取,首先就要找到我们需要的信息的源码部分。F12在网页中打开【开发者模式】,在【Network】中左边打开4?offset=0的文件,可以看到源代码。

!注意,不要在【Elements】中直接查看源码,因为【Elements】中的源码可能经过Javascript操作(如果有的话)与原始请求页面不一样。

 

根据我们需要提取的信息构造我们的正则表达式:

#排名信息:

.*?board-index.*?>(.*?)

#图片信息:

.*?board-index.*?>(.*?).*?data-src="(.*?)"

#名字信息:

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)

#主演等等:

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star">(.*?)

.*?releasetime">(.*?)

.*?integer">(.*?).*?fraction">(.*?).*?

def parse_one_page(html):pattern = re.compile('

.*?board-index.*?>(.*?)''.*?data-src="(.*?)".*?name.*?a.*?>(.*?)''.*?star">(.*?)

.*?releasetime">(.*?)

''.*?integer">(.*?).*?fraction">(.*?).*?
', re.S)items = re.findall(pattern,html)print(items)

结果:

 


完整代码

import reimport requestsimport jsondef get_one_page(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',}response = requests.get(url,headers = headers)if response.status_code == 200:return response.textreturn Nonedef main(offset):url = 'http://maoyan.com/board/4?offset='+ str(offset)html = get_one_page(url)for item in parse_one_page(html):write_to_file(item)#排名信息:

.*?board-index.*?>(.*?)#图片信息:
.*?board-index.*?>(.*?).*?data-src="(.*?)"#名字信息:
.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)#主演等等综合:
.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star">(.*?)

.*?releasetime">(.*?)

.*?integer">(.*?).*?fraction">(.*?).*?
def parse_one_page(html):pattern = re.compile('
.*?board-index.*?>(.*?)''.*?data-src="(.*?)".*?name.*?a.*?>(.*?)''.*?star">(.*?)

.*?releasetime">(.*?)

''.*?integer">(.*?).*?fraction">(.*?).*?
', re.S)items = re.findall(pattern,html)#整理数据#for item in items:yield{'index': item[0],'image': item[1],'title': item[2].strip(),'actor': item[3].strip()[3:],'time' : item[4].strip()[5:],'score': item[5].strip() + item[6].strip()}print(items)def write_to_file(content): #写入文件with open('result.txt','a',encoding='utf-8') as f:# print(content)f.write(json.dumps(content,ensure_ascii=False)+'\n') #json.dumps()是将dict转化成str格式if __name__ == '__main__': #这里没有这一行也可以for i in range(10):main(offset=i*10)

结果:

补充: if __name__ == '__main__'的意思是:当.py文件被直接运行时,if __name__ == '__main__'之下的代码块将被运行;当.py文件以模块形式被导入时,if __name__ == '__main__'之下的代码块不被运行。

参考见博客:https://blog.csdn.net/yjk13703623757/article/details/77918633

 

 

 


推荐阅读
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 本文深入探讨了HTTP请求和响应对象的使用,详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外,还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]
  • 本文详细探讨了HTML表单中GET和POST请求的区别,包括它们的工作原理、数据传输方式、安全性及适用场景。同时,通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]
  • 在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时,遇到了内部服务器错误(500)。本文将详细探讨问题的原因及解决方案。 ... [详细]
  • Python + Pytest 接口自动化测试中 Token 关联登录的实现方法
    本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录,内容详尽、逻辑清晰,旨在帮助读者掌握这一关键技能。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 本文详细介绍了W3C标准盒模型和IE传统盒模型的区别,探讨了CSS3中box-sizing属性的使用方法及其在布局中的重要性。通过实例分析,帮助读者更好地理解和应用这一关键概念。 ... [详细]
  • 本文详细探讨了VxWorks操作系统中双向链表和环形缓冲区的实现原理及使用方法,通过具体示例代码加深理解。 ... [详细]
  • 解决网站乱码问题的综合指南
    本文总结了导致网站乱码的常见原因,并提供了详细的解决方案,包括文件编码、HTML元标签设置、服务器响应头配置、数据库字符集调整以及PHP与MySQL交互时的编码处理。 ... [详细]
  • 作为一名专业的Web前端工程师,掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性,还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范,并提供实用的建议。 ... [详细]
  • 本问题探讨了在特定条件下排列儿童队伍的方法数量。题目要求计算满足条件的队伍排列总数,并使用递推算法和大数处理技术来解决这一问题。 ... [详细]
  • 本文探讨了为何相同的HTTP请求在两台不同操作系统(Windows与Ubuntu)的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]
  • 在编译BSP包过程中,遇到了一个与 'gets' 函数相关的编译错误。该问题通常发生在较新的编译环境中,由于 'gets' 函数已被弃用并视为安全漏洞。本文将详细介绍如何通过修改源代码和配置文件来解决这一问题。 ... [详细]
  • 使用JS、HTML5和C3创建自定义弹出窗口
    本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例,详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]
author-avatar
钢铁猪991884679
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有