热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

只要30行代码!7步教会你Python爬取网页抖音热门视频

前言抖音短视频相信大家都听过,也不陌生对吧!可以看到海量的短视频,涵盖了各大行业。个人觉得抖音有毒,刷着刷着根本停不下来&

前言

抖音短视频相信大家都听过,也不陌生对吧!可以看到海量的短视频,涵盖了各大行业。个人觉得抖音有毒,刷着刷着根本停不下来,一看时间就是凌晨3、4点。今天带大家爬取抖音网页版的视频数据!一睹为快吧

本篇文章内容:

1、系统分析网页性质

2、正则提取数据(难点)

3、海量音频数据保存

环境介绍:

python 3.6
pycharm
requests
re

爬虫的一般思路

1、分析目标网页,确定爬取的url路径,headers参数

2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据

3、解析数据 -- 正则表达式

4、保存数据 -- 保存在目标文件夹中

只要30行代码!7步教会你Python爬取网页抖音热门视频

 

步骤:

1、导入工具

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

2、分析目标网页,确定爬取的url路径,headers参数

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

只要30行代码!7步教会你Python爬取网页抖音热门视频

 

只要30行代码!7步教会你Python爬取网页抖音热门视频

 

3、发送请求 -- requests 模拟浏览器发送请求,获取响应数据

response = requests.get(url=base_url, headers=headers)
html_data = response.text

4、解析数据 -- 正则表达式

pattern = re.compile('onclick="open1\(\'(.*?)\',\'(.*?)\',\'\'\)')
result = pattern.findall(html_data)
print(result)

5、构建一个for循环

for page in range(8, 10):print('===================正在取第{}页数据================='.format(page))# 1、分析目标网页,确定爬取的url路径,headers参数base_url = 'http://douyin.bm8.com.cn/d_{}.html'.format(page)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

6、处理文件名非法字符

def change_title(title):pattern &#61; re.compile(r"[\/\\\:\*\?\"\<\>\|]") # &#39;/ \ : * ? " <> |&#39;new_title &#61; re.sub(pattern, "_", title) # 替换为下划线return new_title

7、保存数据 -- 保存在目标文件夹中

for title, url in result:# 请求抖音视频数据data &#61; requests.get(url&#61;url, headers&#61;headers).contentnew_title &#61; change_title(title)with open(&#39;videos\\&#39; &#43; new_title &#43; &#39;.mp4&#39;, mode&#61;&#39;wb&#39;) as f:f.write(data)print(&#39;保存完成:&#39;, title)

只要30行代码&#xff01;7步教会你Python爬取网页抖音热门视频


推荐阅读
author-avatar
书友54330525
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有