热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:终于,我还是对自己的博客下手了

本文由编程笔记#小编为大家整理,主要介绍了终于,我还是对自己的博客下手了相关的知识,希望对你有一定的参考价值。爬取自己博
本文由编程笔记#小编为大家整理,主要介绍了终于,我还是对自己的博客下手了相关的知识,希望对你有一定的参考价值。

爬取自己博客曾经发布过的所有标题


import csv
import requests
from bs4 import BeautifulSoup
# https://www.cnblogs.com/hany-postq473111315/
#
https://www.cnblogs.com/hany-postq473111315/default.html?page=2
for num in range(1,44):
url
= https://www.cnblogs.com/hany-postq473111315/default.html?page= + str(num)
response
= requests.get(url)
response.raise_for_status()
response.encoding
= response.apparent_encoding
html
= response.text
soup
= BeautifulSoup(html, "html.parser")
try:
for i in range(50):
# print(soup.find_all(‘a‘,attrs={‘class‘:‘postTitle2‘})[i].text.strip(‘
‘).strip())

with open("博客园标题.txt", "a+") as f:
f.write(soup.find_all(
a,attrs={class:postTitle2})[i].text.strip(
).strip() +
)
# 向文件写入内容
print("爬取结束,并存入文件")
except:
pass



2020-06-10


推荐阅读
author-avatar
jerry613
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有