学习资料:小猿圈https://book.apeland.cn/details/69/
一.最基本的爬取
需求:给定一个页面,爬整个页面的信息,例如爬取 的所有文本数据
1.过程:
new project–>new directory–>new python file
2.代码:
import requests
word = input('enter a word you want to search:')
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',}
url = 'https://www.sogou.com/web'
param = {'query':word,
}
response = requests.get(url=url,params=param,headers=headers)
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:fp.write(page_text)
(结果暂不放图)
二.用户自定义的查询
需求:我有想查的关键字,我要查我想查的东西,例如:在百度中搜索“”,爬去得到的搜索结果,以文本数据展现
代码:
import requests
word = input('enter a word you want to search:')
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',}
url = 'https://www.sogou.com/web'
param = {'query': word,
}
response = requests.get(url=url,params=param,headers=headers)
page_text = response.text
fileName = word+'.html'
with open(fileName, 'w', encoding='utf-8') as fp:fp.write(page_text)
(结果暂不放图)
查看:
1.点击html文件查看爬去结果,可进一步在浏览器中查看
三.爬取部分想要的信息
需求:在指定页面搜我想搜的东西,但不需要整个页面的信息,只需要部分的信息
例如:在百度翻译中发起请求,搜索“”,爬取得到的翻译结果而不是整个页面的信息
分析:
1.试一下输入一个单词,没有点击翻译它也会即时刷新,而并不是整个页面都刷新了,只是局部的刷新
2.F12打开查看响应的过程
我们发现在输入单词的过程中,输入了很多字符,最后的一次请求才是你最后得到的结果,比如输入dog,会有三个sug,第一个sug查询的是d,第二个是do,第三个是dog,这才是我们想要的
3.自定义要爬取的内容
代码:
结果:
四.爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据
1.目标
基于requests模块ajax的get请求
1.分析
param数据来源
2.代码
import requests
if __name__ == "__main__":url = 'https://movie.douban.com/j/chart/top_list?'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',}param = {'type':'5','interval_id':'100:90','action':'','start':'0','limit':'20'}response = requests.get(url=url,headers=headers,params=param)print(response.json())
3.结果
五.爬取药监局的数据 1.目标
基于requests模块ajax的get请求
1.分析
2.代码
import requests
from fake_useragent import UserAgent
ua = UserAgent(use_cache_server=False,verify_ssl=False).random
headers = {'User-Agent':ua
}
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
pageNum = 3
for page in range(3,5):data = {'on': 'true','page': str(page),'pageSize': '15','productName':'','conditionType': '1','applyname':'','applysn':''}json_text = requests.post(url=url,data=data,headers=headers).json()all_id_list = []for dict in json_text['list']:id = dict['ID']all_id_list.append(id)post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'for id in all_id_list:post_data = {'id':id}response = requests.post(url=post_url,data=post_data,headers=headers)if response.headers['Content-Type'] == 'application/json;charset=UTF-8':json_text = response.json()print(json_text['businessPerson'])
3.结果暂时不放图
注意: 1.赋值“=”两边需要空格
2.属性结束,逗号和下一个属性间需要有一个空格
冒号和下一个属性之间也需要一个空格
3.
警告:在行尾没有换行符
这种情况,你在行尾敲一下回车就行了