作者:亲家你要干啥 | 来源:互联网 | 2023-07-21 20:42
我正在尝试使用以下代码抓取网站。我只是复制了培训材料中的代码。没有弹出回溯,但我无法获得正确的结果。
代码:
import requests
from pyquery import PyQuery as pq
url="https://www.zhihu.com/explore"
headers={"User-Agent":"'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/58.0.3029.110 Safari/537.36'"}
html=requests.get(url,headers=headers).text
doc=pq(html)
items=doc(".explore-tab.feed-item").items()
for item in items:
question=item.find("h2").text()
author=item.find(".author-link-line").text()
answer=pq(item.find(".content").html()).text()
file=open("explore.txt","a",encoding="utf-8")
file.write("\n".join([question,author,answer]))
file.write("\n"+"="*50+'\n')
file.close()
结果:
ParseResult(scheme='http',netloc='www.baidu.com',path='/index.html',params='user',query='id=5',fragment='comment')
ParseResult(scheme='http',fragment='comment')
我找不到错误。我在此程序中根本没有使用过urllib.parse。
有人可以帮忙吗?
谢谢。
苏菲