python3[爬虫基础入门实战]爬取豆瓣电影排行top250

作者：手机用户2602906305_849 | 来源：互联网 | 2023-05-17 12:43

先来张爬取结果的截图再来份代码吧#encodingutf8importrequestsimportrefrombs4importBeautifulSo

先来张爬取结果的截图

再来份代码吧

# encoding=utf8
import requests
import re
from bs4 import BeautifulSoup
from tkinter import scrolledtext  # 导入滚动文本框的模块

from tkinter import ttk
import tkinter as tk

import threading


# 获取网页内容
def getHtml(ID):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % ID
    print('url ' + url)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'
        ,
        'COOKIE': 'bid=I0klBiKF3nQ; ll="118277"; gr_user_id=ffdf2f63-ec37-49b5-99e8-0e0d28741172; ap=1; _vwo_uuid_v2=8C5B24903B1D1D3886FE478B91C5DE97|7eac18658e7fecbbf3798b88cfcf6113; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1498305874%2C%22https%3A%2F%2Fbook.douban.com%2Ftag%2F%25E9%259A%258F%25E7%25AC%2594%3Fstart%3D20%26type%3DT%22%5D; _pk_id.100001.4cf6=4e61f4192b9486a8.1485672092.5.1498306809.1498235389.; _pk_ses.100001.4cf6=*'

    }
    req = requests.get(url, headers)
    return req.text


# 解析网页并且获取相应内容
def parseHtml(html):
    # soup = BeautifulSoup(html,'lxml') # 现在改为用正则
    print('init html.....')
    # print(html)

    # 1 取出title
    # titleRe = r'(.*?)'
    titleRe = r'(.[^&]*?)'  # 这里除去了副标题，（根据  空格号进行筛选）
    regTitle = re.compile(titleRe)
    titleStr = re.findall(regTitle, html)
    # print(titleStr)
    # for verTitle in titleStr:
    # print(verTitle)


    # 2 取出评分
    retStars = r'.*?"v:average">(.*?)'
    regStars = re.compile(retStars)
    starts = re.findall(regStars, html)
    # print(starts)

    # 取出评价
    regCommend = r'(.*?)'
    regCommends = re.compile(regCommend)
    commends = []
    commends = re.findall(regCommends, html)
    # print(commends)
    commends.remove('·')
    commends.remove('更多')
    commends.remove('{{= year}}')
    commends.remove('{{= sub_title}}')
    commends.remove('{{= address}}')
    commends.remove('集数未知')
    commends.remove('共{{= episode}}集')
    # print(commends)

    # 取出导演，剧情（未实现）
    # regDoc= r'.*?(.*?)
'
    # regxDoc = re.compile(regDoc)
    # list_doc = re.findall(regxDoc,html)
    # print(list_doc)
    # print('*'*40)

    # 片言(未实现)
    # regAction = r'
.*?
(.*?)
'
    # regx_action = re.compile(regAction)
    # list_action = re.findall(regx_action,html)
    # print(list_action)

    # 取出引言 希望让人自由
    regScrip = r'.*?"inq">(.*?)'
    regx_scrip = re.compile(regScrip)
    list_scrip = re.findall(regx_scrip, html)
    # print(list_scrip)

    # 取出图片地址(未实现)
    # regImg = r'.*?src= "(.*?)"'
    # regx_img = re.compile(regImg)
    # list_imgaddress = re.findall(regx_img,html)
    # print(list_imgaddress)

    ver_info = list(zip(titleStr, commends, list_scrip))
    return ver_info


# html = getHtml(0)
# ver_infos = parseHtml(html)
# print(ver_infos)


def write():
    print('开始爬取内容')
    ID = 0
    nums = 0
    while ID <250:
        html = getHtml(ID)
        ver_infos = parseHtml(html)
        ID += 25
        for ver in ver_infos:
            varStr = 'No.%d\t%-30s%s\t(描述:)%-30s' % (nums, ver[0], ver[1],ver[2])
            print(varStr)
            nums += 1
            print('爬取成功'+str(nums))
def start():
    print('start init ....')
    t1 = threading.Thread(target=write())
    t1.start()

start()
# 以下方法丢弃
# def save():
# print('save init ...')
# cOntent= name.get()
# textFile = open(u'C:\\豆瓣电影排行250.txt')
# textFile.write(content)
# textFile.close()
#
# print('^'*40)
# win = tk.Tk()
# win.title('呵呵呵')
#
# # 滚动文本框
# scrolW = 30 # 设置文本框的长度
# scrolH = 3 # 设置文本框的高度
# scr = scrolledtext.ScrolledText(win, hljs-comment"># scr.grid(column=0, columnspan=3)
#
# # 文本框
# name = tk.StringVar() # StringVar是Tk库内部定义的字符串变量类型，在这里用于管理部件上面的字符；不过一般用在按钮button上。改变StringVar，按钮上的文字也随之改变。
# nameEntered = ttk.Entry(win, hljs-comment"># nameEntered.grid(column=0, row=4) # 设置其在界面中出现的位置 column代表列 row 代表行
# nameEntered.focus() # 当程序运行时,光标默认会出现在该文本框中
#
# # 添加开始按钮
# start = ttk.Button(win,text='开始',command=start())
# start.grid(column=0,row=0) #按钮的添加位置
#
# # 保存按钮
# save = ttk.Button(win,text='保存',command=save())
# save.grid(column=1,row=0)
#
# win.mainloop()

这次用的是正则来获取内容的，有两个字段在正则上卡住了，问了群里也没有人回，就暂且写到这吧。还是获取的静态html的页面。

遇到的知识点:

正则的简单写法：例如 regCommend = r'(.*?)'

  # 取出引言 希望让人自由
    regScrip = r'.*?"inq">(.*?)'

集合的去掉不要的元素：

    commends.remove('·')
    commends.remove('更多')
    commends.remove('{{= year}}')
    commends.remove('{{= sub_title}}')
    commends.remove('{{= address}}')
    commends.remove('集数未知')
    commends.remove('共{{= episode}}集')

整理成一条信息：

 ver_info = list(zip(titleStr, commends, list_scrip))

用了一个线程爬取，我也不知道这是单线程爬取，反正是第一次加入吧。

    t1 = threading.Thread(target=write())
    t1.start()

今天晚上用的最多的时间是GUI方面

过程：

本来数据在正则那稍微花了点时间，但是在GUI方面花的却是很长时间，搞的自己蒙圈了。在这里应该给自己提一个醒，东西一次性不要学太多，一个一个慢慢的学虽然一次性学的东西不会很多，但是学的印象会深刻很多。所以，归总一下，这次学的算是上面的几点吧，主要是现在是敢要正则这玩意了，虽然用的很浅，但是，现在是对python3 不那么陌生。之前是一个都搞不出来。现在是稍微有点入门的感觉，离自己想要的还有很长很长的路啊。。