Python爬虫模拟登陆教务处并且保存数据到本地

作者：mobiledu2502938737 | 来源：互联网 | 2017-05-14 02:44

刚开始接触Python，看很多人玩爬虫我也想玩，找来找去发现很多人用网络爬虫干的第一件事就是模拟登陆，增加点难度就是模拟登陆后在获取数据，但是网上好少有Python3.x的模拟登陆Demo可以参考，加上自己也不怎么懂Html，所以这第一个Python爬虫写的异常艰难，不过最终结果还是尽如人意的，下面把这次学习的过程整理一下。工具系统：win764位系统浏览器：ChromePython版本：P...

刚开始接触#wiki/1514.html" target="_blank">Python，看很多人玩爬虫我也想玩，找来找去发现很多人用网络爬虫干的第一件事就是模拟登陆，增加点难度就是模拟登陆后在获取数据，但是网上好少有Python 3.x的模拟登陆Demo可以参考，加上自己也不怎么懂Html，所以这第一个Python爬虫写的异常艰难，不过最终结果还是尽如人意的，下面把这次学习的过程整理一下。

工具

系统：win7 64位系统
浏览器：Chrome
Python版本：Python 3.5 64-bit
IDE：JetBrains PyCharm (貌似很多人都用这个)

我把目标瞄准了我们的教务处，这次爬虫的目的是从教务处获取成绩并且把成绩输入Excel表格中保存起来，我们学校教务处的地址是：http://jwc.ecjtu.jx.cn/ ，往常每次我们获取成绩都需要先进入教务处，然后点击成绩查询，输入公共的账号密码进入，最后输入相关信息获取成绩表格，这里登陆不需要验证码省了我一番功夫，这样我们先进入成绩查询系统登陆界面，先看看怎么模拟登陆这个过程，在Chrome浏览器下按F12打开开发者面板：

查看表单数据

这里看到我们需要传递三个参数，分别是：user、pass、Submit，可以很容易的理解这几个单词的字面意思，这样有了思路，我们就可以写出这次代码的第一步：模拟登陆教务处直接上代码:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import requests
url = &＃39;http://jwc.ecjtu.jx.cn/mis_o/login.php&＃39;
datas = {&＃39;user&＃39;: &＃39;jwc&＃39;,
         &＃39;pass&＃39;: &＃39;jwc&＃39;,
         &＃39;Submit&＃39;: &＃39;%CC%E1%BD%BB&＃39;
         }
headers = {&＃39;Referer&＃39;: &＃39;http://jwc.ecjtu.jx.cn/mis_o/login.htm&＃39;,
           &＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 &＃39;
                         &＃39;(KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36&＃39;,
           &＃39;Accept&＃39;: &＃39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&＃39;,
           &＃39;Accept-Language&＃39;: &＃39;zh-CN,zh;q=0.8&＃39;,
           }
sessiOns= requests.session()
respOnse= sessions.post(url, headers=headers, data=datas)
print(response.status_code)

代码输出：

说明我们模拟登陆成功了，这里用到了Requests模块，还不会使用的可以查看中文文档，它给自己的定义是：HTTP for Humans，因为简单易用易上手，我们只需要传入Url地址，构造请求头，传入post方法需要的数据，就可以模拟浏览器登陆了，这里因为有进一步获取成绩的操作所以使用了session来保持连接，这里单看最后的返回码的话我们是成功了的，具体如何还要看下一步操作，接下来：

查看post数据

因为这里就分析输入学号的情况所以其他都为空，这样我们就可以写出查询成绩的代码：

    score_healders = {&＃39;Connection&＃39;: &＃39;keep-alive&＃39;,
                      &＃39;User - Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) &＃39;
                                      &＃39;AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36&＃39;,
                      &＃39;Content - Type&＃39;: &＃39;application / x - www - form - urlencoded&＃39;,
                      &＃39;Accept&＃39;: &＃39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&＃39;,
                      &＃39;Content - Length&＃39;: &＃39;69&＃39;,
                      &＃39;Host&＃39;: &＃39;jwc.ecjtu.jx.cn&＃39;,
                      &＃39;Referer&＃39;: &＃39;http: // jwc.ecjtu.jx.cn / mis_o / main.php&＃39;,
                      &＃39;Upgrade - Insecure - Requests&＃39;: &＃39;1&＃39;,
                      &＃39;Accept - Language&＃39;: &＃39;zh - CN, zh;q = 0.8&＃39;
                      }
    score_url = &＃39;http://jwc.ecjtu.jx.cn/mis_o/query.php?start=&＃39; + str(
        pagenum) + &＃39;&job=see&=&Name=&Course=&ClassID=&Term=&StuID=&＃39; + num
    score_data = {&＃39;Name&＃39;: &＃39;&＃39;,
                  &＃39;StuID&＃39;: num,
                  &＃39;Course&＃39;: &＃39;&＃39;,
                  &＃39;Term&＃39;: &＃39;&＃39;,
                  &＃39;ClassID&＃39;: &＃39;&＃39;,
                  &＃39;Submit&＃39;: &＃39;%B2%E9%D1%AF&＃39;
                  }

    score_respOnse= sessions.post(score_url, data=score_data, headers=score_healders)
    cOntent= score_response.content

这里解释一下上面的代码，上面的score_url 并不是浏览器上显示的地址，我们要获取真正的地址，在Chrome下右键--查看网页源代码，找到这么一行：

a href=query.php?start=1&job=see&=&Name=&Course=&ClassID=&Term=&StuID=xxxxxxx

这个才是真正的地址，点击这个地址转入的才是真正的界面，因为这里成绩数据较多，所以这里采用了分页显示，这个start=1说明是第一页，这个参数是可变的需要我们传入，还有StuID后面的是我们输入的学号，这样我们就可以拼接出Url地址：

score_url = &＃39;http://jwc.ecjtu.jx.cn/mis_o/query.php?start=&＃39; + str(pagenum) + &＃39;&job=see&=&Name=&Course=&ClassID=&Term=&StuID=&＃39; + num

同样使用Post方法传递数据并获取响应的内容：

score_respOnse= sessions.post(score_url, data=score_data,headers=score_healders)
cOntent= score_response.content

这里采用Beautiful Soup 4.2.0来解析返回的响应内容，因为我们要获取的是成绩，这里到教务处成绩查询界面，查看获取到的成绩在网页中是以表格的形式存在：

观察表格的网页源代码：


...
...

学期
学号
姓名
课程
课程要求
学分
成绩
重考一
重考二

这里拿出第一行举例，虽然我不太懂Html但是从这里可以看出来代表的是一行，而应该是代表这一行中的每一列，这样就好办了，取出每一行然后分解出每一列，打印输出就可以得到我们要的结果：

from bs4 import BeautifulSoup
soup = BeautifulSoup(content, &＃39;html.parser&＃39;)
# 找到每一行
target = soup.findAll(&＃39;tr&＃39;)

这里分解每一列的时候要小心，因为这里表格分成了三页显示，每页最多显示30条数据，这里因为只是收集已经毕业的学生的成绩数据所以不对其他数据量不足的学生成绩的情况做统计，默认收集的都是大四毕业的学生成绩数据。这里采用两个变量i和j分别代表行和列：

# 注:这里的print单纯是我为了验证结果打印在PyCharm的控制台上而已
i=0, j=0
for tag in target[1:]:
            tds = tag.findAll(&＃39;td&＃39;)
            # 每一次都是从列头开始获取
            j = 0
            # 学期
            semester = str(tds[0].string)
            if semester == &＃39;None&＃39;:
                break
            else:
                print(semester.ljust(6) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            # 学号
            studentid = tds[1].string
            print(studentid.ljust(14) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 姓名
            name = tds[2].string
            print(name.ljust(3) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 课程
            course = tds[3].string
            print(course.ljust(20, &＃39; &＃39;) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 课程要求
            requirments = tds[4].string
            print(requirments.ljust(10, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 学分
            scredit = tds[5].string
            print(scredit.ljust(2, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 成绩
            achievement = tds[6].string
            print(achievement.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 重考一
            reexaminef = tds[7].string
            print(reexaminef.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            # 重考二
            reexamines = tds[8].string
            print(reexamines.ljust(2) + &＃39;\t\t&＃39;)
            j += 1
            i += 1

这里查了很多别人的博客都是用正则表达式来分解数据，表示自己的正则写的并不好也尝试了但是没成功，所以无奈选择这种方式，如果有人有测试成功的正则欢迎跟我说一声，我也学习学习。

把数据保存到Excel

因为已经清楚了这个网页保存成绩的具体结构，所以顺着每次循环解析将数据不断加以保存就是了，这里使用xlwt写入数据到Excel，因为xlwt模块打印输出到Excel中的样式宽度偏小，影响观看，所以这里还加入了一个方法去控制打印到Excel表格中的样式:

file = xlwt.Workbook(encoding=&＃39;utf-8&＃39;)
table = file.add_sheet(&＃39;achieve&＃39;)
# 设置Excel样式
def set_style(name, height, bold=False):
    style = xlwt.XFStyle()  # 初始化样式
    fOnt= xlwt.Font()  # 为样式创建字体
    font.name = name  # &＃39;Times New Roman&＃39;
    font.bold = bold
    font.color_index = 4
    font.height = height
    style.fOnt= font
    return style

运用到代码中：

for tag in target[1:]:
            tds = tag.findAll(&＃39;td&＃39;)
            j = 0
            # 学期
            semester = str(tds[0].string)
            if semester == &＃39;None&＃39;:
                break
            else:
                print(semester.ljust(6) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
                table.write(i, j, semester, set_style(&＃39;Arial&＃39;, 220))
            # 学号
            studentid = tds[1].string
            print(studentid.ljust(14) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, studentid, set_style(&＃39;Arial&＃39;, 220))
            table.col(i).width = 256 * 16
            # 姓名
            name = tds[2].string
            print(name.ljust(3) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, name, set_style(&＃39;Arial&＃39;, 220))
            # 课程
            course = tds[3].string
            print(course.ljust(20, &＃39; &＃39;) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, course, set_style(&＃39;Arial&＃39;, 220))
            # 课程要求
            requirments = tds[4].string
            print(requirments.ljust(10, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, requirments, set_style(&＃39;Arial&＃39;, 220))
            # 学分
            scredit = tds[5].string
            print(scredit.ljust(2, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, scredit, set_style(&＃39;Arial&＃39;, 220))
            # 成绩
            achievement = tds[6].string
            print(achievement.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, achievement, set_style(&＃39;Arial&＃39;, 220))
            # 重考一
            reexaminef = tds[7].string
            print(reexaminef.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, reexaminef, set_style(&＃39;Arial&＃39;, 220))
            # 重考二
            reexamines = tds[8].string
            print(reexamines.ljust(2) + &＃39;\t\t&＃39;)
            j += 1
            table.write(i, j, reexamines, set_style(&＃39;Arial&＃39;, 220))
            i += 1

file.save(&＃39;demo.xls&＃39;)

最后稍加整合，写成一个方法：

# 获取成绩
# 这里num代表输入的学号，pagenum代表页数，总共76条数据，一页30条所以总共有三页
def getScore(num, pagenum, i, j):
    score_healders = {&＃39;Connection&＃39;: &＃39;keep-alive&＃39;,
                      &＃39;User - Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) &＃39;
                                      &＃39;AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36&＃39;,
                      &＃39;Content - Type&＃39;: &＃39;application / x - www - form - urlencoded&＃39;,
                      &＃39;Accept&＃39;: &＃39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&＃39;,
                      &＃39;Content - Length&＃39;: &＃39;69&＃39;,
                      &＃39;Host&＃39;: &＃39;jwc.ecjtu.jx.cn&＃39;,
                      &＃39;Referer&＃39;: &＃39;http: // jwc.ecjtu.jx.cn / mis_o / main.php&＃39;,
                      &＃39;Upgrade - Insecure - Requests&＃39;: &＃39;1&＃39;,
                      &＃39;Accept - Language&＃39;: &＃39;zh - CN, zh;q = 0.8&＃39;
                      }
    score_url = &＃39;http://jwc.ecjtu.jx.cn/mis_o/query.php?start=&＃39; + str(
        pagenum) + &＃39;&job=see&=&Name=&Course=&ClassID=&Term=&StuID=&＃39; + num
    score_data = {&＃39;Name&＃39;: &＃39;&＃39;,
                  &＃39;StuID&＃39;: num,
                  &＃39;Course&＃39;: &＃39;&＃39;,
                  &＃39;Term&＃39;: &＃39;&＃39;,
                  &＃39;ClassID&＃39;: &＃39;&＃39;,
                  &＃39;Submit&＃39;: &＃39;%B2%E9%D1%AF&＃39;
                  }

    score_respOnse= sessions.post(score_url, data=score_data, headers=score_healders)
    # 输出到文本
    with open(&＃39;text.txt&＃39;, &＃39;wb&＃39;) as f:
        f.write(score_response.content)
    cOntent= score_response.content
    soup = BeautifulSoup(content, &＃39;html.parser&＃39;)
    target = soup.findAll(&＃39;tr&＃39;)
    try:
        for tag in target[1:]:
            tds = tag.findAll(&＃39;td&＃39;)
            j = 0
            # 学期
            semester = str(tds[0].string)
            if semester == &＃39;None&＃39;:
                break
            else:
                print(semester.ljust(6) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
                table.write(i, j, semester, set_style(&＃39;Arial&＃39;, 220))
            # 学号
            studentid = tds[1].string
            print(studentid.ljust(14) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, studentid, set_style(&＃39;Arial&＃39;, 220))
            table.col(i).width = 256 * 16
            # 姓名
            name = tds[2].string
            print(name.ljust(3) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, name, set_style(&＃39;Arial&＃39;, 220))
            # 课程
            course = tds[3].string
            print(course.ljust(20, &＃39; &＃39;) + &＃39;\t\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, course, set_style(&＃39;Arial&＃39;, 220))
            # 课程要求
            requirments = tds[4].string
            print(requirments.ljust(10, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, requirments, set_style(&＃39;Arial&＃39;, 220))
            # 学分
            scredit = tds[5].string
            print(scredit.ljust(2, &＃39; &＃39;) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, scredit, set_style(&＃39;Arial&＃39;, 220))
            # 成绩
            achievement = tds[6].string
            print(achievement.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, achievement, set_style(&＃39;Arial&＃39;, 220))
            # 重考一
            reexaminef = tds[7].string
            print(reexaminef.ljust(2) + &＃39;\t\t&＃39;, end=&＃39;&＃39;)
            j += 1
            table.write(i, j, reexaminef, set_style(&＃39;Arial&＃39;, 220))
            # 重考二
            reexamines = tds[8].string
            print(reexamines.ljust(2) + &＃39;\t\t&＃39;)
            j += 1
            table.write(i, j, reexamines, set_style(&＃39;Arial&＃39;, 220))
            i += 1
    except:
        print(&＃39;出了一点小Bug&＃39;)
    file.save(&＃39;demo.xls&＃39;)

在模拟登陆操作后增加一个判断：

# 判断是否登陆
def isLogin(num):
    return_code = response.status_code
    if return_code == 200:
        if re.match(r"^\d{14}$", num):
            print(&＃39;请稍等&＃39;)
        else:
            print(&＃39;请输入正确的学号&＃39;)
        return True
    else:
        return False

最后在main中这么调用：

if name == &＃39;main&＃39;:
    num = input(&＃39;请输入你的学号：&＃39;)
    if isLogin(num):
        getScore(num, pagenum=0, i=0, j=0)
        getScore(num, pagenum=1, i=31, j=0)
        getScore(num, pagenum=2, i=62, j=0)

在PyCharm下按alt+shift+x快捷键运行程序：

最终获取结果

至此，大功告成

以上就是Python爬虫模拟登陆教务处并且保存数据到本地的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

int
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
int
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
import
利用Selenium与ChromeDriver实现豆瓣网页全屏截图

本文介绍了一种使用Selenium和ChromeDriver结合Python代码，轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行，而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]

蜡笔小新 2024-12-22 15:17:55
go
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
header
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
int
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
list
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
list
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
int
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
int
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
instance
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
instance
Vue 开发与调试工具指南

本文介绍了如何使用 Vue 调试工具，包括克隆仓库、安装依赖包、构建项目以及在 Chrome 浏览器中加载扩展的详细步骤。 ... [详细]

蜡笔小新 2024-12-20 16:28:04
int
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
list
Python中将列表转换为字符串的方法

本文介绍了如何在Python中使用join()方法将列表中的元素连接成一个字符串。join()方法允许用户指定分隔符，从而灵活地生成所需格式的字符串。此外，我们还将探讨一些实际应用中的注意事项和技巧。 ... [详细]

蜡笔小新 2024-12-26 16:25:13
int
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23

mobiledu2502938737

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章