使用python爬虫模拟12306登录方法

作者：郭怡如珮尧琼江 | 来源：互联网 | 2017-05-14 02:44

这篇文章介绍使用python爬虫模拟12306登录方法

试了好久登录的时候总是显示:系统忙,请刷新,,,太折磨人了,搞了半天才想到是请求头部的问题.....

验证码还是要人工识图..

#!/bin/env python
# -*- coding=utf-8 -*-
import ssl
import sys
import urllib2
import random
import httplib
import json
from COOKIElib import LWPCOOKIEJar
import urllib
import re
import getpass
 
reload(sys)
sys.setdefaultencoding(&＃39;UTF8&＃39;)
COOKIEjar = LWPCOOKIEJar()
COOKIEsuppor = urllib2.HTTPCOOKIEProcessor(COOKIEjar)
opener = urllib2.build_opener(COOKIEsuppor, urllib2.HTTPHandler)
urllib2.install_opener(opener)
ssl._create_default_https_cOntext= ssl._create_unverified_context
codeimg = &＃39;https://kyfw.12306.cn/otn/passcodeNew/getPassCodeNew?module=login&rand=sjrand&%s&＃39; % random.random()
 
baner = """
##################################
    12306登录脚本,作者Mr RJL
    python版本:2.7,适用于linux
    验证码输入方式:
    输入问题对应的图片序号,1-8;
    多个以&＃39;,&＃39;分隔.如:1,2,3
##################################
"""
def get(url):
    try:
        request = urllib2.Request(url=url)
        # req.add_header(&＃39;User-Agent&＃39;, &＃39;Mozilla/5.0 (X11; Fedora; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0&＃39;)
        request.add_header("Content-Type", "application/x-www-form-urlencoded; charset=utf-8")
        request.add_header(&＃39;X-Requested-With&＃39;, &＃39;xmlHttpRequest&＃39;)
        request.add_header(&＃39;User-Agent&＃39;,
                           &＃39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.154 Safari/537.36&＃39;)
        request.add_header(&＃39;Referer&＃39;, &＃39;https://kyfw.12306.cn/otn/login/init&＃39;)
        request.add_header(&＃39;Accept&＃39;, &＃39;*/*&＃39;)
        result = urllib2.urlopen(request).read()
        assert isinstance(result, object)
        return result
    except httplib.error as e:
        print e
        pass
    except urllib2.URLError as e:
        print e
        pass
    except urllib2.HTTPBasicAuthHandler, urllib2.HTTPError:
        print &＃39;error&＃39;
        pass
 
 
def Post(url, data):
    try:
        request = urllib2.Request(url=url, data=urllib.urlencode(data))
        # req.add_header(&＃39;User-Agent&＃39;, &＃39;Mozilla/5.0 (X11; Fedora; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0&＃39;)
        # request = urllib2.Request(ajax_url, urllib.urlencode(dc))
        request.add_header("Content-Type", "application/x-www-form-urlencoded; charset=utf-8")
        request.add_header(&＃39;X-Requested-With&＃39;, &＃39;xmlHttpRequest&＃39;)
        request.add_header(&＃39;User-Agent&＃39;,
                           &＃39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.154 Safari/537.36&＃39;)
        request.add_header(&＃39;Referer&＃39;, &＃39;https://kyfw.12306.cn/otn/login/init&＃39;)
        request.add_header(&＃39;Accept&＃39;, &＃39;*/*&＃39;)
        # request.add_header(&＃39;Accept-Encoding&＃39;, &＃39;gzip, deflate&＃39;)
        result = urllib2.urlopen(request).read()
        return result
    except httplib.error as e:
        return e
    except urllib2.URLError as e:
        return e
    except urllib2.HTTPBasicAuthHandler, urllib2.HTTPError:
        return &＃39;error&＃39;
 
 
def COOKIEtp():
    stoidinput("获取COOKIE")
    Url = "https://kyfw.12306.cn/otn/login/init"
    get(Url)
    for index, c in enumerate(COOKIEjar):
        stoidinput(c)
 
 
def getImg():
    stoidinput("下载验证码...")
    result = get(codeimg)
    try:
        if open(&＃39;/tmp/tkcode&＃39;, &＃39;wb&＃39;).write(result) :
            import os
            os.system("oeg /tmp/tkcode &")
        else:
            return False
    except OSError as e:
        print e
        pass
 
 
def stoidinput(text):
    """
    正常信息输出
    :param text: 
    :return: 
    """
    print "\033[34m[*]\033[0m %s " % text
 
 
def errorinput(text):
    """
    错误信息输出
    :param text: 
    :return: 
    """
    print "\033[32m[!]\033[0m %s " % text
    return False
 
 
def codexy():
    """
    获取验证码
    :return: str
    """
     
    Ofset = raw_input("[*] 请输入验证码: ")
    select = Ofset.split(&＃39;,&＃39;)
    global randCode
    post = []
    offsetsX = 0  # 选择的答案的left值,通过浏览器点击8个小图的中点得到的,这样基本没问题
    offsetsY = 0  # 选择的答案的top值
    for ofset in select:
        if ofset == &＃39;1&＃39;:
            offsetsY = 46
            offsetsX = 42
        elif ofset == &＃39;2&＃39;:
            offsetsY = 46
            offsetsX = 105
        elif ofset == &＃39;3&＃39;:
            offsetsY = 45
            offsetsX = 184
        elif ofset == &＃39;4&＃39;:
            offsetsY = 48
            offsetsX = 256
        elif ofset == &＃39;5&＃39;:
            offsetsY = 36
            offsetsX = 117
        elif ofset == &＃39;6&＃39;:
            offsetsY = 112
            offsetsX = 115
        elif ofset == &＃39;7&＃39;:
            offsetsY = 114
            offsetsX = 181
        elif ofset == &＃39;8&＃39;:
            offsetsY = 111
            offsetsX = 252
        else:
            pass
        post.append(offsetsX)
        post.append(offsetsY)
    randCode = str(post).replace(&＃39;]&＃39;, &＃39;&＃39;).replace(&＃39;[&＃39;, &＃39;&＃39;).replace("&＃39;", &＃39;&＃39;).replace(&＃39; &＃39;, &＃39;&＃39;)
 
 
def login(user, passwd):
    randurl = &＃39;https://kyfw.12306.cn/otn/passcodeNew/checkRandCodeAnsyn&＃39;
    logurl = &＃39;https://kyfw.12306.cn/otn/login/loginAysnSuggest&＃39;
    surl = &＃39;https://kyfw.12306.cn/otn/login/userLogin&＃39;
    geturl = &＃39;https://kyfw.12306.cn/otn/index/initMy12306&＃39;
    randdata = {
        "randCode": randCode,
        "rand": "sjrand"
    }
    logdata = {
        "loginUserDTO.user_name": user,
        "userDTO.password": passwd,
        "randCode": randCode
    }
    ldata = {
        "_json_att": None
    }
    fresult = json.loads(Post(randurl, randdata), encoding=&＃39;utf8&＃39;)
    checkcode = fresult[&＃39;data&＃39;][&＃39;msg&＃39;]
    if checkcode == &＃39;FALSE&＃39;:
        errorinput("验证码有误,请重试")
    else:
        stoidinput("验证码通过,开始登录..")
        try:
            tresult = json.loads(Post(logurl, logdata), encoding=&＃39;utf8&＃39;)
            if tresult[&＃39;data&＃39;].__len__() == 0:
                errorinput("登录失败: %s" % tresult[&＃39;messages&＃39;][0])
            else:
 
                stoidinput("登录成功")
                sult = Post(surl, ldata)
                getUserinfo()
        except ValueError as e:
            errorinput(e)
 
 
def getUserinfo():
    """
    登录成功后,显示用户名
    :return:
    """
    url = &＃39;https://kyfw.12306.cn/otn/modifyUser/initQueryUserInfo&＃39;
    data = dict(_json_att=None)
    result = Post(url, data)
    userinfo = result
    name = r&＃39;&＃39;
    try:
        stoidinput("欢迎 %s 登录" % re.search(name, result).group(1))
    except AttributeError:
        pass
 
 
def main():
    user = raw_input("[+] 用户名(用户名/邮箱/手机): ")
    passwd = getpass.getpass("[+] 密码: ")
    if user == &＃39;&＃39; or passwd == &＃39;&＃39;:
        errorinput("用户名或密码不能为空!")
    else:
        COOKIEtp()
        getImg()
        codexy()
        login(user, passwd)
def logout():
    url = &＃39;https://kyfw.12306.cn/otn/login/loginOut&＃39;
    result = get(url)
    if result:
        stoidinput("已退出")
    else:
        errorinput("退出失败")
 
if __name__ == "__main__":
    print baner
    main()
    logout()

以上就是使用python爬虫模拟12306登录方法的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

io
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
io
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
io
优化 DOM 以提升 JavaScript 性能

本文探讨了如何通过优化 DOM 操作来提升 JavaScript 的性能，包括使用 `createElement` 函数、动画元素、理解重绘事件及处理鼠标滚动事件等关键主题。 ... [详细]

蜡笔小新 2024-11-21 18:16:19
io
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
get
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
int
Python3爬虫实战：突破网站反爬虫机制的方法

本文详细探讨了使用Python3编写爬虫时如何应对网站的反爬虫机制，通过实例讲解了如何模拟浏览器访问，帮助读者更好地理解和应用相关技术。 ... [详细]

蜡笔小新 2024-11-14 19:48:54
io
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
get
如何从Ajax加载的网页中提取数据

近期尝试从www.hub.sciverse.com网站通过编程手段获取数据时遇到问题，起初尝试使用WebBrowser控件进行数据抓取，但发现使用GET方法翻页时，返回的HTML代码始终相同。进一步探究后了解到，该网站的数据是通过Ajax异步加载的，可通过HTTP查看详细的JSON响应。 ... [详细]

蜡笔小新 2024-11-21 10:36:30
io
php + layui 文件上传以及拖拽上传

HTML:　　将文件拖拽到此区域 ... [详细]

蜡笔小新 2024-11-20 14:27:32
io
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
io
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
io
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
io
如何在PHP中计算腾讯云接口签名，实现人脸核身接口的对接与签名配置

在PHP中实现腾讯云接口签名，以完成人脸核身功能的对接与签名配置时，需要注意将文档中的POST请求改为GET请求。具体步骤包括：使用你的`secretKey`生成签名字符串`$srcStr`，格式为`GET faceid.tencentcloudapi.com?`，确保参数正确拼接，避免因请求方法错误导致的签名问题。此外，还需关注API的其他参数要求，确保请求的完整性和安全性。 ... [详细]

蜡笔小新 2024-11-08 21:58:28
io
夜灵HTML日志第10天：深入探讨浏览器兼容性与高级选择器应用

在第10天的夜灵HTML日志中，我们深入探讨了浏览器兼容性和高级选择器的应用。CSS3引入了许多新属性，但在旧版浏览器中的支持情况并不理想。然而，目前主流浏览器的最新版本已全面支持这些新特性。对于那些不支持CSS3新属性的浏览器，我们提供了多种解决方案，以确保网站在不同环境下的兼容性和用户体验。此外，我们还详细讨论了如何利用高级选择器提升页面布局的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-11-05 17:52:10
int
HTML 页面实现用户无法选中文字，提供跨浏览器兼容的禁用文本选择功能

为了实现跨浏览器兼容的禁用文本选择功能，可以通过在全局CSS样式中定义一个特定的类来禁止用户选中文本。具体做法是在全局样式表中添加一个名为 `.no-select` 的类，并在需要禁用文本选择的元素上应用该类。这样可以确保在不同浏览器中都能达到一致的效果。此外，还可以结合JavaScript进一步增强用户体验，例如在某些交互场景下动态启用或禁用文本选择功能。 ... [详细]

蜡笔小新 2024-11-05 10:04:35

郭怡如珮尧琼江

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章