当前位置: 开发笔记 > 编程语言 > 正文

利用python如何在前程无忧高效投递简历

作者：高小原gy_941 | 来源：互联网 | 2022-10-30 14:12

这篇文章主要给大家介绍了关于利用python如何在前程无忧高效投递简历的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧

前言

在前程无忧上投递简历发现有竞争力分析，免费能看到匹配度评价和综合竞争力分数，可以做投递参考

计算方式

综合竞争力得分应该越高越好，匹配度评语也应该评价越高越好

抓取所有职位关键字搜索结果并获取综合竞争力得分和匹配度评语，最后筛选得分评语自动投递合适的简历

登陆获取COOKIE

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_optiOns= Options()
# chrome_options.add_argument('--headless')
from time import sleep
import re
from lxml import etree
import requests
import os
import json

driver = webdriver.Chrome(chrome_optiOns=chrome_options,executable_path = 'D:\python\chromedriver.exe')
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
driver.get(https://search.51job.com/list/020000,000000,0000,00,9,99,%2520,2,1.html&＃63;lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lOnlat=0%2C0&radius=-1&ord_field=0&cOnfirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=)

webdriver需要在相应域名写入COOKIE，所以转到职位搜索页面

def get_COOKIE():
  driver.get("https://login.51job.com/login.php&＃63;loginway=1&lang=c&url=")
  sleep(2)
  phOne=input("输入手机号：")
  driver.find_element_by_id("loginname").send_keys(phone)
  driver.find_element_by_id("btn7").click()
  sleep(1)
  code=input("输入短信：")
  driver.find_element_by_id("phonecode").send_keys(code)
  driver.find_element_by_id("login_btn").click()
  sleep(2)
  COOKIEs = driver.get_COOKIEs()
  with open("COOKIE.json", "w")as f:
    f.write(json.dumps(COOKIEs))

检查COOKIE文件是否存在，如果不存在执行get_COOKIE把COOKIE写入文件，在登陆的时候最好不用无头模式，偶尔有滑动验证码

前程无忧手机短信一天只能发送三条，保存COOKIE下次登陆用

def get_job():
  driver.get("https://search.51job.com/list/020000,000000,0000,00,9,99,%2520,2,1.html&＃63;lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lOnlat=0%2C0&radius=-1&ord_field=0&cOnfirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")
  sleep(2)
  job=input("输入职位：")
  driver.find_element_by_id("kwdselectid").send_keys(job)
  driver.find_element_by_xpath('//button[@class="p_but"]').click()
  url=driver.current_url
  page=driver.page_source
  return url,page

在职位搜索获取职位搜索结果，需要返回页面源码和地址

分析页码结构html前的是页码，全部页码数量通过共XX页得到

def get_pages(url,page):
  tree=etree.HTML(page)
  href=[]
  x = tree.xpath('//span[@class="td"]/text()')[0]
  total_page=int(re.findall("(\d+)", x)[0])
  for i in range(1,total_page+1):
    href.append(re.sub("\d.html", f'{i}.html', url))
  return href

获取全部页码

def get_job_code(url):
  headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
  r=session.get(url,headers=headers)
  tree=etree.HTML(r.text)
  divs=tree.xpath('//div[@class="el"]/p/span/a/@href')
  job=str(divs)
  job_id=re.findall("\/(\d+).html",job)
  return job_id

获取职位id

修改id请求网址到竞争力分析页面

def get_info(job_id):
  href=f"https://i.51job.com/userset/bounce_window_redirect.php&＃63;jobid={job_id}&redirect_type=2"
  r=session.get(href,headers=headers)
  r.encoding=r.apparent_encoding
  tree=etree.HTML(r.text)
  pingjia=tree.xpath('//div[@class="warn w1"]//text()')[0].strip()
  gOngsi=[]
  for i in tree.xpath('//div[@class="lf"]//text()'):
    if i.strip():
      gongsi.append(i.strip())
  fenshu=[]
  for i in tree.xpath('//ul[@class="rt"]//text()'):
    if i.strip():
      fenshu.append(i.strip())
  url=f"https://jobs.51job.com/shanghai/{job_id}.html&＃63;s=03&t=0"
  return {"公司":gongsi[1],"职位":gongsi[0],"匹配度":pingjia,fenshu[3]:fenshu[2],"链接":url,"_id":job_id}

抓取竞争力分析页面，返回一个字典

主程序

if not os.path.exists("COOKIE.json"):
  　　get_COOKIE()
f=open("COOKIE.json","r")
COOKIEs=json.loads(f.read())
f.close()

检查COOKIE文件载入COOKIE，不存在执行get_COOKIE()把COOKIE保存到文件

session = requests.Session()
　　for COOKIE in COOKIEs: 
　　driver.add_COOKIE(COOKIE)
session.COOKIEs.set(COOKIE['name'],COOKIE['value'])
url, page = get_job()
driver.close()

在session和webdriver写入COOKIE登陆

获取第一页和url后webdriver就可以关掉了

code=[]
for i in get_pages(url,page):
  code=code+get_job_code(i)

获取的职位id添加到列表

import pymongo
client=pymongo.MongoClient("localhost",27017)
db=client["job_he"]
job_info=db["job_info"]
for i in code:
  try:
    if not job_info.find_one({"_id":i}):
      info=get_info(i)
      sleep(1)
      job_info.insert_one(info)
      print(info，"插入成功")
　　except:
    print(code)

龟速爬取，用MongDB保存结果，职位id作为索引id，插入之前检查id是否存在简单去重减少访问

吃完饭已经抓到8000个职位了，筛选找到127个匹配度好的，开始批量投递

登陆状态点击申请职位，用wevdriver做

for i in job_info.find({"匹配度":{$regex:"排名很好"},"综合竞争力得分":{$gte:"80"}}):
  print(i)
  try:
    driver.get(i)
    driver.find_element_by_id("app_ck").click()
    sleep(2)
  except:
    pass

用COOKIE登陆简单for循环投递，在Mongodb里查表，正则筛选匹配度和竞争力得分获取所有匹配结果

投递成功

代码

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_optiOns= Options()
# chrome_options.add_argument('--headless')
from time import sleep
import re
from lxml import etree
import requests
import os
import json

driver = webdriver.Chrome(chrome_optiOns=chrome_options,executable_path = 'D:\python\chromedriver.exe')
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
driver.get("https://search.51job.com/list/020000,000000,0000,00,9,99,%2520,2,1.html&＃63;lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lOnlat=0%2C0&radius=-1&ord_field=0&cOnfirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")

def get_COOKIE():
  driver.get("https://login.51job.com/login.php&＃63;loginway=1&lang=c&url=")
  sleep(2)
  phOne=input("输入手机号：")
  driver.find_element_by_id("loginname").send_keys(phone)
  driver.find_element_by_id("btn7").click()
  sleep(1)
  code=input("输入短信：")
  driver.find_element_by_id("phonecode").send_keys(code)
  driver.find_element_by_id("login_btn").click()
  sleep(2)
  COOKIEs = driver.get_COOKIEs()
  with open("COOKIE.json", "w")as f:
    f.write(json.dumps(COOKIEs))

def get_job():
  driver.get("https://search.51job.com/list/020000,000000,0000,00,9,99,%2520,2,1.html&＃63;lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lOnlat=0%2C0&radius=-1&ord_field=0&cOnfirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")
  sleep(2)
  job=input("输入职位：")
  driver.find_element_by_id("kwdselectid").send_keys(job)
  driver.find_element_by_xpath('//button[@class="p_but"]').click()
  url=driver.current_url
  page=driver.page_source
  return url,page

def close_driver():
  driver.close()

def get_pages(url,page):
  tree=etree.HTML(page)
  href=[]
  x = tree.xpath('//span[@class="td"]/text()')[0]
  total_page=int(re.findall("(\d+)", x)[0])
  for i in range(1,total_page+1):
    href.append(re.sub("\d.html", f'{i}.html', url))
  return href

def get_job_code(url):
  headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
  r=session.get(url,headers=headers)
  tree=etree.HTML(r.text)
  divs=tree.xpath('//div[@class="el"]/p/span/a/@href')
  job=str(divs)
  job_id=re.findall("\/(\d+).html",job)
  return job_id

def get_info(job_id):
  href=f"https://i.51job.com/userset/bounce_window_redirect.php&＃63;jobid={job_id}&redirect_type=2"
  r=session.get(href,headers=headers)
  r.encoding=r.apparent_encoding
  tree=etree.HTML(r.text)
  pingjia=tree.xpath('//div[@class="warn w1"]//text()')[0].strip()
  gOngsi=[]
  for i in tree.xpath('//div[@class="lf"]//text()'):
    if i.strip():
      gongsi.append(i.strip())
  fenshu=[]
  for i in tree.xpath('//ul[@class="rt"]//text()'):
    if i.strip():
      fenshu.append(i.strip())
  url=f"https://jobs.51job.com/shanghai/{job_id}.html&＃63;s=03&t=0"
  return {"公司":gongsi[1],"职位":gongsi[0],"匹配度":pingjia,fenshu[3]:fenshu[2],"链接":url,"_id":job_id}



if not os.path.exists("COOKIE.json"):
  get_COOKIE()
f=open("COOKIE.json","r")
COOKIEs=json.loads(f.read())
f.close()
session = requests.Session()
for COOKIE in COOKIEs:
  driver.add_COOKIE(COOKIE)
  session.COOKIEs.set(COOKIE['name'], COOKIE['value'])
url, page = get_job()
driver.close()
code=[]
for i in get_pages(url,page):
  code=code+get_job_code(i)
import pymongo
client=pymongo.MongoClient("localhost",27017)
db=client["job_he"]
job_info=db["job_info"]

for i in code:
  try:
    if not job_info.find_one({"_id":i}):
      info=get_info(i)
      sleep(1)
      job_info.insert_one(info)
      print(info)
      print("插入成功")
  except:
    print(code)

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

推荐阅读

jar
Android目录遍历工具 | AppCrawler自动化测试进阶（第二部分）：个性化配置详解

终于迎来了“足不出户也能为社会贡献力量”的时刻，但有追求的测试工程师绝不会让自己的生活变得乏味。与其在家消磨时光，不如利用这段时间深入研究和提升自己的技术能力，特别是对AppCrawler自动化测试工具的个性化配置进行详细探索。这不仅能够提高测试效率，还能为项目带来更多的价值。 ... [详细]

蜡笔小新 2024-10-29 13:58:19
php
Go语言中的高效排序与搜索算法解析

在探讨Go语言中高效的排序与搜索算法时，本文深入分析了Go语言提供的内置排序功能及其优化策略。通过实例代码，详细讲解了如何利用Go语言的标准库实现快速、高效的排序和搜索操作，为开发者提供了实用的编程指导。 ... [详细]

蜡笔小新 2024-10-29 20:56:23
jar
Spring Boot 实战（一）：基础的CRUD操作详解

在《Spring Boot 实战（一）》中，详细介绍了基础的CRUD操作，涵盖创建、读取、更新和删除等核心功能，适合初学者快速掌握Spring Boot框架的应用开发技巧。 ... [详细]

蜡笔小新 2024-10-31 21:03:29
request
信息漏洞概述与基础知识（第一部分）

本文首先对信息漏洞的基础知识进行了概述，重点介绍了几种常见的信息泄露途径。具体包括目录遍历、PHPINFO信息泄露以及备份文件的不当下载。其中，备份文件下载涉及网站源代码、`.bak`文件、Vim缓存文件和`DS_Store`文件等。目录遍历漏洞的详细分析为后续深入研究奠定了基础。 ... [详细]

蜡笔小新 2024-10-31 19:32:18
hash
基于POI的Java Maven项目中实现Excel数据的高效导入与导出功能

本项目在Java Maven框架下，利用POI库实现了Excel数据的高效导入与导出功能。通过优化数据处理流程，提升了数据操作的性能和稳定性。项目已发布至GitHub，当前最新版本为0.0.5。该项目不仅适用于小型应用，也可扩展用于大型企业级系统，提供了灵活的数据管理解决方案。GitHub地址：https://github.com/83945105/holygrail，Maven坐标：`com.github.83945105:holygrail:0.0.5`。 ... [详细]

蜡笔小新 2024-10-31 18:52:27
config
Android 图像色彩处理技术详解

本文详细探讨了 Android 平台上的图像色彩处理技术，重点介绍了如何通过模仿美图秀秀的交互方式，利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现，帮助开发者更好地理解和应用图像处理技术。 ... [详细]

蜡笔小新 2024-10-31 18:45:41
config
深入解析Python中的循环双向链表数据结构

本文详细探讨了Python中循环双向链表的数据结构，包括其定义、特点及应用场景。文章首先介绍了循环双向链表的基本概念，随后深入分析了其核心操作，如节点的插入、删除和遍历等。最后，通过具体的Python代码示例，展示了如何高效地实现这些操作，帮助读者全面理解并掌握这一重要数据结构。 ... [详细]

蜡笔小新 2024-10-31 12:59:08
config
如何在Java中高效构建WebService

本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架，能够简化WebService的开发流程。通过结合MyEclipse集成开发环境，开发者可以更便捷地进行项目配置和代码编写，从而提高开发效率。此外，文章还详细探讨了XFire的关键特性和最佳实践，为读者提供了实用的参考。 ... [详细]

蜡笔小新 2024-10-30 20:46:43
request
深入解析Python协程：asyncio模块的应用与优化

在处理大规模并发请求时，传统的多线程或多进程模型往往无法有效解决性能瓶颈问题。尽管它们在处理小规模任务时能提升效率，但在高并发场景下，系统资源的过度消耗和上下文切换的开销会显著降低整体性能。相比之下，Python 的 `asyncio` 模块通过协程提供了一种轻量级且高效的并发解决方案。本文将深入解析 `asyncio` 模块的原理及其在实际应用中的优化技巧，帮助开发者更好地利用协程技术提升程序性能。 ... [详细]

蜡笔小新 2024-10-30 18:17:34
request
可转债数据智能抓取与分析平台优化

本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息（排除已发布赎回的债券），并结合安道全教授提出的三条安全线投资策略，新增了建仓线、加仓线和重仓线，以提供更精准的投资建议。 ... [详细]

蜡笔小新 2024-10-30 17:40:17
jar
深入解析Spring Boot自动配置机制及其核心原理

Spring Boot 的自动配置机制是其核心特性之一，旨在简化开发过程并提高效率。本文将深入探讨这一机制的工作原理，解释其如何通过智能化的类路径扫描和条件注解实现自动装配。通过对 Spring Boot 自动配置的详细解析，读者将能够更好地理解和应用这一强大功能，从而在实际项目中更加高效地利用 Spring Boot。 ... [详细]

蜡笔小新 2024-10-30 14:31:20
hash
MongoDB Aggregates.group() 方法详解与编程实例

MongoDB Aggregates.group() 方法详解与编程实例 ... [详细]

蜡笔小新 2024-10-30 14:23:34
hash
深入解析零拷贝技术（Zerocopy）及其应用优势

零拷贝技术（Zero-copy）是Netty框架中的一个关键特性，其核心在于减少数据在操作系统内核与用户空间之间的传输次数。通过避免不必要的内存复制操作，零拷贝显著提高了数据传输的效率和性能。本文将深入探讨零拷贝的工作原理及其在实际应用中的优势，包括降低CPU负载、减少内存带宽消耗以及提高系统吞吐量等方面。 ... [详细]

蜡笔小新 2024-10-30 12:14:45
replace
voc生成xml 代码

目录 lxmlwindows安装读取示例可视化生成示例上面是代码，下面有调用示例 api调用代码，其实只有几行：这个生成代码也很简 ... [详细]

蜡笔小新 2024-10-30 09:23:45
replace
探索JavaScript倒计时功能的三种高效实现方法及代码示例

探索JavaScript倒计时功能的三种高效实现方法及代码示例 ... [详细]

蜡笔小新 2024-10-29 20:54:36

高小原gy_941

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章