热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python结合shell查询google关键词排名的实现代码

这篇文章主要介绍了python结合shell查询google关键词排名的实现代码,需要的朋友可以参考下
最近老婆大人的公司给老婆大人安排了一个根据关键词查询google网站排名的差事。老婆大人的公司是做seo的,查询的关键词及网站特别的多,看着老婆大人这么辛苦的重复着查询工作,心疼啊。所以花点时间用python写了一个根据关键词搜索网站排名的py脚本。

在写这个脚本之前,我也曾在网站搜索过关于在google查排名的脚本。很多是利用google的api。但是我测试了一下,不准。所以,自己写一个吧。

脚本内容如下:(关键词我在网站随便找了几个。以做测试使用)

#vim keyword.py 
import urllib,urllib2,COOKIElib,re,sys,os,time,random 
cj = COOKIElib.COOKIEJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] 
beatskey=['beats+by+dre','beats+by+dre+cheap'] 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
beatsweb=['beatsbydre.com','justlovebeats.com'] 
allweb=['vibramweb','beatsweb'] 
def serchkey(key,start): 
    url="http://www.google.com/search?hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start) 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) 
        respOnse=urllib2.urlopen(req) 
        cOntent= response.read() 
        f=open('google','w') 
        f.write(content) 
        tiqu=os.popen("grep -ioP '(&#63;<=).*&#63;(&#63;=)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() 
    except: 
        changeip() 
    else: 
        for yuming in pinpai: 
                a=1 
                for shouyuming in tiqu: 
                    real=shouyuming.find(yuming) 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
                        lastkey=key.replace("+"," ") 
                        xinxi="%s\t\t %s\t\t page%s,%s
\n" %(yuming,lastkey,page,a) xinxifile=open('index.html','a') xinxifile.write(xinxi) xinxifile.close() a=a+1 def changeip(): ip=random.randint(0,2) de="route del -host google.com" add="route add -host google.com eth1:%s" %ip os.system(de) os.system(add) print "changip to %s" %ip pinpaiid=0 for x in vibramkey,beatskey: if pinpaiid == 0: pinpai=vibramweb elif pinpaiid == 1: pinpai=beatsweb pinpaiid=pinpaiid+1 for key in x: for start in 0,10,20,30,40: serchkey(key,start) changeip() os.system("sh paiban.sh")

#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html 
line=`wc -l index.html|awk '{print $1}'` 
yuming2=`sed -n 1p index.html|awk '{print $1}'` 
for i in `seq 2 $line` 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then 
sed -i ""$i"s/"$yuming"/\t\t/g" index.html 
else 
yuming2=$yuming 
fi 
done 

这段脚本分两部分,第一部分是python利用关键词搜索google的页面。老婆大人说只要每一个关键词的前5页就可以。所以只查询了前5页。
第二部分是将查询出来的结果进行排版。也就是最下面调用paiban.sh 所做的事情,让最终出来的结果为如下格式:

网站1 关键词1 第几页 第几名
关键词2 第几页 第几名
关键词3 第几页 第几名

网站2 关键词1 第几页 第几名
关键词2 第几页 第几名
关键词3 第几页 第几名
下面就来对程序进行讲解。

import urllib,urllib2,COOKIElib,re,sys,os,time,random  #加载模块 
cj = COOKIElib.COOKIEJar() 
vibramkey=['cheap+five+fingers','vibram+five+fingers'] #定义要查询的关键词组1,里面的单引号里面就是要查询的关键词。 
beatskey=['beats+by+dre','beats+by+dre+cheap']    #同上,定义关键词组2,这个是另一组关键词。 
vibramweb=['vibramforshoes.com','vibramfivetoeshoes.net','vibramfivefingersshoesx.com '] 
#定义关健词组1要查询的网站 
beatsweb=[' beatsbydre.com',' justlovebeats.com'] #定义关健词组2要查询的网站 
allweb=['vibramweb','beatsweb']  #这里定义了一个所有网站的组,下面好调用。 
def serchkey(key,start): #这里定义一个函数,key为查询的关健词,start为页面,通过google查询页面可以看出来每个页面除ads外只有十条记录,start=0时显示为第一个页面第一至第十条记录,start=10时,显示第二页的第一至十条记录,以些类推。 
    url="http://www.google.com/search&#63;hl=en&q=%s&revid=33815775&sa=X&ei=X6CbT4GrIoOeiQfth43GAw&ved=0CIgBENUCKAY&start=%s" %(key,start)  #这个定义了查询的URL 
    try: 
        opener=urllib2.build_opener(urllib2.HTTPCOOKIEProcessor(cj)) 
        opener.addheaders = [('User-agent', 'Opera/9.23')] #模拟浏览器访问 
        urllib2.install_opener(opener) 
        req=urllib2.Request(url) #用urllib2访问 
        respOnse=urllib2.urlopen(req) 
        cOntent= response.read()#这块是模拟浏览器进行访问url的页面并读取源代码 
        f=open('google','w') 
        f.write(content) #将读取出来的内容保存到google的一个页面里。 
        tiqu=os.popen("grep -ioP '(&#63;<=).*&#63;(&#63;=)' google|sed -r 's/(<*\/*cite>|<\/*b>)//g'").readlines() #这里利用了系统命令了。利用正则的零宽断言提直接取出第一到第十位的网站域名。 
    except: 
        changeip() #这边是怕访问过多被google封了。所以这里有一个换ip的函数,下面有定义。上面如果try失败了,就执行换ip的动作。 
    else: 
        for yuming in pinpai:    #循环读取要查找的网站 
                a=1 
                for shouyuming in tiqu:  #循环读取查找出来的网站 
                    real=shouyuming.find(yuming)  #将查找出来的网站与需要查找的网站进行比对 
                    if real>0: 
                        if start==0: 
                            page=1 
                        elif start==10: 
                            page=2 
                        elif start==20: 
                            page=3 
                        elif start==30: 
                            page=4 
                        else: 
                            page=5 
         #这里的查看域名在google搜索后的哪一页。 
                        lastkey=key.replace("+"," ") #将定义的关键词中间的加号去掉。 
                        print yuming,lastkey,page,a 
                        xinxi="%s\t\t %s\t\t 第%s页,排名%s\n" %(yuming,lastkey,page,a) 
                        xinxifile=open('index.html','a') 
                        xinxifile.write(xinxi) 
                        xinxifile.close() #将查找出来的信息写入到index.html文件里 
                    aa=a+1 
def changeip():  #这里是定义查询时换ip的函数。如果机器只有一个ip那就不用这段了。 
    ip=random.randint(0,10)         #随机生成0-10的数 
    del="route del -host google.com"      #删除路由命令 
    add="route add -host google.com eth1:%s" %ip #添加路由命令 
    os.system(del)                #执行删除路由命令 
    os.system(add)   #执行添加路由命令 
    print "changip to %s" %ip           #打印更改路由信息 
pinpaiid=0  
for x in vibramkey,beatskey:     #循环所有的关键词组 
    if  pinpaiid == 0:     # 对应关键词组与要查询的网站组 
        pinpai=vibramweb 
    elif pinpaiid == 1: 
        pinpai=beatsweb 
pinpaiidpinpaiid=pinpaiid+1 
    for key in x:        #循环关键词组里的关键词 
        for start in 0,10,20,30,40:    #定义所要查找的google的页面 
            serchkey(key,start)   
    changeip()              #更改ip函数。在每一组关键词查询完毕后更改ip. 

以上命令执行后,我们看一下index.html文件内容。如下:

代码如下:


#cat index.html
vibramforshoes.com cheap five fingers page 1,rank 3
vibramfivetoeshoes.net cheap five fingers page 5,rank 5
vibramforshoes.com vibram five fingers page 1,rank 6
vibramfivetoeshoes.net vibram five fingers page 5,rank 10
beatsbydre.com beats by dre page 1,rank 1
justlovebeats.com beats by dre page 5,rank 7
beatsbydre.com beats by dre cheap page 2,rank 2
beatsbydre.com beats by dre cheap page 2,rank 3
beatsbydre.com beats by dre cheap page 5,rank 10

如图:

这样看很乱,那么我们如何才能达到上面所讲 一个站后面对应多个关键词的格式呢,这里我们就要用到 paiban.sh 这个小脚本了。我们把paiban.sh放在py程序的最后,当执行py程序执行完毕后,执行paiban.sh 这个paiban.sh已经加在py程序里面了,所有不需要另外执行。我这里主要看一下区别。所有在py程序里注释了。

#sh  paiban.sh 
#cat index.html 
beatsbydre.com          beats by dre cheap       page 2,rank 2 
                 beats by dre cheap       page 2,rank 3 
                 beats by dre cheap       page 5,rank 10 
                 beats by dre          page 1,rank 1 
justlovebeats.com        beats by dre          page 5,rank 7 
vibramfivetoeshoes.net      cheap five fingers       page 5,rank 5 
                 vibram five fingers       page 5,rank 10 
vibramforshoes.com        cheap five fingers       page 1,rank 3 
                 vibram five fingers       page 1,rank 6 

如图:

这样就能达到上面的效果了。排版也很清楚,哪个站对应哪个关键词。在第几页,第几位,一目了然。

我们也对paiban.sh这个脚本做一下解释。

#vim paiban.sh 
#! /bin/bash 
sort index.html -o index.html          #先把index.html文件排下序,再写入index.html 
line=`wc -l index.html|awk '{print $1}'`     #统计行 
yuming2=`sed -n 1p index.html|awk '{print $1}'`  #取第一行的域名 给yuming2 
for i in `seq 2 $line`              #从第二行开始了取域名 
do 
yuming=`sed -n "$i"p index.html|awk '{print $1}'` 
if [ $yuming == $yuming2 ];then        
sed -i ""$i"s/"$yuming"/\t\t/g" index.html    #如果下一行域名与yuming2域名相同,就把下一行域名替换成空 
else 
yuming2=$yuming                  #如果不相等,就把下一行的域名给yuming2变量       
fi 
done 


好了。这个小脚本挺好用的,老婆大人天天在用。为她减轻了不少工作量。直夸我能干。。。,哈哈。。如果有看不明白的,欢迎加QQ讨论。QQ:410018348

推荐阅读
  • 全能终端工具推荐:高效、免费、易用
    介绍一款备受好评的全能型终端工具——MobaXterm,它不仅功能强大,而且完全免费,适合各类用户使用。 ... [详细]
  • Windows 环境下安装 Git 并连接 GitHub 的详细步骤
    本文详细介绍了如何在 Windows 系统中安装 Git 工具,并通过配置 SSH 密钥实现与 GitHub 的安全连接。包括下载、安装、环境配置及验证连接等关键步骤。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 嵌入式开发环境搭建与文件传输指南
    本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ... [详细]
  • CSS高级技巧:动态高亮当前页面导航
    本文介绍了如何使用CSS实现网站导航栏中当前页面的高亮显示,提升用户体验。通过为每个页面的body元素添加特定ID,并结合导航项的类名,可以轻松实现这一功能。 ... [详细]
  • 本文详细介绍了钩子(hook)的概念、原理及其在编程中的实际应用。通过对比回调函数和注册函数,解释了钩子的工作机制,并提供了具体的Python示例代码,帮助读者更好地理解和掌握这一重要编程工具。 ... [详细]
  • Python自动化测试入门:Selenium环境搭建
    本文详细介绍如何在Python环境中安装和配置Selenium,包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外,还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]
  • 本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异,提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]
  • 在Linux系统上构建Web服务器的详细步骤
    本文详细介绍了如何在Linux系统上搭建Web服务器的过程,包括安装Apache、PHP和MySQL等关键组件,以及遇到的一些常见问题及其解决方案。 ... [详细]
  • 使用LVS与ldirectord实现高可用负载均衡
    本文介绍了如何通过LVS(Linux Virtual Server)结合ldirectord工具来实现服务器的健康检查及负载均衡功能。环境设置包括一个LVS节点和两个真实服务器节点,通过配置ldirectord进行健康状态监测,确保系统的高可用性。 ... [详细]
  • Django xAdmin 使用指南(第一部分)
    本文介绍如何在Django项目中集成和使用xAdmin,这是一个增强版的管理界面,提供了比Django默认admin更多的功能。文中详细描述了集成步骤及配置方法。 ... [详细]
  • 近期,考虑到在Vim内部进行GDB调试、运行Python脚本和数据库连接等多样化需求,思考是否可以通过集成终端来简化这些操作,而非逐一编写Vim脚本来实现。通过研究发现,确实存在一种高效的方法——利用特定插件实现终端功能的整合。 ... [详细]
  • iTOP4412开发板QtE5.7源码编译指南
    本文详细介绍了如何在iTOP4412开发板上编译QtE5.7源码,包括所需文件的位置、编译器设置、触摸库编译以及QtE5.7的完整编译流程。 ... [详细]
  • 本文详细介绍了如何将 Python 3.6.3 程序转换为 Windows 可执行文件(.exe),并解决了使用 py2exe 和 cx_Freeze 时遇到的问题。推荐使用 PyInstaller 进行打包,提供完整的安装和打包步骤。 ... [详细]
  • 解决TensorFlow CPU版本安装中的依赖问题
    本文记录了在安装CPU版本的TensorFlow过程中遇到的依赖问题及解决方案,特别是numpy版本不匹配和动态链接库(DLL)错误。通过详细的步骤说明和专业建议,帮助读者顺利安装并使用TensorFlow。 ... [详细]
author-avatar
郭城镣
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有