热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python自用代码(某方标准类网页源代码清洗)

用于mongodb中“标准”数据的清洗,数据为网页源代码,须从中提取:标准名称,标准外文名称,标准编号,发布单位,发布日期,状态,实施日期,开本页数,采用关系,中图分类号,中国标准

用于mongodb中“标准”数据的清洗,数据为网页源代码,须从中提取:

标准名称,标准外文名称,标准编号,发布单位,发布日期,状态,实施日期,开本页数,采用关系,中图分类号,中国标准分类号,国际标准分类号,国别,关键词,摘要,替代标准。

提取后组成字典存入另一集合。

 

#coding=utf-8
from pymongo import MongoClient
from lxml import etree
import requests

s = [u'标准编号:',u'发布单位:',u'发布日期:',u'状态:',u'实施日期:',u'开本页数:',u'采用关系:',
    u'中图分类号:',u'中国标准分类号:',u'国际标准分类号:',u'国别:',u'关键词:',u'摘要:']

# 获取数据库
def get_db():
    client = MongoClient('IP', 27017)
    db = client.wanfang
    db.authenticate("用户名","密码") 
    return db

# 获取第num条数据
def get_data(table, num):
    i = 1
    for item in table.find({}, {"content":1,"_id":0}):
        if i==num:
            if item.has_key('content') and item['content']:
                return item['content']
        else:
            i+=1
            continue

# 列表转字符串
def list_str(list):
    if len(list)!=0:
        return list[0]
    else:
        return ""

# 提取分类号
def code_ls(list):
    if len(list)!=0:
        ls = list[0].split()
        shanchu = []
        for i in ls:
            if ("("in i) or (")"in i) or (""in i) or(""in i):
                shanchu.append(i)
        for i in shanchu:
            ls.remove(i)
        return ls
    else:
        return ""

# 构造关键词列表
def keywords_ls(list):
    if len(list)!=0:
        return list
    else:
        return ""

# 替代标准
def replace_str(replace):
    if replace!="":
        ls = [i.strip().replace("\r\n", "") for i in replace]
        if len(ls)!=0:
            return ls[0][5:]
        else:
            return ""
    else:
        return ""

# 提取摘要
def summary_str(list):
    if len(list)!=0:
        if list[0][0]!="<":
            return list[0]
        else:
            return ""
    else:
        return ""

# 调整日期格式
def date_str(list):
    if len(list)!=0:
        year = list[0].find(u'')
        month = list[0].find(u'')
        day = list[0].find(u'')
        if month-year==2:
            list[0] = list[0].replace(u"",u"年0")
        if day-mOnth==2:
            list[0] = list[0].replace(u"",u"月0")
        return list[0].replace(u"","").replace(u"","-").replace(u"","-")
    else:
        return ""

# 调整采标格式
def adopted_ls(string, ls):
    dc = {}
    loc = string.find(',')
    if loc==-1:
        return ls
    else:
        dc["code"] = string[:loc].strip()
        dc["type"] = string[loc+1:loc+4]
        ls.append(dc)
        return adopted_ls(string[loc+4:],ls)

# 构造标准入库字典
def standard_dict(html):
    dc = {}
    tree = etree.HTML(html)
    # 标准名称
    dc["title"] = list_str(tree.xpath("//h1/text()"))
    # 外文名称
    dc["title_eng"] = list_str(tree.xpath("//h2/text()"))
    # 标准编号
    dc["standard_number"] = list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[0])))
    # 发布单位
    dc["publishing_department"] = list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[1])))
    # 发布日期
    dc["release_date"] = date_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[2])))
    # 状态
    dc["state"] = list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[3])))
    # 实施日期
    dc["enforcement_date"] = date_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[4])))
    # 开本页数
    dc["pages"] = list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[5])))
    # 采用关系
    dc["adopted"] = adopted_ls(list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[6]))), [])
    # 中图分类号
    dc["clc"] = code_ls(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[7])))
    # 中国标准分类号
    dc["ccs"] = code_ls(tree.xpath("//span[text()='%s']/following-sibling::*/child::*/text()"%(s[8])))
    # 国际标准分类号
    dc["ics"] = code_ls(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[9])))
    # 国别
    dc["country"] = list_str(tree.xpath("//span[text()='%s']/following-sibling::*/text()"%(s[10])))
    # 关键词
    dc["keywords"] = keywords_ls(tree.xpath("//span[text()='%s']/following-sibling::*/child::*/text()"%(s[11])))
    # 摘要
    dc["summary"] = summary_str(tree.xpath("//span[text()='%s']/parent::*/following-sibling::*/text()"%(s[12])))
    # 替代标准
    dc["replace_for"] = replace_str(tree.xpath("//div[@id='replaceStandard']//child::*//text()"))
    return dc

# 主函数
def main():
    db = get_db()
    collection=db.standard
    collection2 = db.standard_cleaned
    for item in collection.find({}, {"content":1,"_id":0}):
        if item.has_key('content') and item['content']:
            dc = standard_dict(item['content'])
            collection2.insert(dc)

if __name__ == '__main__':
    main()
    
    # 以下代码用于测试清洗特定一条数据
    # db = get_db()
    # collection=db.standard
    # collection2 = db.standard_cleaned
    # data = get_data(collection, 8)
    # dc = standard_dict(data)
    # collection2.insert(dc)
    # for k,v in dc.items():
    #     print k,v

    # # 以下代码用于测试提取摘要
    # data = requests.get('http://d.wanfangdata.com.cn/Standard/ISO%208528-5-2013')
    # dc = standard_dict(data.text)
    # for k,v in dc.items():
    #     print k,v

    # # 以下代码用于测试修改日期格式
    # l1 = [u"2017年6月28日"]
    # l2 = [u"2017年10月27日"]
    # l3 = [u"2017年12月1日"]
    # l4 = [u"2017年7月1日"]
    # print date_str(l1)
    # print date_str(l2)
    # print date_str(l3)
    # print date_str(l4)

 


推荐阅读
  • Web动态服务器Python基本实现
    Web动态服务器Python基本实现 ... [详细]
  • 本文介绍了SIP(Session Initiation Protocol,会话发起协议)的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]
  • 理解浏览器历史记录(2)hashchange、pushState
    阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后,本打算去研究pushState,偶然在一些信息中发现了锚点变 ... [详细]
  • 本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作,包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • 本文详细介绍了在Windows系统中如何配置Nginx以实现高效的缓存加速功能,包括关键的配置文件设置和示例代码。 ... [详细]
  • 本文深入探讨了Go语言中的接口型函数,通过实例分析其灵活性和强大功能,帮助开发者更好地理解和运用这一特性。 ... [详细]
  • 深入探讨前端代码优化策略
    本文深入讨论了前端开发中代码优化的关键技术,包括JavaScript、HTML和CSS的优化方法,旨在提升网页加载速度和用户体验。 ... [详细]
  • 问题场景用Java进行web开发过程当中,当遇到很多很多个字段的实体时,最苦恼的莫过于编辑字段的查看和修改界面,发现2个页面存在很多重复信息,能不能写一遍?有没有轮子用都不如自己造。解决方式笔者根据自 ... [详细]
  • 本文详细介绍了如何正确设置Shadowsocks公共代理,包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]
  • 本文档详细介绍了软通动力Java开发工程师职位的笔试题目,涵盖了Java基础、集合框架、JDBC、JSP等内容,并提供了详细的答案解析。 ... [详细]
  • 本教程介绍如何在C#中通过递归方法将具有父子关系的列表转换为树形结构。我们将详细探讨如何处理字符串类型的键值,并提供一个实用的示例。 ... [详细]
  • 本文档详细介绍了购物车系统V0612版中的用户登录机制及购物功能实现方法。 ... [详细]
  • 本文详细介绍了`android.os.Binder.getCallingPid()`方法的功能和应用场景,并提供了多个实际的代码示例。通过这些示例,开发者可以更好地理解如何在不同的开发场景中使用该方法。 ... [详细]
  • 本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像,解决常见错误并提供优化建议。 ... [详细]
author-avatar
aihyuksj_967
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有