热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PubMed数据下载

目标站点分析目标:抓取页面中的机构名称,日期,标题,作者,作者信息

目标站点分析

技术分享图片

目标:抓取页面中的机构名称,日期,标题,作者, 作者信息, 摘要

程序实现

# -*- coding: utf-8 -*-
"""
@Datetime: 2019/3/6
@Author: Zhang Yafei
"""
import os
import re
import time
from concurrent.futures import ThreadPoolExecutor
import traceback
import pandas as pd
import requests
from pyquery import PyQuery as pq
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘}
BASE_DIR = ‘html‘
if not os.path.exists(BASE_DIR):
os.mkdir(BASE_DIR)
class PubMed(object):
def __init__(self, url):
self.url = url
# self.url = ‘https://www.ncbi.nlm.nih.gov/pubmed/{}‘.format(id)
self.retry = 0
def download(self):
try:
respOnse= requests.get(self.url, headers=headers, timeout=20)
if response.status_code == 200:
self.parse(response.content)
except Exception as e:
traceback.print_exc()
print(‘error:‘ + self.url)
while True:
self.retry += 1
if self.retry <5:
try:
respOnse= requests.get(self.url, headers=headers, timeout=15)
if response.status_code == 200:
self.parse(response.content)
return
except Exception as e:
print(e)
time.sleep(10)
else:
print(self.url + ‘下载失败‘)
return
def parse(self, response):
doc = pq(response, parser=‘html‘)
periodical_item = doc(‘.cit‘)
periodical = periodical_item.children().text()
try:
periodical_datetime = re.search(‘(.*?);‘, periodical_item.__str__()).group(1)
except AttributeError:
periodical_datetime = re.search(‘(.*?).‘, periodical_item.__str__()).group(1)
title = doc(‘.rprt_all h1‘).text()
authors_items = doc(‘.auths a‘).items()
authors = ‘,‘.join(list(map(lambda x: x.text(), authors_items)))
author_info = doc(‘.ui-ncbi-toggler-slave dd‘).text()
abstract = doc(‘.abstr‘).text()
data_dict = {‘url‘: [self.url], ‘periodical‘: [periodical], ‘periodical_datetime‘: [periodical_datetime],
‘title‘: [title], ‘authors‘: [authors], ‘author_info‘: [author_info], ‘abstract‘: [abstract]}
self.write_csv(filename=‘pubmed_result.csv‘, data=data_dict)
print(self.url + ‘下载完成‘)
@staticmethod
def write_csv(filename, data=None, columns=None, header=False):
""" 写入 """
if header:
df = pd.DataFrame(columns=columns)
df.to_csv(filename, index=False, mode=‘w‘)
else:
df = pd.DataFrame(data=data)
df.to_csv(filename, index=False, header=False, mode=‘a+‘)
def filter_url_list(urls_list):
df = pd.read_csv(‘pubmed_result.csv‘)
has_urls = df.url.tolist()
url_list = set(urls_list) - set(has_urls)
print(‘共:{} 完成:{} 还剩:{}‘.format(len(urls_list), len(has_urls), len(url_list)))
return list(url_list)
def read_data():
df = pd.read_excel(‘data.xlsx‘, header=None)
return df[0].tolist()
def main(url):
""" 主函数 """
pubmed = PubMed(url=url)
pubmed.download()
if __name__ == ‘__main__‘:
url_list = read_data()
if not os.path.exists(‘pubmed_result.csv‘):
columns = [‘url‘, ‘periodical‘, ‘periodical_datetime‘, ‘title‘, ‘authors‘, ‘author_info‘, ‘abstract‘]
PubMed.write_csv(filename=‘pubmed_result.csv‘, columns=columns, header=True)
else:
url_list = filter_url_list(url_list)
pool = ThreadPoolExecutor()
pool.map(main, url_list)
pool.shutdown()
# 写入excel
df = pd.read_csv(‘pubmed_result.csv‘)
writer = pd.ExcelWriter(‘pubmed_result.xlsx‘)
df.to_excel(writer, ‘table‘, index=False)
writer.save()

  

 


推荐阅读
  • JS swiper轮播图完美兼容手机端
    swiper ... [详细]
  • 将自定义右键菜单的一些属性和方法归纳到AddRightMenu.as,通过实例化此类,调用相关方法即可测试!1package2{3importflash.display.Sprit ... [详细]
  • 点击按钮改变多张图片
    点击按钮改变多张图片 ... [详细]
  • 一、Web前端技术HTML:HTML、HTML5、CSS、TCPIPXML:XMLWeb脚本:JavaScript、AJAX、jQuery、JSONServ脚本:JSP、APS、P ... [详细]
  • 实验六提交版
    1.21.3part2共用体与结构体类型的区别?答:共用体与结构体的区别在于它们的表示方法不同。结构体内,结构体的各成员顺序排列存储,每个成员都有自己独立的存储位置,而共用体的情况 ... [详细]
  • 1.html页面如何使用swiper对swiper不熟练的小伙伴们可能不知道怎么开始使用它,那么下面就让我来简单讲述一下关于swiper的使用流程,这 ... [详细]
  • 题目:写一个函数返回参数二进制中1的个数方法1:我自己写的,运用‘%‘和‘‘,感觉挺简单的。intcount_one_bit(intnum){unsignedintcount0;w ... [详细]
  • 【7】继承、super、this、抽象类
    1、继承定义:继承就是子类继承父类的属性和行为,使得子类对象具有与父类相同的属性、相同的行为。子类可以直接访问父类中的非私有的属性和行为。好处:1、提高代码的复用性。2、类与类之间 ... [详细]
  • 网络Cisco考试
    二、操作题(共80分)请将以下拓扑实验配置完毕,保存拓扑,建立一个文本文档,按照交换机-路由器1234的顺序,将每台设备的showrunning-config复制粘贴出来,将文本文 ... [详细]
  • 虚拟机需要关闭bcdeditsethypervisorlaunchtypeoffdocker需要开启bcdeditsethypervisorlauncht ... [详细]
  • 1、androidping和netstat可以通过Runtime.getRuntime().exec(cmd)执行。跟windows的命令相似,可以直接参考windows下的对应的 ... [详细]
  • SparkMLlib提供了一些基本的统计学的算法,下面主要说明一下:1、Summarystatistics对于RDD[Vector]类型,SparkMLlib提供了colStats ... [详细]
  • mysql在BTree上创建伪哈希索引
    构建哈希的过程select过程长字符串下,构建索引可通过自定义哈希作为索引,本人通过实验,在3百多个数据记录的下,性能效果很明显,完全不是一个等级.以下为索引前后几种情况对比在哈希 ... [详细]
  • df du命令 查看磁盘大小
    1.df命令查看文件系统使用情况。最常用的命令就是df-h其他选项:a:列出所有的文件系统,包括系统特有的/proc等系统文件 k:以KB的容量显示 m:以MB的容量显示文件系统  ... [详细]
  • 搭建简单Ext
    一、EXT是什么?1.Ext是一个Ajax框架,可以用来开发带有华丽外观的富客户端应用,使得我们的bs应用更加具有活力及生命力࿰ ... [详细]
author-avatar
福田商务汽车-日照方傲
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有