热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PubMed数据下载

目标站点分析目标:抓取页面中的机构名称,日期,标题,作者,作者信息

目标站点分析

技术分享图片

目标:抓取页面中的机构名称,日期,标题,作者, 作者信息, 摘要

程序实现

# -*- coding: utf-8 -*-
"""
@Datetime: 2019/3/6
@Author: Zhang Yafei
"""
import os
import re
import time
from concurrent.futures import ThreadPoolExecutor
import traceback
import pandas as pd
import requests
from pyquery import PyQuery as pq
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘}
BASE_DIR = ‘html‘
if not os.path.exists(BASE_DIR):
os.mkdir(BASE_DIR)
class PubMed(object):
def __init__(self, url):
self.url = url
# self.url = ‘https://www.ncbi.nlm.nih.gov/pubmed/{}‘.format(id)
self.retry = 0
def download(self):
try:
respOnse= requests.get(self.url, headers=headers, timeout=20)
if response.status_code == 200:
self.parse(response.content)
except Exception as e:
traceback.print_exc()
print(‘error:‘ + self.url)
while True:
self.retry += 1
if self.retry <5:
try:
respOnse= requests.get(self.url, headers=headers, timeout=15)
if response.status_code == 200:
self.parse(response.content)
return
except Exception as e:
print(e)
time.sleep(10)
else:
print(self.url + ‘下载失败‘)
return
def parse(self, response):
doc = pq(response, parser=‘html‘)
periodical_item = doc(‘.cit‘)
periodical = periodical_item.children().text()
try:
periodical_datetime = re.search(‘(.*?);‘, periodical_item.__str__()).group(1)
except AttributeError:
periodical_datetime = re.search(‘(.*?).‘, periodical_item.__str__()).group(1)
title = doc(‘.rprt_all h1‘).text()
authors_items = doc(‘.auths a‘).items()
authors = ‘,‘.join(list(map(lambda x: x.text(), authors_items)))
author_info = doc(‘.ui-ncbi-toggler-slave dd‘).text()
abstract = doc(‘.abstr‘).text()
data_dict = {‘url‘: [self.url], ‘periodical‘: [periodical], ‘periodical_datetime‘: [periodical_datetime],
‘title‘: [title], ‘authors‘: [authors], ‘author_info‘: [author_info], ‘abstract‘: [abstract]}
self.write_csv(filename=‘pubmed_result.csv‘, data=data_dict)
print(self.url + ‘下载完成‘)
@staticmethod
def write_csv(filename, data=None, columns=None, header=False):
""" 写入 """
if header:
df = pd.DataFrame(columns=columns)
df.to_csv(filename, index=False, mode=‘w‘)
else:
df = pd.DataFrame(data=data)
df.to_csv(filename, index=False, header=False, mode=‘a+‘)
def filter_url_list(urls_list):
df = pd.read_csv(‘pubmed_result.csv‘)
has_urls = df.url.tolist()
url_list = set(urls_list) - set(has_urls)
print(‘共:{} 完成:{} 还剩:{}‘.format(len(urls_list), len(has_urls), len(url_list)))
return list(url_list)
def read_data():
df = pd.read_excel(‘data.xlsx‘, header=None)
return df[0].tolist()
def main(url):
""" 主函数 """
pubmed = PubMed(url=url)
pubmed.download()
if __name__ == ‘__main__‘:
url_list = read_data()
if not os.path.exists(‘pubmed_result.csv‘):
columns = [‘url‘, ‘periodical‘, ‘periodical_datetime‘, ‘title‘, ‘authors‘, ‘author_info‘, ‘abstract‘]
PubMed.write_csv(filename=‘pubmed_result.csv‘, columns=columns, header=True)
else:
url_list = filter_url_list(url_list)
pool = ThreadPoolExecutor()
pool.map(main, url_list)
pool.shutdown()
# 写入excel
df = pd.read_csv(‘pubmed_result.csv‘)
writer = pd.ExcelWriter(‘pubmed_result.xlsx‘)
df.to_excel(writer, ‘table‘, index=False)
writer.save()

  

 


推荐阅读
  • 本文将从基础概念入手,详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发,以及其背后的源码实现细节。 ... [详细]
  • 在1995年,Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后,Bailey 和 Borwein 在他们的论文中发表了这一发现,这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]
  • 本文介绍了SIP(Session Initiation Protocol,会话发起协议)的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • 在日常生活中,支付宝已成为不可或缺的支付工具之一。本文将详细介绍如何通过支付宝实现免费提现,帮助用户更好地管理个人财务,避免不必要的手续费支出。 ... [详细]
  • 我的读书清单(持续更新)201705311.《一千零一夜》2006(四五年级)2.《中华上下五千年》2008(初一)3.《鲁滨孙漂流记》2008(初二)4.《钢铁是怎样炼成的》20 ... [详细]
  • 本文介绍了如何通过C#语言调用动态链接库(DLL)中的函数来实现IC卡的基本操作,包括初始化设备、设置密码模式、获取设备状态等,并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]
  • 本文详细介绍了C++中的构造函数,包括其定义、特点以及如何通过构造函数进行对象的初始化。此外,还探讨了转换构造函数的概念及其在不同情境下的应用,以及如何避免不必要的隐式类型转换。 ... [详细]
  • 数据类型--char一、char1.1char占用2个字节char取值范围:【0~65535】char采用unicode编码方式char类型的字面量用单引号括起来char可以存储一 ... [详细]
  • 本文详细介绍了iOS应用的生命周期,包括各个状态及其转换过程中的关键方法调用。 ... [详细]
  • 回顾两年前春节期间的一个个人项目,该项目原本计划参加竞赛,但最终作为练习项目完成。独自完成了从编码到UI设计的全部工作,尽管代码量不大,但仍有一定的参考价值。本文将详细介绍该项目的背景、功能及技术实现。 ... [详细]
  • 本文通过一个具体的实例,介绍如何利用TensorFlow框架来计算神经网络模型在多分类任务中的Top-K准确率。代码中包含了随机种子设置、模拟预测结果生成、真实标签生成以及准确率计算等步骤。 ... [详细]
  • 本文详细探讨了BCTF竞赛中窃密木马题目的解题策略,重点分析了该题目在漏洞挖掘与利用方面的技巧。 ... [详细]
  • 1#include2#defineM1000103#defineRGregister4#defineinf0x3f3f3f3f5usingnamespacestd;6boolrev ... [详细]
  • SQL Server 存储过程实践任务(第二部分)
    本文档详细介绍了三个SQL Server存储过程的创建与使用方法,包括统计特定类型客房的入住人数、根据房间号查询客房详情以及删除特定类型的客房记录。 ... [详细]
author-avatar
福田商务汽车-日照方傲
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有