PubMed数据下载

作者：福田商务汽车-日照方傲 | 来源：互联网 | 2024-10-15 03:14

目标站点分析目标：抓取页面中的机构名称，日期，标题，作者，作者信息

目标站点分析

技术分享图片

目标：抓取页面中的机构名称，日期，标题，作者，作者信息，摘要

程序实现

# -*- coding: utf-8 -*-
"""
@Datetime: 2019/3/6
@Author: Zhang Yafei
"""
import os
import re
import time
from concurrent.futures import ThreadPoolExecutor
import traceback
import pandas as pd
import requests
from pyquery import PyQuery as pq
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘}
BASE_DIR = ‘html‘
if not os.path.exists(BASE_DIR):
os.mkdir(BASE_DIR)
class PubMed(object):
def __init__(self, url):
self.url = url
# self.url = ‘https://www.ncbi.nlm.nih.gov/pubmed/{}‘.format(id)
self.retry = 0
def download(self):
try:
respOnse= requests.get(self.url, headers=headers, timeout=20)
if response.status_code == 200:
self.parse(response.content)
except Exception as e:
traceback.print_exc()
print(‘error:‘ + self.url)
while True:
self.retry += 1
if self.retry <5:
try:
respOnse= requests.get(self.url, headers=headers, timeout=15)
if response.status_code == 200:
self.parse(response.content)
return
except Exception as e:
print(e)
time.sleep(10)
else:
print(self.url + ‘下载失败‘)
return
def parse(self, response):
doc = pq(response, parser=‘html‘)
periodical_item = doc(‘.cit‘)
periodical = periodical_item.children().text()
try:
periodical_datetime = re.search(‘(.*?);‘, periodical_item.__str__()).group(1)
except AttributeError:
periodical_datetime = re.search(‘(.*?).‘, periodical_item.__str__()).group(1)
title = doc(‘.rprt_all h1‘).text()
authors_items = doc(‘.auths a‘).items()
authors = ‘,‘.join(list(map(lambda x: x.text(), authors_items)))
author_info = doc(‘.ui-ncbi-toggler-slave dd‘).text()
abstract = doc(‘.abstr‘).text()
data_dict = {‘url‘: [self.url], ‘periodical‘: [periodical], ‘periodical_datetime‘: [periodical_datetime],
‘title‘: [title], ‘authors‘: [authors], ‘author_info‘: [author_info], ‘abstract‘: [abstract]}
self.write_csv(filename=‘pubmed_result.csv‘, data=data_dict)
print(self.url + ‘下载完成‘)
@staticmethod
def write_csv(filename, data=None, columns=None, header=False):
""" 写入 """
if header:
df = pd.DataFrame(columns=columns)
df.to_csv(filename, index=False, mode=‘w‘)
else:
df = pd.DataFrame(data=data)
df.to_csv(filename, index=False, header=False, mode=‘a+‘)
def filter_url_list(urls_list):
df = pd.read_csv(‘pubmed_result.csv‘)
has_urls = df.url.tolist()
url_list = set(urls_list) - set(has_urls)
print(‘共：{} 完成：{} 还剩：{}‘.format(len(urls_list), len(has_urls), len(url_list)))
return list(url_list)
def read_data():
df = pd.read_excel(‘data.xlsx‘, header=None)
return df[0].tolist()
def main(url):
""" 主函数 """
pubmed = PubMed(url=url)
pubmed.download()
if __name__ == ‘__main__‘:
url_list = read_data()
if not os.path.exists(‘pubmed_result.csv‘):
columns = [‘url‘, ‘periodical‘, ‘periodical_datetime‘, ‘title‘, ‘authors‘, ‘author_info‘, ‘abstract‘]
PubMed.write_csv(filename=‘pubmed_result.csv‘, columns=columns, header=True)
else:
url_list = filter_url_list(url_list)
pool = ThreadPoolExecutor()
pool.map(main, url_list)
pool.shutdown()
# 写入excel
df = pd.read_csv(‘pubmed_result.csv‘)
writer = pd.ExcelWriter(‘pubmed_result.xlsx‘)
df.to_excel(writer, ‘table‘, index=False)
writer.save()

推荐阅读

int
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
int
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
int
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
int
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
int
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
int
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
int
Xcode 中多行代码缩进技巧

本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ... [详细]

蜡笔小新 2024-12-27 17:52:34
int
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
int
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
int
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
int
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
int
如何在WPS Office for Mac中调整Word文档的文字排列方向

本文将详细介绍如何使用最新版WPS Office for Mac调整Word文档中的文字排列方向。通过这些步骤，用户可以轻松更改文本的水平或垂直排列方式，以满足不同的排版需求。 ... [详细]

蜡笔小新 2024-12-27 12:34:14
int
存储器层次结构、随机访问存储器与数据存取机制

理解存储器的层次结构有助于程序员优化程序性能，通过合理安排数据在不同层级的存储位置，提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器（SRAM）和动态随机访问存储器（DRAM）的工作原理及其应用场景，并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]

蜡笔小新 2024-12-27 12:06:47
int
几何画板展示电场线与等势面的交互关系

几何画板是一款功能强大的物理教学软件，具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程，还能通过定量分析揭示物理现象背后的规律，尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]

蜡笔小新 2024-12-27 10:46:07
schema
MySQL中枚举类型的所有可能值获取方法

本文介绍了一种在MySQL数据库中查询枚举（ENUM）类型字段所有可能取值的方法，帮助开发者更好地理解和利用这一数据类型。 ... [详细]

蜡笔小新 2024-12-27 10:36:44

福田商务汽车-日照方傲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章