热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python爬虫使用MongoDB提示Noconnectionadapterswerefoundfor如何解决?

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
#####coding=utf-8

import urllib

import urllib.request

import pymysql

import time

import requests

import datetime

import pandas as pd

from bs4 import BeautifulSoup

import pymongo

from pymongo import MongoClient

import gridfs



#####获取mongoClient对象

client = pymongo.MongoClient("localhost", 27017)

#####获取使用的database对象

db = client.news

#####开始爬取数据

def start_crawler():

    page_num = 1

    while page_num<=1:

        url = "http://www.sxcoal.com/news/seniorsearch?GeneralNewsSearch%5Bcategory_id%5D%5B0%5D=1&GeneralNewsSearch%5Bnews_industry_ids%5D=&GeneralNewsSearch%5Bnews_tag_ids%5D=&GeneralNewsSearch%5Bport_ids%5D=&GeneralNewsSearch%5Bprov_area_id%5D=&page={}&per-page=10".format(page_num)

        print (url)

        page_num += 1

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        headers = { 'User-Agent' : user_agent }

        req = urllib.request.Request(url,headers=headers)

        respOnse=requests.get(url,headers=headers)

        cOntent=response.text

        one_page = get_page_news(content)

        time.sleep(1)

        if one_page:

            to_mysql(one_page)

            time.sleep(1)

        else:

            break

    print ('新闻抓取完毕')          

#####爬取新闻标题、日期、地址到数据库

def to_mysql(one_page):

    print (one_page)

def get_page_news(content):

    soup = BeautifulSoup(content,'lxml')

    one_page_list = []

    for i in soup.find_all("div",class_="artnr"):  

        title = i.select('h4')[0].text

        url = i.a['href']

        date = i.p.find('span',class_='spandate').string.split(" ")[1]        

        one_page={'title':title,'url':url,'date':date,'type':'news','label':'www.sxcoal.com'}

        db.newstitle.insert_one(one_page)

        one_page_list.append((title,url,date))

    return one_page_list  

#####抓取具体内容

def get_new_body():

    link_list = get_news_linksfrom_database()

    for url in link_list:

        news_body = get_news_text(url)

        print('_id')

        #写入数据库

        one_page={'newsbody':get_news_text(url)}

        db.newstitle.insert_one(one_page)  

    print("新闻主体完毕!")

def get_news_linksfrom_database():  

    result = db.newstitle.find({'label':'www.sxcoal.com'},{'_id':1,'url':1})    

    return result if result else []

def get_news_text(url):

    html = requests.get(url)

    html.encoding = html.apparent_encoding

    soup = BeautifulSoup(html.text,'html.parser')

    try:

        return str(soup.find('div',{'id':'Zoom'}))

    except:

        return None

if __name__ == '__main__':  

    '''爬取新闻简要'''

#####   start_crawler() #开始爬虫

    '''爬取具体新闻'''

    get_new_body()

start_crawler()执行没有问题
get_new_body()执行报错

1
requests.exceptions.InvalidSchema: No connection adapters were found for '{'url': 'http://www.sxcoal.com/news/4564136/info', '_id': ObjectId('5a0ab7b7d1e44d23281339e6')}'

求大神解答


推荐阅读
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • 本文详细介绍了Python编程语言的学习路径,涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划,帮助初学者快速掌握Python的核心技能。 ... [详细]
  • 使用Pandas高效读取SQL脚本中的数据
    本文详细介绍了如何利用Pandas直接读取和解析SQL脚本,提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本,并且能够显著提升数据导入的速度和效率。 ... [详细]
  • Python3 中使用 lxml 模块解析 XPath 数据详解
    XPath 是一种用于在 XML 文档中查找信息的路径语言,同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]
  • 本文详细介绍 Go+ 编程语言中的上下文处理机制,涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 离线环境下的Python及其第三方库安装指南
    在项目开发中,有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库,确保开发工作的顺利进行。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 在学习网页爬虫时,使用Selenium进行自动化操作。初次安装selenium模块后,第二天运行代码时遇到了ImportError:无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
  • 本文详细介绍了如何通过RPM包在Linux系统(如CentOS)上安装MySQL 5.6。涵盖了检查现有安装、下载和安装RPM包、配置MySQL以及设置远程访问和开机自启动等步骤。 ... [详细]
  • 基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发
    本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]
  • MongoDB的核心特性与架构解析
    本文深入探讨了MongoDB的核心特性,包括其强大的查询语言、灵活的文档模型以及高效的索引机制。此外,还详细介绍了MongoDB的体系结构,解释了其文档、集合和数据库的层次关系,并对比了MongoDB与传统关系型数据库(如MySQL)的逻辑结构。 ... [详细]
author-avatar
AD518最丶设计
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有