抓取网易新闻的python代码示例

作者：sdlzq | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了Python正则抓取网易新闻的方法,结合实例形式较为详细的分析了Python使用正则进行网易新闻抓取操作的相关实现技巧与注意事项,需要的朋友可以参考下

本文实例讲述了Python正则抓取网易新闻的方法。分享给大家供大家参考，具体如下：

自己写了些关于抓取网易新闻的爬虫，发现其网页源代码与网页的评论根本就对不上，所以，采用了抓包工具得到了其评论的隐藏地址（每个浏览器都有自己的抓包工具，都可以用来分析网站）

如果仔细观察的话就会发现，有一个特殊的，那么这个就是自己想要的了

接下来就是代码了(也照着大神的改改写写了)。

#coding=utf-8
import urllib2
import re
import json
import time
class WY():
  def __init__(self):
    self.headers = {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like &＃39;}
    self.url=&＃39;http://comment.news.163.com/data/news3_bbs/df/B9IBDHEH000146BE_1.html&＃39;
  def getpage(self,page):
    full_url=&＃39;http://comment.news.163.com/cache/newlist/news3_bbs/B9IBDHEH000146BE_&＃39;+str(page)+&＃39;.html&＃39;
    return full_url
  def gethtml(self,page):
    try:
      req=urllib2.Request(page,None,self.headers)
      respOnse= urllib2.urlopen(req)
      html = response.read()
      return html
    except urllib2.URLError,e:
      if hasattr(e,&＃39;reason&＃39;):
        print u"连接失败",e.reason
        return None
  #处理字符串
  def Process(self,data,page):
    if page == 1:
      data=data.replace(&＃39;var replyData=&＃39;,&＃39;&＃39;)
    else:
      data=data.replace(&＃39;var newPostList=&＃39;,&＃39;&＃39;)
    reg1=re.compile(" \[")
    data=reg1.sub(&＃39; &＃39;,data)
    reg2=re.compile(&＃39;<\\\/a>\]&＃39;)
    data=reg2.sub(&＃39;&＃39;,data)
    reg3=re.compile(&＃39;
&＃39;)
    data=reg3.sub(&＃39;&＃39;,data)
    return data
  #解析json
  def dealJSON(self):
    with open("WY.txt","a") as file:
      file.write(&＃39;ID&＃39;+&＃39;|&＃39;+&＃39;评论&＃39;+&＃39;|&＃39;+&＃39;踩&＃39;+&＃39;|&＃39;+&＃39;顶&＃39;+&＃39;\n&＃39;)
    for i in range(1,12):
      if i == 1:
        data=self.gethtml(self.url)
        data=self.Process(data,i)[:-1]
        value=json.loads(data)
        file=open(&＃39;WY.txt&＃39;,&＃39;a&＃39;)
        for item in value[&＃39;hotPosts&＃39;]:
          try:
            file.write(item[&＃39;1&＃39;][&＃39;f&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;b&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;a&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;v&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;\n&＃39;)
          except:
            continue
        file.close()
        print &＃39;--正在采集%d/12--&＃39;%i
        time.sleep(5)
      else:
        page=self.getpage(i)
        data = self.gethtml(page)
        data = self.Process(data,i)[:-2]
        # print data
        value=json.loads(data)
        # print value
        file=open(&＃39;WY.txt&＃39;,&＃39;a&＃39;)
        for item in value[&＃39;newPosts&＃39;]:
          try:
            file.write(item[&＃39;1&＃39;][&＃39;f&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;b&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;a&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;|&＃39;)
            file.write(item[&＃39;1&＃39;][&＃39;v&＃39;].encode(&＃39;utf-8&＃39;)+&＃39;\n&＃39;)
          except:
            continue
        file.close()
        print &＃39;--正在采集%d/12--&＃39;%i
        time.sleep(5)
if __name__ == &＃39;__main__&＃39;:
  WY().dealJSON()

以上就是我爬取的代码了。

以上就是抓取网易新闻的python代码示例的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

php
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
substring
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
random
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
php
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
utf-8
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
php
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
php
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
utf-8
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
input
使用URLConnection进行网页抓取与解析

本文介绍了如何利用Java中的URLConnection类来实现基本的网络爬虫功能，包括向目标网站发送请求、接收HTML响应、解析HTML以提取所需信息，并处理可能存在的递归爬取需求。 ... [详细]

蜡笔小新 2024-12-18 19:40:22
php
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
php
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
replace
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
utf-8
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
php
Java 中重写与重载的区别

本文详细解析了 Java 编程语言中重写（Override）和重载（Overload）的概念及其主要区别，帮助开发者更好地理解和应用这两种多态性机制。 ... [详细]

蜡笔小新 2024-12-20 09:23:33
php
MySQL Debug 模式的实现与应用

本文详细介绍了如何启用和使用 MySQL 的调试模式，包括编译选项、环境变量配置以及调试信息的解析。通过实际案例展示了如何利用调试模式解决客户端无法连接服务器的问题。 ... [详细]

蜡笔小新 2024-12-19 19:17:32

sdlzq

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章