热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

Hadoop-Nutch学习整理(持续更新)

Nutch学习整理第一部分单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个:domain-urlfilter.txt是用来配置所爬取网站的范

Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范

Nutch学习整理 第一部分 单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。 Nutch的配置文件主要有两个:
  • domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    • nutch-site.xml 这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
      2、单机主要爬取命令 简单命令格式,不赘述。 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN]
      3、爬取结果解析 nutch爬取下来的网页信息,保存路径格式如下: \ \

      主要爬取信息保存在路径segments下:

      \\

      \

      \

      <喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="\">
      Segments下的文件夹含义:

      • crawl_generate :names a set of urls to be fetched
      • crawl_fetch : contains the status of fetching each url
      • crawl_parse : contains the outlink urls, used to update the crawldb
      • content : contains the content of each url
      • parse_text : contains the parsed text of each url
      • parse_data : contains outlinks and metadata parsed from each url

        Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成(待下载URL集合);crawl_fetch(每个下载URL的状态)、content在抓取时生成;crawl_parse(包含用来更新crawldb的外链)、parse_data、parse_text在解析抓取的数据文件时生成。 在进行爬取结果导出的时候,六个参数(-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate)分别对应需要导出的内容。 导出命令例: [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata
        <--未完待续-->









推荐阅读
  • 本文详细介绍了如何使用PHP检测AJAX请求,通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用,适用于各种Web开发场景。 ... [详细]
  • 本文探讨了 RESTful API 和传统接口之间的关键差异,解释了为什么 RESTful API 在设计和实现上具有独特的优势。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文详细分析了Hive在启动过程中遇到的权限拒绝错误,并提供了多种解决方案,包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 本文探讨了在Windows Server 2008环境下配置Tomcat使用80端口时遇到的问题,包括端口被占用、多项目访问失败等,并提供详细的解决方法和配置建议。 ... [详细]
  • 本文详细介绍了Java Web应用程序中的过滤器(Filter)功能,包括其作用、实现方式及配置方法。过滤器可以在请求到达目标资源之前对其进行预处理,并在响应返回给客户端之前进行后处理。 ... [详细]
  • 本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例,涵盖从入门到进阶的各个阶段,帮助读者全面提升JavaScript编程能力。 ... [详细]
  • 本文探讨了2012年4月期间,淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型,以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]
  • 本文介绍了ArcXML配置文件的分类及其在不同服务中的应用,详细解释了地图配置文件的结构和功能,包括其在Image Service、Feature Service以及ArcMap Server中的使用方法。 ... [详细]
  • 本文详细介绍如何利用已搭建的LAMP(Linux、Apache、MySQL、PHP)环境,快速创建一个基于WordPress的内容管理系统(CMS)。WordPress是一款流行的开源博客平台,适用于个人或小型团队使用。 ... [详细]
  • RecyclerView初步学习(一)
    RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式,除了提供ViewHolder缓存模式,还可以自定义动画,分割符,布局样式,相比于传统的ListVi ... [详细]
  • 解决MongoDB Compass远程连接问题
    本文记录了在使用阿里云服务器部署MongoDB后,通过MongoDB Compass进行远程连接时遇到的问题及解决方案。详细介绍了从防火墙配置到安全组设置的各个步骤,帮助读者顺利解决问题。 ... [详细]
  • 本文详细介绍如何使用Samba软件配置CIFS文件共享服务,涵盖安装、配置、权限管理及多用户挂载等关键步骤。通过具体示例和命令行操作,帮助读者快速搭建并优化Samba服务器。 ... [详细]
  • 本文详细探讨了HTTP 500内部服务器错误的成因、解决方案及其在Web开发中的影响。通过对具体案例的分析,帮助读者理解并解决此类问题。 ... [详细]
author-avatar
東臨天下2502892423
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有