Nutch源码阅读进程1inject

作者：H一直都在好麼 | 来源：互联网 | 2023-07-09 14:19

最近在Ubuntu下配置好了nutch和solr的环境，也用nutch爬取了一些网页，通过solr界面呈现，也过了一把自己建立小搜索引擎的瘾，现在该静下心来好好看看nutch的源码

最近在Ubuntu下配置好了nutch和solr的环境，也用nutch爬取了一些网页，通过solr界面呈现，也过了一把自己建立小搜索引擎的瘾，现在该静下心来好好看看nutch的源码了，先从Inject开始吧~~~

1.从crawl.java的main函数进入，执行： Configuration cOnf= NutchConfiguration.create()；

再进入NutchConfiguration（NutchConfiguration负责加载管理nutch的配置文件信息，该类继承自Configuration，继承了Configuration所有功能，加载配置文件功能也是继承自Configuration类）类的create方法，执行：Configuration cOnf= new Configuration();从执行结果可以看出在类Configuration的静态代码块中代码 addDefaultResource("core-default.xml");addDefaultResource("core-site.xml");可以看出是加载了core-default.xml, core-site.xml两个文件；

2.通过Configuration完成指定配置文件的加载，加载后的conf为：Configuration: core-default.xml, core-site.xml, nutch-default.xml, nutch-site.xml共四个配置文件；

之后回到crawl的main函数中执行：int res = ToolRunner.run(conf, new Crawl(), args);参数conf是刚刚加载好配置文件的Configuration对象，Crawl是要执行的对象类，args是用户输入的参数串，这里是使用hadoop的工具类ToolRunner运行实例Crawl类，即进入核心的爬虫模块；

然后进入ToolRunner类的run()方法，第一步就是利用类GenericOptionsParser（备注：GenericOptionsParser是hadoop框架中解析命令行参数的基本类。它能够辨别一些标准的命令行参数，能够使应用程序轻易地指定namenode，jobtracker，以及其他额外的配置资源）对输入的命令行参数args（如[urls, -dir, crawl20140724, -depth, 2, -threads, 8, -topN, 100]）进行解析，再执行：String[] toolArgs = parser.getRemainingArgs();获得解析后的参数数组（比如[urls, -dir, crawl20140724, -depth, 2, -threads, 8, -topN, 100]）；

然后执行返回语句：return tool.run(toolArgs);这里的tool就是Crawl类的对象，run（）方法也是Crawl类中的run方法；

3.解析完用户的输入参数后，执行Crawl类的run()方法。第一步就是配置程序的默认参数，如果用户没有相应的参数赋值就使用这些默认的参数。注意这里有一点编程思想可以借鉴：

int threads = getConf().getInt("fetcher.threads.fetch", 10);该行代码的getInt方法具体如下：

public int getInt(String name, int defaultValue) {
String valueString = get(name);//get的核心代码为：return substituteVars(getProps().getProperty(name));，主要是从配置文件中查找有没有相应的赋值
if (valueString == null)
    return defaultValue;//如果配置文件中没有赋值，则valueString为null，这是getInt方法的返回值就是默认值10，即defaultValue
try {
    String hexString = getHexDigits(valueString);
    if (hexString != null) {
        return Integer.parseInt(hexString, 16);
    }
    return Integer.parseInt(valueString);
} catch (NumberFormatException e) {
    return defaultValue;
    }
}

后面就是遍历args参数串，如果发现匹配的则对相应的变量赋值

第二步初始化jobconf：JobConf job = new NutchJob(getConf());执行后job为Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml, nutch-default.xml, nutch-site.xml等于讲conf的加入后还在JobConf类中的静态代码块中加入了配置文件mapred-default.xml, mapred-site.xml。

后面又初始化文件系统：FileSystem fs = FileSystem.get(job);下面是网上关于FileSystem的介绍（备注：

就像上节所说的，有时候我们无法通过设置URLStreamHandlerFactory方法的方式来通过URL读取数据，这时FIleSystem API就派上用场了。
Hadoop文件系统中的文件是用Hadoop的Path对象来表示的（而不是java中的java.io.File对象，因为它的语义太接近于本地文件系统了）。你可以把一个Path对象看做Hadoop文件系统中的某一个URL，如上例中的“hdfs://localhost/user/tom/quangle.txt”。
Filesystem是一个通用的文件系统API，所以使用它的第一步就是先抽取出它的一个实例出来——在这个例子中是HDFS。下面列出了几个Filesystem的用于抽取Filesystem实例的几个静态方法：

public static FileSystem get(Configuration conf) throws IOException
public static FileSystem get(URI uri, Configuration conf) throws IOException
public static FileSystem get(URI uri, Configuration conf, String user) throws IOException

一个Configuration对象封装了客户端或服务器端的配置信息，这些配置信息是通过从conf/core-size.xml之类的配置文件中读取出来的名值对来设置的。下面我们一一说明上面的三个方法：
1）第一个方法返回一个默认的文件系统（在conf/core-site.xml中通过fs.default.name来指定的，如果在conf/core-site.xml中没有设置则返回本地文件系统）。
2）第二个方法通过uri来指定要返回的文件系统（例如，如果uri是上个测试例子中的hdfs://localhost/user/tom/quangle.txt，也即以hdfs标识开头，那么就返回一个hdfs文件系统，如果uri中没有相应的标识则返回本地文件系统）。
3）第三个方法返回文件系统的机理同（2）是相同的，但它同时又限定了该文件系统的用户，这在安全方面是很重要的。

）

4.初始化jobconf和filesystem后，主要是一些参数的界面输出，以及明确临时文件的存放位置并初始化nutch爬取的几个流程类inject、generate、fetch、parse和update等；

然后执行：injector.inject(crawlDb, rootUrlDir);初始化CrawlDb，实现将url转换为指定格式的输入；

进入该方法后，设置一些的参数，包括输入输出，mapper类等，最后提交job交由mapreduce执行，JobClient.runJob(sortJob);

通过调试模式看到，程序是先进入了Inject类的configurable方法进行了一些参数的赋值，然后跳到Inject类的map方法，该方法主要包括：读取url，对url进行分割，url规范化和过滤的操作，然后返回一个处理后的url；

然后再生声明CrawlDatum类：CrawlDatum datum = new CrawlDatum(CrawlDatum.STATUS_INJECTED, customInterval);，最终是要将输入数据转换为格式的，设置一些url的初始化数据（在ScroingFilters类中的injectedScore方法可以看到的datum值为：

Version: 7
Status: 66 (injected)
Fetch time: Thu Jul 24 23:04:37 CST 2014
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)
Score: 1.0
Signature: null
Metadata:
）

通过调试看到程序执行完Inject的map方法后会跳到MapRunner中的run方法，部分代码如下：

public void run(RecordReader input, OutputCollector output,
Reporter reporter)
throws IOException {
try {
// allocate key & value instances that are re-used for all entries
K1 key = input.createKey();
V1 value = input.createValue();

while (input.next(key, value)) {

……

其中in就是url存放的文件的读入流；

然后又跳入LoadJobRunner类中执行代码，在这里会执行：ReduceTask reduce =
new ReduceTask(systemJobFile.toString(), reduceId, 0, mapIds.size(),
1);……reduce.run(localConf, this);……的代码

之后会有一些输入输出流的关闭以及杀死一些线程，还有删除本地的一些临时文件

以上便是nutch的Inject部分的实现流程。

参考博文：http://blog.csdn.net/amuseme_lu/article/details/6713386

友情赞助

如果你觉得博主的文章对你那么一点小帮助，恰巧你又有想打赏博主的小冲动，那么事不宜迟，赶紧扫一扫，小额地赞助下，攒个奶粉钱，也是让博主有动力继续努力，写出更好的文章^^。

　　　　1. 支付宝　　　　　　　　　　　　　　　　　　　　　　　　　　2. 微信

Nutch源码阅读进程1---inject 　　　　　　　　　　　　　　　　　　　　　　

推荐阅读

php
Linux下部署Symfoy2对app/cache和app/logs目录的权限设置，symfoy2logs

php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置，symfoy2logs黑色记事本源码,vsco ... [详细]

蜡笔小新 2023-10-17 20:32:59
settings
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
import
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
int
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
php
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
import
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
const
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
io
C语言注释工具及快捷键，删除C语言注释工具的实现思路

本文介绍了C语言中注释的两种方式以及注释的作用，提供了删除C语言注释的工具实现思路，并分享了C语言中注释的快捷键操作方法。 ... [详细]

蜡笔小新 2023-12-14 11:22:08
int
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
int
【openwrt】设备mt7628关于wan侧eth0.1 mac地址固定的问题

本文讨论了在openwrt-17.01版本中，mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下，而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等，生成后的mac地址会保存在/etc/config/network下。 ... [详细]

蜡笔小新 2023-12-12 17:47:48
import
r2dbc配置多数据源

R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]

蜡笔小新 2023-12-12 16:38:53
int
Java中包装类的设计原因以及操作方法

本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中，除了对象类型，还有八大基本类型，为了将基本类型转换成对象，Java引入了包装类。文章通过介绍包装类的定义和实现，解答了为什么需要包装类的问题，并提供了简单易用的操作方法。通过本文的学习，读者可以更好地理解和应用Java中的包装类。 ... [详细]

蜡笔小新 2023-12-12 15:48:10
php
mui框架offcanvas侧滑超出部分隐藏无法滚动如何解决

web前端|js教程off-canvas,部分,超出web前端-js教程mui框架中off-canvas侧滑的一个缺点就是无法出现滚动条，因为它主要用途是设置类似于qq界面的那种格 ... [详细]

蜡笔小新 2023-10-17 20:40:03
php
Oracle 和 mysql的9点区别【MySQL】

数据库|mysql教程oracle,Oracle,money,mysql,coun数据库-mysql教程1.组函数用法规则mysql中组函数在select语句中可以随意使用，但在o ... [详细]

蜡笔小新 2023-10-17 19:49:32
php
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48

H一直都在好麼

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章