NUTCH主要源代码分析心得

作者：大苏打的苏打水 | 来源：互联网 | 2023-08-30 19:11

主要类分析：一、org.apache.nutch.crawl.Injector:1，注入url.txt2，url标准化3，拦

主要类分析&＃xff1a;
一、 org.apache.nutch.crawl.Injector:
    1&＃xff0c;注入url.txt
    2&＃xff0c;url标准化
    3&＃xff0c;拦截url&＃xff0c;进行正则校验&＃xff08;regex-urlfilter.txt&＃xff09;
    4&＃xff0c;对符URL标准的url进行map对构造&＃xff0c;在构造过程中给CrawlDatum初始化得分&＃xff0c;分数可影响url host的搜索排序&＃xff0c;和采集优先级&＃xff01;
    5&＃xff0c;reduce只做一件事&＃xff0c;判断url是不是在crawldb中已经存在&＃xff0c;如果存在则直接读取原来CrawlDatum&＃xff0c;如果是新host&＃xff0c;则把相应状态存储到里边&＃xff08;STATUS_DB_UNFETCHED&＃xff08;状态意思为没有采集过&＃xff09;&＃xff09;

二、org.apache.nutch.crawl.Generator:
    1&＃xff0c;过滤不及格url &＃xff08;使用url过滤插件&＃xff09;
    2&＃xff0c;检测URL是否在有效更新时间里
    3&＃xff0c;获取URL metaData&＃xff0c;metaData记录了url上次更新时间
    4&＃xff0c;对url进行打分
    5&＃xff0c;将url载入相应任务组&＃xff08;以host为分组&＃xff09;
    6&＃xff0c;计算url hash值
    7&＃xff0c;收集url, 直至到达 topN 指定量

三、 org.apache.nutch.crawl.Fetcher:
    1&＃xff0c;从segment中读取&＃xff0c;将它放入相应的队列中&＃xff0c;队列以queueId为分类&＃xff0c;而queueId是由协议://ip 组成&＃xff0c;在放入队列过程中&＃xff0c;
       如果不存在队列则创建&＃xff08;比如javaeye的所有地址都属于这个队列&＃xff1a;http://221.130.184.141&＃xff09; --> queues.addFetchItem(url, datum);
    2&＃xff0c;检查机器人协议是否允许该url被爬行(robots.txt) --> protocol.getRobotRules(fit.url, fit.datum);
    3&＃xff0c;检查url是否在有效的更新时间里 --> if (rules.getCrawlDelay() > 0)
    4&＃xff0c;针对不同协议采用不同的协议采用不同机器人&＃xff0c;可以是http、ftp、file&＃xff0c;这地方已经将内容保存下来&＃xff08;Content&＃xff09;。 --> protocol.getProtocolOutput(fit.url, fit.datum);
    5&＃xff0c;成功取回Content后&＃xff0c;在次对HTTP状态进行识别&＃xff08;如200、404&＃xff09;。--> case ProtocolStatus.SUCCESS:
    6&＃xff0c;内容成功保存&＃xff0c;进入ProtocolStatus.SUCCESS区域&＃xff0c;在这区域里&＃xff0c;系统对输出内容进行构造。 --> output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
    7&＃xff0c;在内容构造过程中&＃xff0c;调取内容解析器插件&＃xff08;parseUtil&＃xff09;&＃xff0c;如mp3\html\pdf\word\zip\jsp\swf……。 --> this.parseUtil.parse(content); --> parsers[i].getParse(content);
    8&＃xff0c;我们现在研究html解析&＃xff0c;所以只简略说明HtmlParser&＃xff0c;HtmlParser中&＃xff0c;会解析出text,title, outlinks, metadata。
       text&＃xff1a;过滤所有HTML元素&＃xff1b;title&＃xff1a;网页标题&＃xff1b;outlinks&＃xff1a;url下的所有链接&＃xff1b;metadata&＃xff1a;这东西分别做那么几件事情首先检测url头部的meta name&＃61;"robots" 看看是否允许蜘蛛爬行&＃xff0c;
       其次通过对meta http-equiv refresh等属性进行识别记录&＃xff0c;看页面是否需要转向。

四、 org.apache.nutch.parse.ParseSegment&＃xff1a;
    1&＃xff0c;这个类逻辑就相对简单很多了哦&＃xff0c;它对我们也是很有价值的&＃xff0c;它只做一件事情&＃xff0c;就是对爬行下来的Content&＃xff08;原始HTML&＃xff09;进行解析&＃xff0c;具体解析通过插件来实现。
        比如我们要做的数据分析、数据统计都可以在这进行实现。
    2&＃xff0c;执行完成后&＃xff0c;输出三个Map对解析内容、包含所有链接的分析后的结果、outlinks

五、org.apache.nutch.crawl.CrawlDb&＃xff1a;
    主要根据crawld_fatch输出更新crawldb。
    1&＃xff0c;map对crawld_fatch、crawldb地址进行标准化&＃xff08;nomalizer&＃xff09;和拦截操作&＃xff08;filte&＃xff09;&＃xff1b;
    2&＃xff0c;reduce在对两crawld_fatch和crawldb进行合并更新。

六、org.apache.nutch.crawl.LinkDb&＃xff1a;
   这个类的作用是管理新转化进来的链接映射&＃xff0c;并列出每个url的外部链接(incoming links)。
    1&＃xff0c;先是对每一个url取出它的outLinks&＃xff0c;作map操作把这个url作为每个outLinks的incoming link&＃xff0c;
    2&＃xff0c;在reduce里把根据每个key来把一个url的所有incoming link都加到inlinks里。
    3&＃xff0c;这样就把每个url的外部链接统计出来了&＃xff0c;注意&＃xff0c;系统对只对外部链接进行统计&＃xff0c;什么叫外部链接呢&＃xff0c;就是只对不同host进行统计&＃xff0c;
       记住javaeye.com和biaowen.javaeye.com是两个不同的host哦。 --> boolean ignoreInternalLinks &＃61; true;
    4&＃xff0c;然后一步是对这些新加进来的链接进行合并。

七、 org.apache.nutch.crawl.Indexer&＃xff1a;
   这个类的任务是另一方面的工作了&＃xff0c;它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。
   这里的输入就比较多了&＃xff0c;有segments下的fetch_dir,parseData和parseText&＃xff0c;还有crawldb下的 current_dir和linkdb下的current_dir。
    1&＃xff0c;在这个类里&＃xff0c;map将所有输入都装载到一个容器里边&＃xff0c;
    2&＃xff0c;再到reduce进行分类处理&＃xff0c;
    3&＃xff0c;实现拦截 --> this.filters.filter(doc, parse, key, fetchDatum, inlinks);
    4&＃xff0c;打分 --> this.scfilters.indexerScore(key, doc, dbDatum,fetchDatum, parse, inlinks, boost);
    5&＃xff0c;当然要把这些数据体组合成一个 lucene的document让它索引了。
    6&＃xff0c;在reduce里组装好后收集时是&＃xff0c;最后在输出的OutputFormat类里进行真正的索引。
        doc里有如下几个field
            content&＃xff08;正文&＃xff09;
            site    &＃xff08;所属主地址&＃xff09;
            title    &＃xff08;标题&＃xff09;
            host    &＃xff08;host&＃xff09;
           segement    (属于哪个segement)
            digest    (MD5码&＃xff0c;去重时候用到)
            tstamp    &＃xff08;时间戳&＃xff09;
           url    &＃xff08;当前URL地址&＃xff09;
            载了一个例子&＃xff1a;
               doc &＃61;
                   {content&＃61;[biaowen - JavaEye技术网站首页新闻论坛博客招聘更多 ▼ 问答 ………………&＃xff08;内容省略&＃xff09;………… biaowen 永NF/ICP备05023328号],
                   site&＃61;[biaowen.javaeye.com],
                   title&＃61;[biaowen - JavaEye技术网站],
                   host&＃61;[biaowen.javaeye.com],
                   segment&＃61;[20090725083125],
                   digest&＃61;[063ba8430fa84e614ce71276e176f4ce],
                   tstamp&＃61;[20090725003318265],
                   url&＃61;[http://biaowen.javaeye.com/]}

八、 org.apache.nutch.crawl.DeleteDuplicates&＃xff1a;
   这个类的作用就是这它的名字所写的意思&＃xff0d;&＃xff0d;去重。
   前面索引后&＃xff08;当然不是一次时的情况&＃xff09;会有重复&＃xff0c;所以要去重。为什么呢&＃xff0c;在一次索引时是不重复的&＃xff0c;可是多次抓取后就会有重复了。
   就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准&＃xff0c;一种是以内容的md5值为标准。

九、org.apache.nutch.indexer.IndexMerger&＃xff1a;
    这个类就相对简单了&＃xff0c;目的将多个indexes合并为一个index&＃xff0c;直接调用lucene方法实现&＃xff01;

附带些参考资料&＃xff1a;

目录结构&＃xff0c;参考自《Lucene&＃43;Nutch搜索引擎开发》

    一、crawldb
下载的url&＃xff0c;以及下载日期&＃xff0c;用来进行页面更新

    二、segements    存放抓取页面和分析结果

                        1、crawl_generate&＃xff1a;待下载url

                        2、crawl_fetch&＃xff1a;每个下载url的状态

                        3、content&＃xff1a;每个下载页面的内容

                        4、parse_text&＃xff1a;包含每个解析过的url文本内容

                        5、parse_data&＃xff1a;每个url解析出的外部链接和元数据

                        6、crawl_parse&＃xff1a;用来更新crawl的外部链接库

    三、linkdb    存放url的互联关系

    四、indexes&＃xff1a;存放每次下载的独立索引目录

    五、index&＃xff1a;符合lucene格式的索引目录&＃xff0c;是indexes里所有index合并后的完整索引

推荐阅读

hash
解析与应用：org.apache.gobblin.metrics.GobblinMetrics.getName() 方法

本文详细探讨了 Java 中 org.apache.gobblin.metrics.GobblinMetrics 类下的 getName() 方法的使用场景及其代码实现，提供了多个实际应用示例以加深理解。 ... [详细]

蜡笔小新 2024-11-20 13:26:36
hash
解决Spring Cloud Eureka自定义端口时连接错误的问题

在尝试通过自定义端口部署Spring Cloud Eureka时遇到了连接失败的问题。本文详细描述了问题的现象，并提供了有效的解决方案，以帮助遇到类似情况的开发者。 ... [详细]

蜡笔小新 2024-11-20 13:05:47
uri
PHP中防止SQL注入的高级策略（下）_MySQL

本文详细探讨了如何在PHP中有效防止SQL注入攻击，特别是在使用MySQL数据库时。文章通过具体示例和专业建议，帮助开发者理解和应用最佳实践。 ... [详细]

蜡笔小新 2024-11-17 14:31:22
int
PHP函数的工作原理与性能分析

在编程语言中，函数是最基本的组成单元。本文将探讨PHP函数的特点、调用机制以及性能表现，并通过实际测试给出优化建议。 ... [详细]

蜡笔小新 2024-11-16 19:21:45
buffer
Oracle 中从 XMLType 列提取数据并插入到 VARCHAR2 列：性能优化

本文讨论了在 Oracle 10gR2 和 Solaris 10 64-bit 环境下，从 XMLType 列中提取数据并插入到 VARCHAR2 列时遇到的性能问题，并提供了优化建议。 ... [详细]

蜡笔小新 2024-11-15 11:32:10
case
Java 中 com.apollographql.apollo.api.internal.Optional.orNull() 方法详解与示例

本文详细介绍了 com.apollographql.apollo.api.internal.Optional 类中的 orNull() 方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-14 15:03:23
case
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
case
Hibernate 抓取策略与检索配置详解

本文详细介绍了Hibernate中的立即检索与延迟检索的概念及区别，同时探讨了类级别与关联级别的检索配置方法。通过具体的配置示例，帮助开发者更好地理解和应用这些策略。 ... [详细]

蜡笔小新 2024-11-20 10:03:01
list
提升Android应用性能：利用Kotlin协程

协程作为一种并发设计模式，能有效简化Android平台上的异步代码处理。自Kotlin 1.3版本引入协程以来，这一特性基于其他语言的成熟理念，为开发者提供了新的工具，以增强应用的响应性和效率。 ... [详细]

蜡笔小新 2024-11-19 10:13:02
install
CentOS 7 下 Python 3.7 的安装与配置

本文详细介绍了在 CentOS 7 系统中安装 Python 3.7 的步骤，包括编译工具的安装、Python 3.7 源码的下载与编译、软链接的创建以及常见错误的处理方法。 ... [详细]

蜡笔小新 2024-11-18 12:21:04
buffer
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
int
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58
version
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
version
Automated Region Validation in AWS SDK Provider

This feature automatically validates new regions using the AWS SDK, ensuring compatibility and accuracy. ... [详细]

蜡笔小新 2024-11-13 21:40:42
version
匡威携React科技重磅回归篮球鞋市场

匡威凭借其经典鞋款 Chuck Taylor All Star 重返篮球鞋领域，推出全新 All Star Pro BB 篮球鞋，搭载 Nike 最新技术。 ... [详细]

蜡笔小新 2024-11-12 11:57:11

大苏打的苏打水

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章