当前位置: 开发笔记 > 编程语言 > 正文

Nutch插件系统浅析

作者：aadsasdass_998_268 | 来源：互联网 | 2023-05-19 09:44

http:www.ibm.comdeveloperworkscnjavaj-lo-nutchpluginNutch插件系统浅析赵才文,软件研发赵才文，喜欢研究各种技术和框架，感谢

http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/

Nutch 插件系统浅析

赵才文, 软件研发赵才文，喜欢研究各种技术和框架，感谢父母、LP anlu 和宝贝儿子 hamberg 的支持。

简介： 本文中，您可以通过研究分析 Nutch 插件系统的内部架构和流程，来掌握 Nutch 插件系统的核心设计。架构师可参考 Nutch 的插件系统设计出更加灵活的系统架构。

发布日期： 2009 年 12 月 24 日
级别： 中级
访问情况： 4952 次浏览
评论： 0 (查看 | 添加评论 - 登录)

平均分 (9个评分)
为本文评分

Nutch 基本情况

Nutch 是 Apache 基金会的一个开源项目，它原本是开源文件索引框架 Lucene 项目的一个子项目，后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发，基于 Lucene 框架，提供 Web 网页爬虫功能。另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展，正是由于有此框架，使得 Nutch 的插件开发非常容易，第三方的插件也层出不穷，极大的增强了 Nutch 的功能和声誉。本文就是主要描述这个插件框架内部运行的机制和原理。

回页首

Nutch 的插件体系结构

在 Nutch 的插件体系架构下，有些术语需要在这里解释：

扩展点 ExtensionPoint
扩展点是系统中可以被再次扩展的类或者接口，通过扩展点的定义，可以使得系统的执行过程变得可插入，可任意变化。
扩展 Extension
扩展式插件内部的一个属性，一个扩展是针对某个扩展点的一个实现，每个扩展都可以有自己的额外属性，用于在同一个扩展点实现之间进行区分。扩展必须在插件内部进行定义。
插件 Plugin
插件实际就是一个虚拟的容器，包含了多个扩展 Extension、依赖插件 RequirePlugins 和自身发布的库 Runtime，插件可以被启动或者停止。

Nutch 为了扩展，预留了很多扩展点 ExtenstionPoint，同时提供了这些扩展点的基本实现 Extension，Plugin 用来组织这些扩展，这些都通过配置文件进行控制，主要的配置文件包括了多个定义扩展点和插件（扩展）的配置文件，一个控制加载哪些插件的配置文件。体系结构图如下：

图 1. Nutch 插件体系结构图

回页首

插件的内部结构

图 2. 插件的内部结构

runtime 属性描述了其需要的 Jar 包，和发布的 Jar 包
requires 属性描述了依赖的插件
extension-point 描述了本插件宣布可扩展的扩展点
extension 属性则描述了扩展点的实现

典型的插件定义：

    id="query-url" 插件的ID
    name="URL Query Filter"  插件的名字
    version="1.0.0"  插件的版本
    provider-name="nutch.org"> 插件的提供者ID

    
         依赖的Jar包
              发布的Jar包
        
    

    
         依赖的插件
    

            name="Nutch URL Query Filter"  扩展的名字
        point="org.apache.nutch.searcher.QueryFilter"> 扩展的扩展点ID
                    class="org.apache.nutch.searcher.url.URLQueryFilter"> 实现类
             实现的相关属性

回页首

插件主要配置

plugin.folders：插件所在的目录，缺省位置在 plugins 目录下。


    plugin.folders
    plugins
    Directories where nutch plugins are located.  Each
    element may be a relative or absolute path.  If absolute, it is used
    as is.  If relative, it is searched for on the classpath.

plugin.auto-activation：当被配置为过滤（即不加载），但是又被其他插件依赖的时候，是否自动启动，缺省为 true。


  plugin.auto-activation
  true
  Defines if some plugins that are not activated regarding
  the plugin.includes and plugin.excludes properties must be automaticaly
  activated if they are needed by some actived plugins.

plugin.includes：要包含的插件名称列表，支持正则表达式方式定义。


  plugin.includes
  protocol-http|urlfilter-regex|parse-(text|html|js)|index-(basic|anchor)
    |query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|
    urlnormalizer-(pass|regex|basic)
  
  Regular expression naming plugin directory names to
  include.  Any plugin not matching this expression is excluded.
  In any case you need at least include the nutch-extensionpoints plugin. By
  default Nutch includes crawling just HTML and plain text via HTTP,
  and basic indexing and search plugins. In order to use HTTPS please enable 
  protocol-httpclient, but be aware of possible intermittent problems with the 
  underlying commons-httpclient library.

plugin.excludes：要排除的插件名称列表，支持正则表达式方式定义。


  plugin.excludes
  
  Regular expression naming plugin directory names to exclude.

回页首

插件主要类 UML 图

图 3. 插件主要类 UML 图（查看大图）

类包括：

PluginRepository 是一个通过加载 Iconfiguration 配置信息初始化的插件库，里面维护了系统中所有的扩展点 ExtensionPoint 和所有的插件 Plugin 实例
ExtensionPoint 是一个扩展点，通过扩展点的定义，插件 Plugin 才能定义实际的扩展 Extension，从而实现扩展，每个 ExtensionPoint 类实例都维护了宣布实现了此扩展点的扩展 Extension.
Plugin 是一个虚拟的组织，提供了一个启动 start 和一个 shutdown 方法，从而实现了插件的启动和停止，他还有一个描述对象 PluginDescriptor，负责保存此插件相关的配置信息，另外还有一个 PluginClassLoader 负责此插件相关类和库的加载。

回页首

插件加载过程

图 4 . 插件加载过程时序图（查看大图）

通过序列图可以发现，Nutch 加载插件的过程需要 actor 全程直接调用每个关联对象，最终得到的是插件的实现对象。详细过程如下：

首先通过 PluginRepository.getConf() 方法加载配置信息，配置的内容包括插件的目录，插件的配置文件信息 plugin.properties 等，此时 pluginrepository 将根据配置信息加载各个插件的 plugin.xml，同时根据 Plugin.xml 加载插件的依赖类。
当 actor 需要加载某个扩展点的插件的时候，他可以：
1. 首先根据扩展点的名称，通过 PluginRepository 得到扩展点的实例，即 ExtensionPoint 类的实例；
2. 然后调用 ExtensionPoint 对象的 getExtensions 方法，返回的是实现此扩展点的实例列表（Extension[]）；
3. 对每个实现的扩展实例 Extension，调用它的 getExtensionInstance() 方法，以得到实际的实现类实例，此处为 Object；
4. 根据实际情况，将 Object 转型为实际的类对象类型，然后调用它们的实现方法，例如 helloworld 方法。

回页首

插件的典型调用方式

得到某个语言例如“GBK”扩展点的实例：

this.extensionPoint.getExtensions();// 得到扩展点的所有扩展
    for (int i=0; i        if (“GBK”.equals(extensions[i].getAttribute("lang"))) {// 找到某个属性的扩展
            return extensions[i];// 返回
        } 
    } 
} 
extension.getExtensionInstance()// 得到此扩展实现的实例对象

回页首

插件类加载机制

实际整个系统如果使用了插件架构，则插件类的加载是由 PluginClassLoader 类完成的，每个 Plugin 都有自己的 classLoader，此 classloader 继承自 URLClassLoader，并没有做任何事情：

public class PluginClassLoader extends URLClassLoader { 
    /** 
    * Construtor 
    * 
    * @param urls 
    *          Array of urls with own libraries and all exported libraries of 
    *          plugins that are required to this plugin 
    * @param parent 
    */ 
    public PluginClassLoader(URL[] urls, ClassLoader parent) { 
        super(urls, parent); 
    } 
}

这个 classloader 是属于这个插件的，它只负责加载本插件相关的类、本地库和依赖插件的发布 (exported) 库，也包括一些基本的配置文件例如 .properties 文件。

此类的实例化过程：

if (fClassLoader != null) 
    return fClassLoader; 
ArrayList arrayList = new ArrayList(); 
arrayList.addAll(fExportedLibs); 
arrayList.addAll(fNotExportedLibs); 
arrayList.addAll(getDependencyLibs()); 
File file = new File(getPluginPath()); 
try { 
    for (File file2 : file.listFiles()) { 
        if (file2.getAbsolutePath().endsWith("properties")) 
            arrayList.add(file2.getParentFile().toURL()); 
    } 
} catch (MalformedURLException e) { 
    LOG.debug(getPluginId() + " " + e.toString()); 
} 
URL[] urls = arrayList.toArray(new URL[arrayList.size()]); 
fClassLoader = new PluginClassLoader(urls, PluginDescriptor.class 
    .getClassLoader()); 
return fClassLoader;

首先判断缓存是否存在
加载需要的 Jar 包、自身需要的 Jar 包，依赖插件发布的 Jar 包
加载本地的 properties 文件
构造此 classloader，父 classloader 为 PluginDescriptor 的加载者，通常是 contextClassLoader

回页首

总结

Nutch 是一个非常出色的开源搜索框架，它的插件架构更加是它的一个技术亮点，通过此架构，可以保证 Nutch 方便的被灵活的扩展而不用修改原来的代码，通过配置文件可以简单方便的控制加载或者不加载哪些插件，而且这些都不需要额外的容器支持。这些都是我们在系统架构设计的时候可以学习和参考的有益经验。

参考资料

学习

查看网站“Nutch 官方网站”，了解 Nutch 的基本情况。
“Nutch 实战”（developerWorks，2008 年 11 月）：本文介绍了开源搜索引擎 Nutch 的基本信息，并详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意的问题。
“开发基于 Nutch 的集群式搜索引擎”（developerWorks，2008 年 10 月）：本文首先介绍 Nutch 的背景知识，包括 Nutch 架构，爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。
developerWorks Java 技术专区：查找关于 Java 编程各方面的数百篇文章。

获得产品和技术

下载“nutch”，了解更多 Nutch 的细节。

讨论

阅读“Nutch FAQ”了解常见问题。
点击“加入 Nutch 开发者邮件列表”参加 Nutch 的讨论。
加入 developerWorks 社区。
查看 developerWorks 博客的最新信息。

推荐阅读

jar
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
text
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
hook
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
text
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
text
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
python
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
merge
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
text
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
text
XAMPP 遇到 404 错误：无法找到请求的对象

在使用 XAMPP 时遇到 404 错误，表示请求的对象未找到。通过详细分析发现，该问题可能由以下原因引起：1. `httpd-vhosts.conf` 文件中的配置路径错误；2. `public` 目录下缺少 `.htaccess` 文件。建议检查并修正这些配置，以确保服务器能够正确识别和访问所需的文件路径。 ... [详细]

蜡笔小新 2024-11-11 18:20:00
get
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
select
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52
text
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
jar
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
jar
Vue应用预渲染技术详解与实践

Vue应用预渲染技术详解与实践 ... [详细]

蜡笔小新 2024-11-07 13:12:35
jar
SpringBoot 教程系列（56）：配置SSL证书实现HTTPS安全访问

在日常的项目开发中，测试环境和生产环境通常采用HTTP协议访问服务。然而，从浏览器的角度来看，这种访问方式会被标记为不安全。为了提升安全性，当前大多数生产环境已经转向了HTTPS协议。本文将详细介绍如何在Spring Boot应用中配置SSL证书，以实现HTTPS安全访问。通过这一过程，不仅可以增强数据传输的安全性，还能提高用户对系统的信任度。 ... [详细]

蜡笔小新 2024-11-07 08:56:04

aadsasdass_998_268

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章