转：网页爬取页面去重策略

作者：mobiledu2502907897 | 来源：互联网 | 2023-05-18 21:07

网上搜集到的网页去重策略：1.通过MD5生成电子指纹来判断页面是否改变2.nutch去重策略：nutch中digest是对采集的每一个网页内容的32位哈希值，如果两个网页内容完全

网上搜集到的网页去重策略：
1.通过MD5生成电子指纹来判断页面是否改变
2.nutch去重策略： nutch中digest是对采集的每一个网页内容的32位哈希值，如果两个网页内容完全一样，它们的digest值肯定会一样，但哪怕其中之一多或少一个空格，它们的digest值就会不一样。所以，我认为，用digest做id是一个非常不错的选择。
如果nutch在两次不同的时间抓某个网页，例如还有新浪首页http://www.sina.com.cn，如果在两次抓取这段时间，首页没有什么变化，nutch计算出的两次抓取的首页的digest肯定是一样的，这样，nutch在第二次向solr进行索引时，发现digest在solr的索引库中已存在（id是唯一的），自然就写不进去。这样，避免了索引库的重复记录。
同时，采用digest作为Id，也避免了一个行业内部网有镜像网站在solr索引库的重复记录。

总之，采用digest作为Id，防止了nutch在向solr索引库写入时写入重复记录的问题，有天然去重功能。

但是，还必须解决一个问题：如果nutch在两次不同的时间抓某个网页，如果这个网页有变化，两次的digest值肯定不同，这样，nutch在向solr索引库update时，会将同一个url（如http://www.sina.com.cn)写入两条记录。那么，在搜索界面键入：新浪，肯定会出现两条新浪网站数据。如此类推，nutch采集了同一url网页n 次，就有可能在solr索引库中有n条相似的记录。这样的情况出现让我很抓狂，陷于困局之中。

其实，这就是对同一个url进行去重的问题。nutch有一个去重的模块org.apache.nutch.indexer.solr.SolrDeleteDuplicates.java，命令为：bin/nutchsolrdedup，分析发现，它是对digest相同的记录进行去重。估计是nutch把url作为solr的主键id，所以没有考虑到对url相同的记录进行去重。代码如下：nutch与起点R3集成之笔记

转自：http://blog.sina.com.cn/s/blog_623584750101eeb4.html

推荐阅读

solr
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
client
FastDFS Nginx 扩展模块的源代码解析与技术剖析

FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]

蜡笔小新 2024-11-04 20:15:18
client
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
solr
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
client
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
get
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
export
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
list
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
spring
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
spring
如何查看PHP网站及其源码

本文介绍了如何查看PHP网站及其源码的方法，包括环境搭建、本地测试、源码查看和在线查找等步骤。 ... [详细]

蜡笔小新 2024-11-14 21:51:01
scala
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
client
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
java
微信平台上的HTML5游戏开发心得

近期，微信公众平台上的HTML5游戏引起了广泛讨论，预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏，作为一名HTML5技术的倡导者，分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]

蜡笔小新 2024-11-13 16:56:47
java
JavaScript - 禁用HTML内容在Ctrl+F搜索中的高亮显示

在我的Web应用中，有一个图层用于展示静态HTML文本。当我使用Ctrl+F搜索页面上的某些文本时，这些文本会被高亮显示。是否有办法让这部分内容不响应搜索操作？ ... [详细]

蜡笔小新 2024-11-13 15:02:22
include
org.apache.solr.common.SolrDocument.setField()方法的使用及代码示例

本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例，展示了SolrDocum ... [详细]

蜡笔小新 2023-12-09 06:54:05

mobiledu2502907897

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章