热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

关于“网页相似度”相关问题的全面讲解

站长在进行网站建设的时候,有时候会遇到一个问题,那就是网页相似度的问题。什么是网页相似度呢?所谓网页相似度,简单的说就是两个网页的相似程度。这两个网页可以是同一个网

 

  站长在进行网站建设的时候,有时候会遇到一个问题,那就是网页相似度的问题。什么是网页相似度呢?所谓网页相似度,简单的说就是两个网页的相似程度。这两个网页可以是同一个网站上的网页,也可以不是同一个网站上的网页,也既是其他网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似。所谓相似,就是说两个网页在页面内容的大部分都是相同的,这时候就可以认为两个网页是相似的。搜索引擎在比较两个网页的时候,是采用一定的算法来进行比较,搜索引擎通常会采用两种方法来进行比较:一种是根据网页摘要来比较,如果多个网页摘要的 md5 值一样,证明这些网页具有很高的相似度。另一种是根据网页出现的关键词,按照词频排序,可以取N个词频高的,如果其 md5 值一样,则可以认为这些网页有很高的相似度。谷歌搜索引擎给网页相似度设定的比例是60%,也就是说如果两个网页的相似度超过60%,那么被比较的网页不再被收录,如果相似度接近60%,那么被比较的网页可能也会被收录,但是搜索引擎给予的权重则比较低。这就是搜索引擎对待网页相似度的态度。由此可见,网页相似度对我们的网站的影响主要在于被比较的网页是否能够被收录,对其他方面则基本没什么影响。

  造成网页相似度问题产生的原因主要有两点:①在同一个网站内部,拿旧的网页复制做新的网页,造成网页里面的标题、关键词、描述信息、内容等改动的比较少,结果被搜索引擎判定为相似度高。②在不同网站之间,将原来已经被收录的网页的内容拿来,并进行稍微改动或者伪原创,结果造成里面的内容改动较少,或者仅仅进行段落调整,里面的内容没怎么变动,这与照抄差不多,被搜索引擎判定为相似度高。搜索引擎在判断网页的相似度的时候,是挺智能的,并不是我们想象的简单的从头到尾进行比较一下,而是进行智能的分析和比较,我们对此不要抱着侥幸心理,以为把别人网页的内容照抄过来,简单的修改了一下就可以蒙混过关。

  有了问题,我们就需要进行改正,下次避免再犯同样的错误。对于网页相似度的问题,我们知道了造成的原因,就可以对症下药。解决网页相似度的最有效的方法是对你的网页做到真正的原创,如果你的网页内容是原创出来的,只要内容质量高,就肯定不会因为网页相似度的问题而不收录,一般的都能被收录的。如果作为站长的你没有过多的时间去写原创文章,或者限于水平问题写不出来高质量的原创文章,那么你也可以进行伪原创,但是我们建议你为了避免缠身该网页相似度问题,你需要对原来的文章进行大幅度的修改,修改的幅度起码也要在50%以上,这样才可能被搜索引擎收录。另外我们建议各位站长,在做网页的时候,为了节省时间,如果需要复制原来的网页,那么我们也建议您对网页标题、关键词、描述信息以及内容也同样进行大幅度的修改,否则你的网页很难被收录的。在修改的时候可以用一些不同的代码替换掉原来的代码,比如使用iFrame框架取代以前的部分内容等等。笔者从事网站建设领域做了很长时间了,遇见到的因为网页相似度问题不被收录的情况不在少数,在谷歌站长管理平台上也有个html文档工具,如果两个网页的标题和描述信息差不多,站长工具会提示你哪两个网页的相似度高了,这时候我们就可以对之进行修改。建议站长们多多进入搜索引擎的管理平台里,使用里面提供的功能,有时候会对网站建设很有好处的。

 


推荐阅读
  • 丽江客栈选择问题
    本文介绍了一道经典的算法题,题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈,并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • C#设计模式学习笔记:观察者模式解析
    本文将探讨观察者模式的基本概念、应用场景及其在C#中的实现方法。通过借鉴《Head First Design Patterns》和维基百科等资源,详细介绍该模式的工作原理,并提供具体代码示例。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 本文详细介绍如何使用CSS自定义HTML5视频播放器的样式,涵盖常见属性及跨浏览器兼容性问题。发布时间:2020-09-14 14:46:29;来源:亿速云;阅读量:58;作者:小新。 ... [详细]
  • 本文详细介绍了如何在预装Ubuntu系统的笔记本电脑上安装Windows 7。针对没有光驱的情况,提供了通过USB安装的具体方法,并解决了分区、驱动器无法识别等问题。 ... [详细]
  • Appium + Java 自动化测试中处理页面空白区域点击问题
    在进行移动应用自动化测试时,有时会遇到某些页面没有返回按钮,只能通过点击空白区域返回的情况。本文将探讨如何在Appium + Java环境中有效解决此类问题,并提供详细的解决方案。 ... [详细]
  • 本文详细介绍了JSP的三大指令:page、include和taglib,重点探讨了静态包含与动态包含的区别及其应用场景,并解释了如何使用taglib指令引入第三方标签库。 ... [详细]
  • 如何清除Chrome浏览器地址栏的特定历史记录
    在使用Chrome浏览器时,你可能会发现地址栏保存了大量浏览记录。有时你可能希望删除某些特定的历史记录而不影响其他数据。本文将详细介绍如何单独删除地址栏中的特定记录以及批量清除所有历史记录的方法。 ... [详细]
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • 利用Selenium与ChromeDriver实现豆瓣网页全屏截图
    本文介绍了一种使用Selenium和ChromeDriver结合Python代码,轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行,而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]
  • Nginx 反向代理与负载均衡实验
    本实验旨在通过配置 Nginx 实现反向代理和负载均衡,确保从北京本地代理服务器访问上海的 Web 服务器时,能够依次显示红、黄、绿三种颜色页面以验证负载均衡效果。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • 本题来自WC2014,题目编号为BZOJ3435、洛谷P3920和UOJ55。该问题描述了一棵不断生长的带权树及其节点上小精灵之间的友谊关系,要求实时计算每次新增节点后树上所有可能的朋友对数。 ... [详细]
  • Ulysses Mac v29:革新文本编辑与写作体验
    探索Ulysses Mac v29,这款先进的纯文本编辑器为Mac用户带来了全新的写作和编辑环境。它不仅具备简洁直观的界面,还融合了Markdown等标记语言的最佳特性,支持多种格式导出,并提供强大的组织和同步功能。 ... [详细]
author-avatar
mobiledu2502909447
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有