热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

搜索引擎中文分词技术

 搜索引擎中文分词技术 由于很多朋友要求写一篇搜索引擎分词技术的文章,特别是关于百度分词的。今天就发发给大家我10月9号在SEOWHY周四答疑群给讲解的分词技术今天给大家帖出来供大家学习

 

搜索引擎中文分词技术

由于很多朋友要求写一篇搜索引擎分词技术的文章,特别是关于百度分词的。今天就发发给大家
我10月9号在SEOWHY周四答疑群给讲解的分词技术今天给大家帖出来供大家学习一下。


分词技术 :  什么是分词, 如何分词搜索引擎会承认,这次第一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。

那什么叫分词技术呢?分词技术就是SE针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息,
这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。2.然后再看用户提供的这个词有没有重复词汇。
如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是SE的查询处理。

讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。
其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例
百度是如何来分词的呢?分词技术现今非常成熟了。他分为3种技术。
1.字符串匹配的分词方法
2.词义分词法。
3.统计分此法。
先说第一种。
也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。
1.正向最大匹配法
什么意思呢?就是把一个词从左至右来分词。
举个例子。
“不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。
2.反向最大匹配法 来分上面我举的例子是如何分的呢 "不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
3.就是最短路径分词法。
这个什么理解呢 ,就是说 我一段话里面要求切出的词数是最少的。还是上面哪句话
“不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好了,第一种说完了,


2.词义分词法。
这种其实就是一种机器语音判断的分词
方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。

第三种,统计的分词方法。
这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。

那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢

1.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。
不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个例子。
例如:三亚酒店预定,如何来分呢?
正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹配。
1.正向最大匹配
“亚,酒店预定”
2.反向最大匹配
“三亚酒店,预定”
3.双向最大匹配
“三亚,酒店,预定”
4.最短路径最大匹配。

“三亚酒店预定”好了,我们分了词为
“三亚,“酒店预定,预定,三亚酒店,三亚,酒店 ,三亚酒店预定。”
这些词每个都可以做一个主题页为目标关键词
这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。
用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。分词还有一种好处。那就是提升内页的排名。好的,这个我就不详细讲了。因为我在SEOWHY已经写了一篇文章。大家可以去看一下。就是关于百度,捕获描述的文章。如果你的内页不做描述,那么百度就会给你定义一个描述或者从你的页面捕获一个描述。在捕获描述的时候,如果你的知道他会捕获哪一段,那么你说,你的排名会不会上升。你就刻意写哪一段。



推荐阅读
  • TechStride 网站
    TechStride 成立于2014年初,致力于互联网前沿技术、产品创意及创业内容的聚合、搜索、学习与展示。我们旨在为互联网从业者提供更高效的新技术搜索、学习、分享和产品推广平台。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • SQL中UPDATE SET FROM语句的使用方法及应用场景
    本文详细介绍了SQL中UPDATE SET FROM语句的使用方法,通过具体示例展示了如何利用该语句高效地更新多表关联数据。适合数据库管理员和开发人员参考。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • Windows 系统下 MySQL 8.0.11 的安装与配置
    本文详细介绍了在 Windows 操作系统中安装和配置 MySQL 8.0.11 的步骤,包括环境准备、安装过程以及后续配置,帮助用户顺利完成数据库的部署。 ... [详细]
  • 本文详细介绍了如何构建一个高效的UI管理系统,集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑,实现功能逻辑分散化和代码复用,支持多人协作开发。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • 爱奇艺视频下载指南
    随着百度在视频领域的不断扩展,爱奇艺的内容库日益丰富,涵盖了大量新番动画、电影、电视剧和综艺节目。本文将详细介绍如何通过爱奇艺客户端下载视频,帮助用户轻松实现离线观看。 ... [详细]
  • TCP长连接设备管理平台:架构与功能概览
    本文介绍了基于TCP长连接的设备管理平台的设计理念、技术选型及主要功能模块。最初,项目旨在实现简单的协议测试,但随着需求扩展,逐步演变为一个完整的前后端分离系统。 ... [详细]
  • 脑机接口(BCI)技术正逐步将科幻变为现实,从帮助听障人士恢复听力到使瘫痪者重新站立,甚至可能将多年的学习过程压缩至瞬间。本文探讨了这一前沿技术的现状、挑战及其未来前景。 ... [详细]
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • 百度搜索结果链接提取工具 UrlGetter V1.43
    该工具专为获取百度搜索引擎的结果页面中的网址链接而设计,能够解析并转换为原始URL。通过正则表达式匹配技术,精准提取网页链接,并提供详细的使用说明和下载资源。 ... [详细]
author-avatar
Mr尘世美_925
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有