热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于SQLSERVER的全文目录跟全文索引的区别

很久没有写随笔了,本来之前想写一篇关于SQLSERVER全文索引的随笔,可惜没有时间,一直拖到现在才有时间写,不好意思让各位久等了~先介绍一下SQLSERVER中的存储类对象,哈哈,先介绍一下概念嘛

很久没有写随笔了,本来之前想写一篇关于SQLSERVER全文索引的随笔,可惜没有时间,一直拖到现在才有时间写,不好意思让各位久等了~

先介绍一下SQLSERVER中的存储类对象,哈哈,先介绍一下概念嘛,让新手老手都有一个认知

SQLSERVER Management Studio将【全文目录】、【分区函数】以及【分区方案】节点纳入其【对象资源管理器】的【存储】节点之中,

如下图所示:

 

正文来了!哈哈,有请主角:全文目录

全文目录

数据库【存储】|【全文目录】节点是用于保存和管理【全文索引】的节点。全文目录通常是由同一数据库中的零个或多个数据表的全文索引构成的。

需要注意的是,只能为每个数据表创建一个全文索引。因此,一旦在某个数据表上创建了全文索引,那么该数据表将只能隶属于一个全文目录。换言之,

一个数据库可以包含一个或多个全文目录,一个全文目录可以包含一个或多个全文索引,但一个数据表只能有一个数据库全文目录和全文索引(跟mysql一样)。

 

在SQLSERVER2005中使用全文索引的主要步骤如下

(1)首先需要创建全文目录。

(2)然后将需要创建全文索引的数据表中的数据填充到全文目录中。这一过程也被称为填充全文索引。

(3)完成上述两步之后,即可开始使用全文索引功能。

创建全文目录的方法非常简单。通过SSMS以及T-SQL都可以实现创建全文目录的功能。

至于具体的创建步骤嘛,这里就不说了,网上都有文章说明,我就不转载了

 

最后说一下全文索引的优缺点和注意事项

(1)全文索引可对char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary 或 varbinary(max) 类型字段进行检索,

是解决海量数据模糊查询的好办法。

(2)一个表只能建立一个全文索引(但可以对多个字段)。

(3)与like的比较 MSDN解释

与全文搜索不同,LIKE Transact-SQL 谓词仅对字符模式( char、varchar、nchar、nvarchar)有效。另外,不能使用 LIKE 谓词来查询格式化的二进制数据。此外,对大量非结构化的文本数据执行 LIKE 查询要比对相同数据执行同样的全文查询慢得多。对数百万行文本数据进行的 LIKE 查询可能需要几分钟的时间才能返回结果;而对于同样的数据,全文查询只需要几秒甚至更少的时间,具体取决于返回的行数及其大小。另一个考虑因素是 LIKE 仅对整个表执行简单模式扫描。相反,全文查询可识别语言,它在索引和查询时应用特定的转换,例如,筛选非索引字并进行同义词库和变形扩展。这些转换可帮助全文查询改进其撤回以及结果的最终排名

 

最最后,讲一下全文索引的用法

 

SQL Server 2000和SQLSERVER2005提供的全文检索语句主要有CONTAINS和FREETEXT。
(1)CONTAINS语句的功能是在表的所有列或指定列中搜索:一个字或短语;一个字或短语的前缀;与一个字相近的另一个字;一个字的派生字;一个重复出现的字。

 


(2)FREETEXT语句的功能是在一个表的所有列或指定列中搜索一个自由文本格式的字符串,并返回与该字符串匹配的数据行。所以,FREETEXT语句所执行的功能又称做自由式全文查询。

 

T-SQL语句

 

1 USE pratice 
2
3 SELECT * FROM dbo.test WHERE CONTAINS(d,'基数行')

 

pratice是我的一个测试数据库,d是test表的其中一个字段,以上T-SQL语句的意思是查找d字段里包含字符串"基数行"的记录

 

--下列 T-SQL 指令碼示範查詢全文檢索索引狀態以及其內容。

SELECT * FROM sys.dm_fts_index_population

SELECT * FROM sys.dm_fts_index_keywords( DB_ID('tde'), OBJECT_ID('SalesLT.Product'))

 http://blogs.technet.com/b/technet_taiwan/archive/2015/06/02/sql-database-new-features-tde-and-full-text-search.aspx

 

 

 填充的方式有3种:1、完全填充,2、增量填充,3、自动跟踪更改

 


f

f

f

f

f

sql2008 的全文索引现在是存储在数据库中
全文索引基于CHAR/VARCHAR/NVARCHAR/XML/VARBINARY
提供了50个筛选器
全文索引使用语言特有的断字符word breaker 和词干分析器stemmer
指定具体语言,单词之间的breaker
被排除在常用单词(字)外面的单词(字)称为干扰词stop word,通过指定干扰词避免大量根本算不上关键字的单词(字)所干扰
一个表/索引视图只能有一个全文索引
stemmer
n. 抽梗机,除梗器;抽梗工人

 

一定要使用单独的文件组来存放全文目录!


 

f

f

f

f

f

全文索引填充不是即时完成的,因为数据必须提交给索引引擎,再由索引引擎应用断字符,词干分析器,语言文件,干扰词列表stop lists,最后才将更改合并到索引 merge到索引


语言规范决定了由全文索引引擎需要加载的断字符和词干分析器

SQL2008有第三方断字符和词干分析器

断字符还能识别数据中的单词之间的距离,这种接近性(proximity)添加到全文数据中,mysql的全文也有近似性,这是全文索引的独有功能,like%%是做不到的

sqlserver使用词干分析器来识别关键词的各种形式变化

f

 


 

f

f

f

f

f

f

f

 

全文谓词(全文搜索关键词)提交给全文索引引擎,全文索引引擎利用断字符word breaker标记搜索关键词,加token,将数据返回给优化器

where后面的谓词,如果不是全文,就叫谓词,如果是全文就是全文谓词

language参数指定是,是哪一个国家语言

优化器不能通过参数嗅探来计算全文索引上的分别统计数据,为了获得最佳性能必须给全文搜索的所有关键字都是Unicode类型

同义词文件

 


 

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

创建同义词XML文件
添加干扰词列表
重建全文索引
干扰词列表stop list或noise word file
如果你在一个全文谓词中提交的参数是干扰词,查询不会返回任何结果(而且他根本不需要访问底层数据)
sql2005和更早版本在FTDATA文件夹下配置干扰词文件,sql2008的干扰词列表存放在sqlserver的一个数据库中

增量填充全文索引必须要有一个时间戳

同义词和干扰词存放路径
C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData

C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData文件夹下只有两种文件:同义词和干扰词存

 

干扰词列表stop list或noise word file或stop word


全文关键术语

f

 

f

 

f

 

f

 


推荐阅读
  • MySQL 基础操作与优化
    本文详细介绍了 MySQL 的基础连接、数据库及表的操作,涵盖创建、修改、删除等常用命令,并深入解析了数据类型、列属性、索引、外键和存储引擎等内容。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 本文详细介绍了一种利用局域网环境将本地SQL Server数据库备份至另一台计算机的方法。主要步骤包括在目标机器上设置共享文件夹、配置SQL Server以支持备份任务,并通过定时任务实现自动化备份。 ... [详细]
  • 本文详细介绍如何利用已搭建的LAMP(Linux、Apache、MySQL、PHP)环境,快速创建一个基于WordPress的内容管理系统(CMS)。WordPress是一款流行的开源博客平台,适用于个人或小型团队使用。 ... [详细]
  • 本文介绍了一个SQL Server自定义函数,用于从字符串中提取仅包含数字和小数点的子串。该函数通过循环删除非数字字符来实现,并附带创建测试表、存储过程以演示其应用。 ... [详细]
  • 本文介绍 SQL Server 的基本概念和操作,涵盖系统数据库、常用数据类型、表的创建及增删改查等基础操作。通过实例帮助读者快速上手 SQL Server 数据库管理。 ... [详细]
  • 深入解析MySQL中的七种JOIN查询
    本文详细介绍了MySQL中常用的七种JOIN查询方法,包括内连接、左外连接、右外连接、全外连接以及排除连接等,并通过实例进行说明。 ... [详细]
  • 本文详细介绍了 iBatis.NET 中的 Iterate 元素,它用于遍历集合并重复生成每个项目的主体内容。通过该元素,可以实现类似于 foreach 的功能,尽管 iBatis.NET 并未直接提供 foreach 标签。 ... [详细]
  • 本文介绍了一种在 MySQL 客户端执行 NOW() 函数时出现时间偏差的问题,并详细描述了如何通过配置文件调整时区设置来解决该问题。演示场景中,假设当前北京时间为2023年2月17日19:31:37,而查询结果显示的时间比实际时间晚8小时。 ... [详细]
  • 在Oracle数据库中,使用Dbms_Output.Put_Line进行输出调试时,若单行字符超过255个,则会遇到ORA-20000错误。本文介绍了一种有效的方法来处理这种情况,通过创建自定义包和视图,实现对长字符串的分割和正确输出。 ... [详细]
  • 本文详细介绍了如何通过RPM包在Linux系统(如CentOS)上安装MySQL 5.6。涵盖了检查现有安装、下载和安装RPM包、配置MySQL以及设置远程访问和开机自启动等步骤。 ... [详细]
  • This pull request introduces the ability to provide comprehensive paragraph configurations directly within the Create Note and Create Paragraph REST endpoints, reducing the need for additional configuration calls. ... [详细]
  • 本文介绍如何在SQL Server中创建动态SQL存储过程,并提供详细的代码实例和解释。通过这种方式,可以更灵活地处理查询条件和参数。 ... [详细]
  • 本文详细介绍了如何在 MySQL 数据库中进行表结构的修改,包括添加字段、修改字段类型和重命名列名等操作,旨在为开发者提供实用的技术参考。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
author-avatar
石蓉亮
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有