全文索引简介

神通数据库利用全文索引功能可以快速、灵活地为存储在库中的文本数据, 创建基于关键字查询的倒排索引。与仅适用于字符模式的LIKE谓词不同, 神通数据库系统将根据 全文索引查询 的特定语言规则, 对字词和短语进行检索操作,实现对文本数据执行内容搜索。

在神通数据库系统中,全文索引功能提供企业级搜索, 在性能、可管理性和功能方面有显著增强,可为任意大小的应用程序提供强大的检索功能。 对大量非结构化的文本数据进行查询时,数百万行文本数据执行 LIKE查询可能需要花费几分钟时间才能返回结果; 但同样的数据,使用全文索引只需要几秒或更少的时间,性能优势得到充分的体现。

下面列出神通数据库全文索引功能中的相关术语和名词。

全文索引

在文章中查找词条(term)出现的频率和位置,把频率和位置信息按照词条的归纳, 对文件建立以所有词条为目录的索引,这样查找词条时能很快定位词条出现位置, 亦称倒排索引技术。

全文检索(查询)

利用 全文索引查询 特殊语法,对创建的全文索引信息进行快速计算全文查询匹配度, 搜索包含特定词或词组文档的数据行。

分词器(法)

从文档内容中提取词条的解析器,它针对特定语言的生成规则及特点进行断词等。 有关详细信息,请参阅 全文索引分词器

停用词

不需要索引频率和位置的词条,包括不影响语意、对搜索没有帮助或者用户禁用的词条。 有关详细信息,请参阅 全文索引停用词

同/异步索引

对建有全文索引的表中数据进行更新,同时刷新(填充)索引内容的称为同步全文索引; 否则,需要发送更新命令才保证索引内容与表中数据一致的称为异步全文索引。 请参阅 ALTER FULLTEXT INDEX