全文索引分词器¶
分词器是将用户输入一段文本,分析成符合逻辑字、词组的工具。它针对语言本身的生成规则等进行分割,提取关键字词。不同分词器适合于不同的语言,效果性能有区别。到目前为止,单个分词器无法做到对不同语言进行完善的分割,也不能做到完全的符合人们的要求。
为了提高检索性能和满足应用要求,在创建索引时选择合适的分词器非常重要。神通数据库全文索引功能目前提供下列几种分词器供选择。
表235全文索引-分词器简介
| 分词器 | 简要介绍 |
|---|---|
| BasicAnalyzer | 在非字母处分割词,并将词统一为小写,不区分大小写;不支持停用词; |
| StandardAnalyzer | 完美英文分词法,可识别出Email、URL、IP等;取首字母缩写、数字;不区分大小写,统一为小写,支持停用词功能;对于英、日、韩字符,单分词分割。 |
| CJKAnalyzer | 采用二分词法,支持中文、日文、韩文和大部分西文文字 |
| ChineseAnalyzer | 采用开源Paoding分词法,具有极高、效率和扩展的中文分词法 |