milvus-logo
LFAI
首页
  • 用户指南

词干

stemmer 过滤器可将单词还原为其基本形式或词根形式(称为词干化),从而更容易匹配不同词性中含义相似的单词。stemmer 过滤器支持多种语言,可在各种语言环境中进行有效搜索和索引。

配置

stemmer 过滤器是 Milvus 的自定义过滤器。要使用该过滤器,请在过滤器配置中指定"type": "stemmer" ,并使用language 参数选择所需的语言进行词干处理。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stemmer", # Specifies the filter type as stemmer
        "language": "english", # Sets the language for stemming to English
    }],
}

stemmer 过滤器接受以下可配置参数。

参数

说明

language

指定词干处理的语言。支持的语言包括"arabic","danish","dutch","english","finnish","french","german","greek","hungarian","italian","norwegian","portuguese","romanian","russian","spanish","swedish","tamil","turkish"

stemmer 过滤器对标记符生成的术语进行操作,因此必须与标记符结合使用。

定义analyzer_params 后,可以在定义 Collections Schema 时将它们应用到VARCHAR 字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是stemmer 过滤器处理文本的示例。

原始文本

"running runs looked ran runner"

预期输出(含language: "english" )。

["run", "run", "look", "ran", "runner"]

翻译自DeepLogo

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?