milvus-logo
LFAI
首页
  • 用户指南

分词器

decompounder 过滤器可根据指定词典将复合词拆分成单个成分,从而更方便地搜索复合词的各个部分。该过滤器对于德语等经常使用复合词的语言尤其有用。

配置

decompounder 过滤器是 Milvus 的自定义过滤器。要使用它,请在过滤器配置中指定"type": "decompounder" ,同时指定word_list 参数,该参数提供了要识别的词组字典。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

decompounder 过滤器接受以下可配置参数。

参数

说明

word_list

用于拆分复合词的词成分列表。该字典决定了如何将复合词分解为单个术语。

decompounder 过滤器对标记化器生成的术语进行操作,因此必须与标记化器结合使用。

定义analyzer_params 后,可以在定义 Collections Schema 时将其应用到VARCHAR 字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是decompounder 过滤器处理文本的示例。

原始文本

"dampfschifffahrt brotbackautomat"

预期输出(含word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"] )。

["dampf", "schiff", "fahrt", "brotbackautomat"]

翻译自DeepL

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?