分词器
decompounder
过滤器可根据指定词典将复合词拆分成单个成分,从而更方便地搜索复合词的各个部分。该过滤器对于德语等经常使用复合词的语言尤其有用。
配置
decompounder
过滤器是 Milvus 的自定义过滤器。要使用它,请在过滤器配置中指定"type": "decompounder"
,同时指定word_list
参数,该参数提供了要识别的词组字典。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
decompounder
过滤器接受以下可配置参数。
参数 | 说明 |
---|---|
| 用于拆分复合词的词成分列表。该字典决定了如何将复合词分解为单个术语。 |
decompounder
过滤器对标记化器生成的术语进行操作,因此必须与标记化器结合使用。
定义analyzer_params
后,可以在定义 Collections Schema 时将其应用到VARCHAR
字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是decompounder
过滤器处理文本的示例。
原始文本。
"dampfschifffahrt brotbackautomat"
预期输出(含word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
)。
["dampf", "schiff", "fahrt", "brotbackautomat"]