停止词
stop
过滤器会从标记化文本中移除指定的停止词,帮助剔除常见的、意义不大的词。您可以使用stop_words
参数配置停用词列表。
配置
length
过滤器是 Milvus 的自定义过滤器。要使用它,请在过滤器配置中指定"type": "stop"
,同时指定提供停用词列表的stop_words
参数。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
stop
过滤器接受以下可配置参数。
参数 | 说明 |
---|---|
| 要从标记化中删除的词语列表。默认情况下,使用预定义的 |
stop
过滤器对标记化器生成的词语进行操作,因此必须与标记化器结合使用。
定义analyzer_params
后,可以在定义 Collections Schema 时将其应用到VARCHAR
字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是stop
过滤器处理文本的示例。
原始文本。
"The stop filter allows control over common stop words for text processing."
预期输出(含stop_words: ["the", "over", "_english_"]
)。
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]