milvus-logo
LFAI
首页
  • 用户指南

停止词

stop 过滤器会从标记化文本中移除指定的停止词,帮助剔除常见的、意义不大的词。您可以使用stop_words 参数配置停用词列表。

配置

length 过滤器是 Milvus 的自定义过滤器。要使用它,请在过滤器配置中指定"type": "stop" ,同时指定提供停用词列表的stop_words 参数。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

stop 过滤器接受以下可配置参数。

参数

说明

stop_words

要从标记化中删除的词语列表。默认情况下,使用预定义的_english_ 列表,其中包含常见的英文停止词。有关_english_ 的详细信息,请点击此处

stop 过滤器对标记化器生成的词语进行操作,因此必须与标记化器结合使用。

定义analyzer_params 后,可以在定义 Collections Schema 时将其应用到VARCHAR 字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是stop 过滤器处理文本的示例。

原始文本

"The stop filter allows control over common stop words for text processing."

预期输出(含stop_words: ["the", "over", "_english_"] )。

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

翻译自DeepL

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?