milvus-logo
LFAI
首页
  • 用户指南

标准

standard 分析器是 Milvus 的默认分析器,如果没有指定分析器,它将自动应用于文本字段。它使用基于语法的标记化,因此对大多数语言都很有效。

定义

standard 分析器包括

  • 标记化器:使用standard 标记符号化器,根据语法规则将文本分割成离散的单词单位。更多信息,请参阅标准

  • 过滤器:使用lowercase 过滤器将所有标记转换为小写,从而实现不区分大小写的搜索。更多信息,请参阅lowercase filter.

standard 分析仪的功能等同于以下自定义分析仪配置。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

配置

要将standard 分析器应用到一个字段,只需在analyzer_params 中将type 设置为standard ,并根据需要加入可选参数即可。

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

standard 分析器接受以下可选参数:

参数

参数

stop_words

包含停用词列表的数组,停用词将从标记化中删除。默认为_english_ ,这是一组内置的常用英语停止词。有关_english_ 的详细信息,请点击此处

自定义停用词配置示例。

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

定义analyzer_params 后,可以在定义 Collections Schema 时将其应用到VARCHAR 字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,从而实现高效的标记化和过滤。有关详细信息,请参阅示例使用

输出示例

以下是standard 分析器如何处理文本。

原始文本

"The Milvus vector database is built for scale!"

预期输出

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

翻译自DeepL

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?