标准
standard
分析器是 Milvus 的默认分析器,如果没有指定分析器,它将自动应用于文本字段。它使用基于语法的标记化,因此对大多数语言都很有效。
定义
standard
分析器包括
标记化器:使用
standard
标记符号化器,根据语法规则将文本分割成离散的单词单位。更多信息,请参阅标准。过滤器:使用
lowercase
过滤器将所有标记转换为小写,从而实现不区分大小写的搜索。更多信息,请参阅lowercase filter
.
standard
分析仪的功能等同于以下自定义分析仪配置。
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
配置
要将standard
分析器应用到一个字段,只需在analyzer_params
中将type
设置为standard
,并根据需要加入可选参数即可。
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
standard
分析器接受以下可选参数:
参数 | 参数 |
---|---|
| 包含停用词列表的数组,停用词将从标记化中删除。默认为 |
自定义停用词配置示例。
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
定义analyzer_params
后,可以在定义 Collections Schema 时将其应用到VARCHAR
字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,从而实现高效的标记化和过滤。有关详细信息,请参阅示例使用。
输出示例
以下是standard
分析器如何处理文本。
原始文本。
"The Milvus vector database is built for scale!"
预期输出。
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]