标准
Milvus 中的standard
标记器根据空格和标点符号分割文本,因此适用于大多数语言。
配置
要配置使用standard
标记符的分析器,请在analyzer_params
中将tokenizer
设置为standard
。
analyzer_params = {
"tokenizer": "standard",
}
standard
令牌分析器可与一个或多个过滤器配合使用。例如,以下代码定义了一个使用standard
标记符号和lowercase
过滤器的分析器。
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
为了简化设置,您可以选择使用 standard analyzer
,它将standard
标记符号转换器与 lowercase filter
.
在定义analyzer_params
之后,可以在定义 Collections Schema 时将它们应用到VARCHAR
字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是standard
标记化器处理文本的示例。
原始文本。
"The Milvus vector database is built for scale!"
预期输出。
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]