milvus-logo
LFAI
首页
  • 用户指南

标准

Milvus 中的standard 标记器根据空格和标点符号分割文本,因此适用于大多数语言。

配置

要配置使用standard 标记符的分析器,请在analyzer_params 中将tokenizer 设置为standard

analyzer_params = {
    "tokenizer": "standard",
}

standard 令牌分析器可与一个或多个过滤器配合使用。例如,以下代码定义了一个使用standard 标记符号和lowercase 过滤器的分析器。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

为了简化设置,您可以选择使用 standard analyzer,它将standard 标记符号转换器与 lowercase filter.

在定义analyzer_params 之后,可以在定义 Collections Schema 时将它们应用到VARCHAR 字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,从而实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是standard 标记化器处理文本的示例。

原始文本

"The Milvus vector database is built for scale!"

预期输出

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

翻译自DeepLogo

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?