milvus-logo
LFAI
首页
  • 用户指南

英语

Milvus 中的english 分析器旨在处理英文文本,应用特定语言规则进行标记化和过滤。

定义

english 分析器使用以下组件。

  • 标记化器:使用 standard tokenizer将文本分割成离散的单词单位。

  • 过滤器:包括多个过滤器,用于综合文本处理。

    • lowercase:将所有标记转换为小写,实现不区分大小写的搜索。

    • stemmer:将单词还原为词根形式,以支持更广泛的匹配(例如,"running "变为 "run")。

    • stop_words:删除常见的英文停止词,以便集中搜索文本中的关键词语。

english 分析器的功能相当于以下自定义分析器配置。

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

配置

要将english 分析器应用到一个字段,只需在analyzer_params 中将type 设置为english ,并根据需要加入可选参数即可。

analyzer_params = {
    "type": "english",
}

english 分析器接受以下可选参数:

参数

参数

stop_words

包含停用词列表的数组,停用词将从标记化中删除。默认为_english_ ,这是一组内置的常用英语停止词。

自定义停止词配置示例。

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

定义analyzer_params 后,可以在定义 Collections Schema 时将其应用到VARCHAR 字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,以实现高效的标记化和过滤。有关详情,请参阅示例使用

输出示例

下面是english 分析器处理文本的过程。

原始文本

"The Milvus vector database is built for scale!"

预期输出

["milvus", "vector", "databas", "built", "scale"]

翻译自DeepL

目录

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?