英语
Milvus 中的english
分析器旨在处理英文文本,应用特定语言规则进行标记化和过滤。
定义
english
分析器使用以下组件。
标记化器:使用
standard tokenizer
将文本分割成离散的单词单位。过滤器:包括多个过滤器,用于综合文本处理。
lowercase
:将所有标记转换为小写,实现不区分大小写的搜索。stemmer
:将单词还原为词根形式,以支持更广泛的匹配(例如,"running "变为 "run")。stop_words
:删除常见的英文停止词,以便集中搜索文本中的关键词语。
english
分析器的功能相当于以下自定义分析器配置。
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
配置
要将english
分析器应用到一个字段,只需在analyzer_params
中将type
设置为english
,并根据需要加入可选参数即可。
analyzer_params = {
"type": "english",
}
english
分析器接受以下可选参数:
参数 | 参数 |
---|---|
| 包含停用词列表的数组,停用词将从标记化中删除。默认为 |
自定义停止词配置示例。
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
定义analyzer_params
后,可以在定义 Collections Schema 时将其应用到VARCHAR
字段。这样,Milvus 就能使用指定的分析器处理该字段中的文本,以实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是english
分析器处理文本的过程。
原始文本。
"The Milvus vector database is built for scale!"
预期输出。
["milvus", "vector", "databas", "built", "scale"]