ASCII 折叠
asciifolding
** **过滤器可将基本拉丁统一码块(前 127 个 ASCII 字符)以外的字符转换为其 ASCII 对应字符。例如,它能将í
等字符转换为i
,使文本处理更简单、更一致,尤其是对于多语言内容。
配置
asciifolding
过滤器内置于 Milvus 中。要使用它,只需在analyzer_params
中的filter
部分指定其名称即可。
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
asciifolding
过滤器对标记符生成的术语进行操作,因此必须与标记符结合使用。
定义analyzer_params
后,可以在定义 Collections Schema 时将它们应用到VARCHAR
字段。这样,Milvus 就可以使用指定的分析器对该字段中的文本进行处理,从而实现高效的标记化和过滤。有关详情,请参阅示例使用。
输出示例
下面是asciifolding
过滤器处理文本的示例。
原始文本。
"Café Möller serves crème brûlée and piñatas."
预期输出。
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]