ASCII 摺疊
asciifolding
** ** 篩選器會將Basic Latin Unicode 區塊(前 127 個 ASCII 字元) 以外的字元轉換成其 ASCII 對應字元。例如,它可將í
等字元轉換為i
,使文字處理更簡單、更一致,特別是對於多語言內容。
設定
asciifolding
過濾器內建於 Milvus。要使用它,只需在analyzer_params
中的filter
部分指定其名稱即可。
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
asciifolding
過濾器會對由 tokenizer 產生的詞彙進行操作,因此必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是asciifolding
過濾器處理文字的範例。
原始文字。
"Café Möller serves crème brûlée and piñatas."
預期輸出。
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]