僅字母
alphanumonly
過濾器會移除包含非 ASCII 字元的標記,只保留字母數字詞。此過濾器適用於處理只有基本字母和數字相關的文字,排除任何特殊字符或符號。
設定
alphanumonly
過濾器內建於 Milvus。要使用它,只需在analyzer_params
中的filter
部分指定其名稱。
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
alphanumonly
過濾器會對由 tokenizer 產生的詞彙進行操作,因此它必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是alphanumonly
過濾器處理文字的範例。
原始文字。
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
預期輸出。
["Milvus", "2", "0", "Scale", "AI", "Vector"]