空格
只要字與字之間有空格,whitespace
tokenizer 就會將文字分割成詞彙。
配置
要設定使用whitespace
記號化器器的分析器,請在analyzer_params
中設定tokenizer
為whitespace
。
analyzer_params = {
"tokenizer": "whitespace",
}
空白符記器可與一個或多個過濾器結合使用。例如,以下代碼定義了一個使用whitespace
記號器和 lowercase filter
:
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效的符記化和過濾。詳情請參閱範例使用。
輸出範例
以下是whitespace
標記化器如何處理文字的範例。
原始文字。
"The Milvus vector database is built for scale!"
預期輸出。
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]