長度
length
過濾器會移除不符合指定長度要求的字元,讓您可以控制文字處理過程中保留的字元長度。
設定
length
篩選器是 Milvus 的自訂篩選器,透過在篩選器設定中設定"type": "length"
來指定。您可以在analyzer_params
內將其設定為字典,以定義長度限制。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
length
過濾器接受下列可設定的參數。
參數 | 說明 |
---|---|
| 設定最大符記長度。超過此長度的標記會被移除。 |
length
過濾器會對 tokenizer 產生的詞彙進行操作,因此必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是length
過濾器如何處理文字的範例。
範例文字。
"The length filter allows control over token length requirements for text processing."
預期輸出(含max: 10
)。
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]