長さ
length
フィルタは、指定された長さの要件を満たさないトークンを削除します。これにより、テキスト処理中に保持されるトークンの長さを制御できます。
設定
length
フィルタは Milvus のカスタムフィルタで、フィルタ設定で"type": "length"
を設定することで指定します。analyzer_params
内の辞書として設定し、長さの制限を定義することができます。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
length
フィルタには以下の設定可能なパラメータがあります。
パラメータ | 説明 |
---|---|
| トークンの最大長を設定します。この長さより長いトークンは削除されます。 |
length
フィルタは、トークナイザによって生成された語で動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクション・スキーマを定義するときにVARCHAR
フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
length
フィルタがテキストをどのように処理するかの例を示します。
テキストの例
"The length filter allows control over token length requirements for text processing."
期待される出力(max: 10
を使用した場合)。
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]