ストップ
stop
フィルタは、トークン化されたテキストから指定されたストップ ワードを除去し、一般的であまり意味のない単語を取り除くのに役立ちます。ストップワードのリストはstop_words
パラメータで設定できます。
設定方法
length
フィルタは Milvus のカスタムフィルタです。このフィルタを使用するには、フィルタの設定に"type": "stop"
、ストップワードのリストを提供するstop_words
パラメータを指定します。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
stop
フィルタには以下の設定可能なパラメータがあります。
パラメータ | 説明 |
---|---|
| トークン化から削除する単語のリスト。デフォルトでは、一般的な英語のストップワードを含む、定義済みの |
stop
フィルタはトークナイザによって生成された単語に対して動作するため、トークナイザと組み合わせて使用する必要があります。
analyzer_params
を定義した後、コレクションスキーマを定義する際に、VARCHAR
フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、stop
フィルタがテキストをどのように処理するかの例です。
元のテキスト。
"The stop filter allows control over common stop words for text processing."
期待される出力(stop_words: ["the", "over", "_english_"]
を使用した場合)。
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]