milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

ストップ

stop フィルタは、トークン化されたテキストから指定されたストップ ワードを除去し、一般的であまり意味のない単語を取り除くのに役立ちます。ストップワードのリストはstop_words パラメータで設定できます。

設定方法

length フィルタは Milvus のカスタムフィルタです。このフィルタを使用するには、フィルタの設定に"type": "stop" 、ストップワードのリストを提供するstop_words パラメータを指定します。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

stop フィルタには以下の設定可能なパラメータがあります。

パラメータ

説明

stop_words

トークン化から削除する単語のリスト。デフォルトでは、一般的な英語のストップワードを含む、定義済みの_english_ リストが使用されます。_english_ の詳細はこちらをご覧ください。

stop フィルタはトークナイザによって生成された単語に対して動作するため、トークナイザと組み合わせて使用する必要があります。

analyzer_params を定義した後、コレクションスキーマを定義する際に、VARCHAR フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、stop フィルタがテキストをどのように処理するかの例です。

元のテキスト

"The stop filter allows control over common stop words for text processing."

期待される出力(stop_words: ["the", "over", "_english_"] を使用した場合)。

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

翻訳DeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?