標準
standard
アナライザーはMilvusのデフォルトアナライザーで、アナライザーが指定されていない場合は自動的にテキストフィールドに適用されます。文法に基づいたトークン化を使用するため、ほとんどの言語に有効です。
定義
standard
。
トークン化:
standard
トークン化器を使用して、文法規則に基づいてテキストを個別の単語単位に分割する。詳細は「標準」を参照。フィルタ:
lowercase
フィルタを使用して、すべてのトークンを小文字に変換し、大文字と小文字を区別しない検索を可能にする。詳細はlowercase filter
.
standard
アナライザーの機能は、以下のカスタム アナライザー構成と同等です。
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
設定
standard
アナライザをフィールドに適用するには、analyzer_params
でtype
をstandard
に設定し、必要に応じてオプションのパラメータを指定します。
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
standard
アナライザーは、以下のオプション・パラメーターを受け付ける:
パラメータ | パラメータ 説明 |
---|---|
| トークン化から除去されるストップワードのリストを含む配列。デフォルトは |
カスタム・ストップワードの設定例。
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
analyzer_params
を定義した後、コレクションスキーマを定義するときに、VARCHAR
フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、standard
アナライザがテキストをどのように処理するかです。
元のテキスト
"The Milvus vector database is built for scale!"
期待される出力
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]