milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

標準

standard アナライザーはMilvusのデフォルトアナライザーで、アナライザーが指定されていない場合は自動的にテキストフィールドに適用されます。文法に基づいたトークン化を使用するため、ほとんどの言語に有効です。

定義

standard

  • トークン化standard トークン化器を使用して、文法規則に基づいてテキストを個別の単語単位に分割する。詳細は「標準」を参照。

  • フィルタlowercase フィルタを使用して、すべてのトークンを小文字に変換し、大文字と小文字を区別しない検索を可能にする。詳細はlowercase filter.

standard アナライザーの機能は、以下のカスタム アナライザー構成と同等です。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

設定

standard アナライザをフィールドに適用するには、analyzer_paramstypestandard に設定し、必要に応じてオプションのパラメータを指定します。

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

standard アナライザーは、以下のオプション・パラメーターを受け付ける:

パラメータ

パラメータ 説明

stop_words

トークン化から除去されるストップワードのリストを含む配列。デフォルトは_english_ で、一般的な英語のストップワードの組み込みセット。_english_ の詳細はこちら

カスタム・ストップワードの設定例。

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

analyzer_params を定義した後、コレクションスキーマを定義するときに、VARCHAR フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、standard アナライザがテキストをどのように処理するかです。

元のテキスト

"The Milvus vector database is built for scale!"

期待される出力

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

翻訳DeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?