milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

英語

Milvusのenglish アナライザーは英語のテキストを処理するように設計されており、トークン化とフィルタリングのために言語固有のルールを適用します。

定義

english アナライザは以下のコンポーネントを使用します。

  • トークン化:トークン化 standard tokenizerを使用してテキストを個別の単語単位に分割します。

  • フィルター:包括的なテキスト処理のための複数のフィルターを含む。

    • lowercase:すべてのトークンを小文字に変換し、大文字小文字を区別しない検索を可能にします。

    • stemmer:より広範なマッチングをサポートするため、単語を語根形に変換(例:"running "は "run "に)。

    • stop_words:一般的な英語のストップワードを削除し、テキスト内の重要な用語に焦点を当てます。

english アナライザーの機能は、以下のカスタムアナライザー設定と同等です。

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

設定

english アナライザをフィールドに適用するには、analyzer_paramstypeenglish に設定し、必要に応じてオプションのパラメータを含めます。

analyzer_params = {
    "type": "english",
}

english アナライザーは、以下のオプション・パラメーターを受け付ける:

パラメータ

パラメータ 説明

stop_words

トークン化から除去されるストップワードのリストを含む配列。デフォルトは_english_ で、英語の一般的なストップワードの組み込みセットです。

カスタム・ストップワードを使用した構成例。

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

analyzer_params を定義した後、コレクションスキーマを定義するときに、VARCHAR フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、english アナライザがテキストをどのように処理するかです。

元のテキスト

"The Milvus vector database is built for scale!"

期待される出力

["milvus", "vector", "databas", "built", "scale"]

翻訳DeepL

目次

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?