英語
Milvusのenglish
アナライザーは英語のテキストを処理するように設計されており、トークン化とフィルタリングのために言語固有のルールを適用します。
定義
english
アナライザは以下のコンポーネントを使用します。
トークン化:トークン化
standard tokenizer
を使用してテキストを個別の単語単位に分割します。フィルター:包括的なテキスト処理のための複数のフィルターを含む。
lowercase
:すべてのトークンを小文字に変換し、大文字小文字を区別しない検索を可能にします。stemmer
:より広範なマッチングをサポートするため、単語を語根形に変換(例:"running "は "run "に)。stop_words
:一般的な英語のストップワードを削除し、テキスト内の重要な用語に焦点を当てます。
english
アナライザーの機能は、以下のカスタムアナライザー設定と同等です。
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
設定
english
アナライザをフィールドに適用するには、analyzer_params
でtype
をenglish
に設定し、必要に応じてオプションのパラメータを含めます。
analyzer_params = {
"type": "english",
}
english
アナライザーは、以下のオプション・パラメーターを受け付ける:
パラメータ | パラメータ 説明 |
---|---|
| トークン化から除去されるストップワードのリストを含む配列。デフォルトは |
カスタム・ストップワードを使用した構成例。
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
analyzer_params
を定義した後、コレクションスキーマを定義するときに、VARCHAR
フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
以下は、english
アナライザがテキストをどのように処理するかです。
元のテキスト
"The Milvus vector database is built for scale!"
期待される出力
["milvus", "vector", "databas", "built", "scale"]