標準
Milvusのstandard
トークナイザーは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。
構成
standard
トークナイザを使用する解析器を設定するには、analyzer_params
でtokenizer
をstandard
に設定します。
analyzer_params = {
"tokenizer": "standard",
}
standard
トークナイザーは、1 つまたは複数のフィルターと組み合わせて使用できます。たとえば、次のコードでは、standard
トークナイザーとlowercase
フィルタを使用する解析器を定義しています。
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
セットアップをより簡単にするには standard analyzer
これは、standard
トークナイザーと lowercase filter
.
analyzer_params
を定義した後、コレクションスキーマを定義するときに、VARCHAR
フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してフィールド内のテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。
出力例
standard
トークン化器がテキストをどのように処理するかの例を示します。
元のテキスト。
"The Milvus vector database is built for scale!"
期待される出力
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]