milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

標準

Milvusのstandard トークナイザーは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。

構成

standard トークナイザを使用する解析器を設定するには、analyzer_paramstokenizerstandard に設定します。

analyzer_params = {
    "tokenizer": "standard",
}

standard トークナイザーは、1 つまたは複数のフィルターと組み合わせて使用できます。たとえば、次のコードでは、standard トークナイザーとlowercase フィルタを使用する解析器を定義しています。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

セットアップをより簡単にするには standard analyzerこれは、standard トークナイザーと lowercase filter.

analyzer_params を定義した後、コレクションスキーマを定義するときに、VARCHAR フィールドに適用できます。これにより、Milvusは指定されたアナライザを使用してフィールド内のテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

standard トークン化器がテキストをどのように処理するかの例を示します。

元のテキスト

"The Milvus vector database is built for scale!"

期待される出力

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]

翻訳DeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?