CohereCompatible with Milvus 2.6.x

このトピックでは、MilvusでCohereエンベッディング関数を設定し、使用する方法について説明します。

埋め込みモデルの選択

MilvusはCohereが提供するエンベッディングモデルをサポートしています。以下は現在利用可能な埋め込みモデルです:

モデル名

寸法

最大トークン数

説明

エンベッド-英語-v3.0

1,024

512

テキストを分類したり、埋め込みにしたりできるモデル。英語のみ。

エンベッブ多言語-v3.0

1,024

512

多言語による分類と埋め込みをサポートします。対応言語はこちら

エンベッド-英語-ライト-v3.0

384

512

embed-english-v3.0 の、より小さく、より高速なバージョン。 ほぼ同等の機能ですが、より高速です。英語のみ。

エンベッドマルチリンガルライト-v3.0

384

512

embed-multilingual-v3.0 の、より小さく高速なバージョン。多言語をサポートしています。

エンベッド-英語-v2.0

4,096

512

テキストを分類したり埋め込みに変えたりできる古い埋め込みモデル。英語のみ。

エンベッディング-英語-ライト-v2.0

1,024

512

embed-english-v2.0の小型高速版。ほぼ同等の機能ですが、より高速です。英語のみ。

embed-multilingual-v2.0

768

256

多言語分類と埋め込みサポートを提供します。サポートされている言語はこちら

詳細については、Cohere の Embed Models を参照してください。

認証情報の設定

Milvus は、埋め込みを要求する前に Cohere API キーを知る必要があります。Milvusは、クレデンシャルを設定するための2つの方法を提供します:

  • 設定ファイル(推奨): milvus.yaml に API キーを保存し、再起動やノードが自動的に API キーを取得するようにします。

  • 環境変数:Docker Composeに最適です。

コンフィギュレーション・ファイルはベアメタルやVMでメンテナンスしやすく、env-varルートはコンテナのワークフローに適している。

同じプロバイダのAPIキーが設定ファイルと環境変数の両方に存在する場合、milvusは常にmilvus.yaml の値を使用し、環境変数は無視します。

milvus.yamlMilvusは起動時にAPIキーを読み込み、同じプロバイダの環境変数を上書きします。

  1. **の下にキーを宣言してください。credential:

    APIキーは1つでも複数でもかまいません。それぞれに、後で参照するためのラベルを付けてください。

    # milvus.yaml
    credential:
      apikey_dev:            # dev environment
        apikey: <YOUR_DEV_KEY>
      apikey_prod:           # production environment
        apikey: <YOUR_PROD_KEY>    
    

    APIキーをここに記述することで、再起動後もAPIキーが保持され、ラベルを変更するだけでAPIキーを切り替えることができます。

  2. MilvusにOpenAIの呼び出しに使うキーを教える

    同じファイルで、Cohere プロバイダーに使用したいラベルを指定します。

    function:
      textEmbedding:
        providers:
          cohere:
            credential: apikey_dev      # ← choose any label you defined above
            # url: https://api.cohere.com/v2/embed   # (optional) custom url
    

    これにより、MilvusがCohere embeddingsエンドポイントに送信するすべてのリクエストに特定のキーがバインドされます。

オプション 2: 環境変数

Docker ComposeでMilvusを実行し、ファイルやイメージから秘密を守りたい場合は、この方法を使用してください。

Milvusは、milvus.yaml にプロバイダのキーが見つからない場合のみ、環境変数にフォールバックします。

変数

必須

説明

MILVUSAI_COHERE_API_KEY

はい

有効な Cohere API キー。

docker-compose.yamlファイルで、MILVUSAI_COHERE_API_KEY 環境変数を設定します。

# docker-compose.yaml (standalone service section)
standalone:
  # ... other configurations ...
  environment:
    # ... other environment variables ...
    # Set the environment variable pointing to the OpenAI API key inside the container
    MILVUSAI_COHERE_API_KEY: <MILVUSAI_COHERE_API_KEY>

environment: ブロックは、Milvus コンテナにのみキーを注入し、ホスト OS には何も残しません。詳しくは、Docker Composeでmilvusを設定するを参照してください。

埋め込み関数の使用

認証情報の設定が完了したら、以下の手順で埋め込み関数を定義し、使用します。

ステップ1: スキーマフィールドの定義

埋め込み関数を使用するには、特定のスキーマを持つコレクションを作成します。このスキーマには、少なくとも3つの必要なフィールドが含まれていなければなりません:

  • コレクション内の各エンティティを一意に識別するプライマリフィールド。

  • 埋め込む生データを格納するスカラーフィールド。

  • スカラー・フィールドに対して関数が生成するベクトル埋め込みを格納するために予約されたベクトル・フィールド。

次の例では、テキストデータを格納するためのスカラーフィールド"document" と、Functionモジュールによって生成される埋め込みデータを格納するためのベクトルフィールド"dense" を持つスキーマを定義しています。ベクトル次元(dim)は、選択した埋め込みモデルの出力に合わせて設定することを忘れないでください。

from pymilvus import MilvusClient, DataType, Function, FunctionType

# Initialize Milvus client
client = MilvusClient(
    uri="http://localhost:19530",
)

# Create a new schema for the collection
schema = client.create_schema()

# Add primary field "id"
schema.add_field("id", DataType.INT64, is_primary=True, auto_id=False)

# Add scalar field "document" for storing textual data
schema.add_field("document", DataType.VARCHAR, max_length=9000)

# Add vector field "dense" for storing embeddings.
# IMPORTANT: Set dim to match the exact output dimension of the embedding model.
schema.add_field("dense", DataType.FLOAT_VECTOR, dim=1024)

ステップ 2: スキーマへの埋め込み関数の追加

MilvusのFunctionモジュールは、スカラーフィールドに格納された生データを自動的に埋め込みデータに変換し、明示的に定義されたベクトルフィールドに格納します。

下の例では、スカラーフィールド"document" をエンベッディングに変換するFunctionモジュール(cohere_func)を追加し、結果のベクトルを先に定義した"dense" ベクトルフィールドに格納しています。

埋め込み関数を定義したら、コレクションスキーマに追加します。これにより、Milvusは指定された埋め込み関数を使用して、テキストデータの埋め込みを処理し、格納するようになります。

# Define embedding function specifically for embedding model provider
text_embedding_function = Function(
    name="cohere_func",                                 # Unique identifier for this embedding function
    function_type=FunctionType.TEXTEMBEDDING,           # Indicates a text embedding function
    input_field_names=["document"],                     # Scalar field(s) containing text data to embed
    output_field_names=["dense"],                       # Vector field(s) for storing embeddings
    params={                                            # Provider-specific embedding parameters (function-level)
        "provider": "cohere",                           # Must be set to "cohere"
        "model_name": "embed-english-v3.0",             # Specifies the embedding model to use
        # Optional parameters:
        # "credential": "apikey_dev",               # Optional: Credential label specified in milvus.yaml
        # "url": "https://api.cohere.com/v2/embed",     # Defaults to the official endpoint if omitted
        # "truncate": "NONE",                           # Specifies how the API will handle inputs longer than the maximum token length.
    }
)

# Add the configured embedding function to your existing collection schema
schema.add_function(text_embedding_function)

次のステップ

埋め込み関数を設定した後、インデックス設定、データ挿入例、セマンティック検索操作に関する追加ガイダンスについては、「関数の概要」を参照してください。