OpenAICompatible with Milvus 2.6.x

MilvusでOpenAIのエンベッディングモデルを使用するには、モデルを選択し、OpenAIのAPIキーでMilvusを設定します。

埋め込みモデルの選択

MilvusはOpenAIが提供する全ての埋め込みモデルに対応しています。以下は現在利用可能なOpenAIのエンベッディングモデルです:

モデル名

寸法

最大トークン数

説明

テキスト埋め込み-3-小

デフォルト:1,536(1,536以下の寸法に短縮可能)

8,191

コスト重視でスケーラブルなセマンティック検索に最適-低価格で強力なパフォーマンスを提供。

テキスト埋め込み-3-ラージ

デフォルト:3,072(3,072以下のディメンションサイズに短縮可能)

8,191

検索精度の向上と、より豊富な意味表現を必要とするアプリケーションに最適。

テキスト埋め込み-ada-002

固定:1,536(短縮不可)

8,191

レガシーパイプラインや後方互換性を必要とするシナリオに適した旧世代のモデル。

第三世代の埋め込みモデル(text-embedding-3)は、dim パラメータによって埋め込みサイズを小さくすることができます。一般的に、埋め込みサイズが大きいと、計算、メモリ、ストレージの観点からコストが高くなります。次元数を調整できることで、全体的なコストとパフォーマンスをよりコントロールできるようになります。各モデルの詳細については、エンベッディングモデルと OpenAIのアナウンスブログポストを参照してください。

認証情報の設定

Milvusはエンベッディングをリクエストする前にOpenAIのAPIキーを知る必要があります。Milvusはクレデンシャルを設定するために2つの方法を提供します:

  • 設定ファイル(推奨): milvus.yaml にAPIキーを保存し、再起動とノードが自動的にAPIキーを取得するようにします。

  • 環境変数:Docker Composeに最適です。

コンフィギュレーション・ファイルはベアメタルやVMでメンテナンスしやすく、env-varルートはコンテナのワークフローに適している。

同じプロバイダのAPIキーが設定ファイルと環境変数の両方に存在する場合、milvusは常にmilvus.yaml の値を使用し、環境変数は無視します。

milvus.yamlMilvusは起動時にAPIキーを読み込み、同じプロバイダの環境変数を上書きします。

  1. **の下にキーを宣言してください。credential:

    APIキーは1つでも複数でもかまいません。それぞれに、後で参照するためのラベルを付けてください。

    # milvus.yaml
    credential:
      apikey_dev:            # dev environment
        apikey: <YOUR_DEV_KEY>
      apikey_prod:           # production environment
        apikey: <YOUR_PROD_KEY>    
    

    APIキーをここに記述することで、再起動後もAPIキーが保持され、ラベルを変更するだけでAPIキーを切り替えることができます。

  2. MilvusにOpenAIの呼び出しに使うキーを教える

    同じファイルで、OpenAIプロバイダに使用したいラベルを指定します。

    function:
      textEmbedding:
        providers:
          openai:
            credential: apikey_dev      # ← choose any label you defined above
            # url: https://api.openai.com/v1/embeddings   # (optional) custom url
    

    これにより、MilvusがOpenAIのエンベッディングエンドポイントに送信するすべてのリクエストに特定のキーがバインドされます。

オプション 2: 環境変数

Docker ComposeでMilvusを実行し、ファイルやイメージから秘密を守りたい場合、この方法を使います。

Milvus はmilvus.yaml にプロバイダのキーが見つからない場合のみ、環境変数にフォールバックします。

変数

必須

説明

MILVUSAI_OPENAI_API_KEY

はい

OpenAIのキーを各Milvusコンテナ内で利用可能にする(OpenAIのキーがmilvus.yaml に存在する場合は無視される)。

docker-compose.yamlファイルで、MILVUSAI_OPENAI_API_KEY 環境変数を設定します。

# docker-compose.yaml (standalone service section)
standalone:
  # ... other configurations ...
  environment:
    # ... other environment variables ...
    # Set the environment variable pointing to the OpenAI API key inside the container
    MILVUSAI_OPENAI_API_KEY: <MILVUSAI_OPENAI_API_KEY>

environment: ブロックは、Milvus コンテナにのみキーを注入し、ホスト OS はそのままにしておきます。詳細については、Docker Composeを使用したMilvusの設定を参照してください。

埋め込み関数の使用

認証情報の設定が完了したら、以下の手順で埋め込み関数を定義し、使用します。

ステップ1:スキーマフィールドの定義

埋め込み関数を使用するには、特定のスキーマを持つコレクションを作成します。このスキーマには、少なくとも3つの必要なフィールドが含まれていなければなりません:

  • コレクション内の各エンティティを一意に識別するプライマリフィールド。

  • 埋め込む生データを格納するスカラーフィールド。

  • スカラー・フィールドに対して関数が生成するベクトル埋め込みを格納するために予約されたベクトル・フィールド。

次の例では、テキストデータを格納するためのスカラーフィールド"document" と、Functionモジュールによって生成される埋め込みデータを格納するためのベクトルフィールド"dense" を持つスキーマを定義しています。ベクトル次元(dim)は、選択した埋め込みモデルの出力に合わせて設定することを忘れないでください。

from pymilvus import MilvusClient, DataType, Function, FunctionType

# Initialize Milvus client
client = MilvusClient(
    uri="http://localhost:19530",
)

# Create a new schema for the collection
schema = client.create_schema()

# Add primary field "id"
schema.add_field("id", DataType.INT64, is_primary=True, auto_id=False)

# Add scalar field "document" for storing textual data
schema.add_field("document", DataType.VARCHAR, max_length=9000)

# Add vector field "dense" for storing embeddings.
# IMPORTANT: Set dim to match the exact output dimension of the embedding model.
# For instance, OpenAI's text-embedding-3-small model outputs 1536-dimensional vectors.
schema.add_field("dense", DataType.FLOAT_VECTOR, dim=1536)

ステップ 2: スキーマへの埋め込み関数の追加

MilvusのFunctionモジュールは、スカラーフィールドに格納された生データを自動的に埋め込みデータに変換し、明示的に定義されたベクトルフィールドに格納します。

下の例では、スカラーフィールド"document" をエンベッディングに変換するFunctionモジュール(openai_embedding)を追加し、結果のベクトルを先に定義した"dense" ベクトルフィールドに格納しています。

埋め込み関数を定義したら、コレクションスキーマに追加します。これにより、Milvusは指定された埋め込み関数を使用して、テキストデータの埋め込みを処理し、格納するようになります。

# Define embedding function (example: OpenAI provider)
text_embedding_function = Function(
    name="openai_embedding",                        # Unique identifier for this embedding function
    function_type=FunctionType.TEXTEMBEDDING,       # Type of embedding function
    input_field_names=["document"],                 # Scalar field to embed
    output_field_names=["dense"],                   # Vector field to store embeddings
    params={                                        # Provider-specific configuration (highest priority)
        "provider": "openai",                       # Embedding model provider
        "model_name": "text-embedding-3-small",     # Embedding model
        # Optional parameters:
        # "credential": "apikey_dev",               # Optional: Credential label specified in milvus.yaml
        # "dim": "1536",                            # Optional: Shorten the output vector dimension
        # "user": "user123"                         # Optional: identifier for API tracking
    }
)

# Add the embedding function to your schema
schema.add_function(text_embedding_function)

次のステップ

埋め込み関数を設定した後、インデックス設定、データ挿入例、セマンティック検索操作に関する追加ガイダンスについては、「関数の概要」を参照してください。