ダッシュスコープCompatible with Milvus 2.6.x

このトピックでは、Milvus における DashScope 埋め込み関数の設定と使用方法について説明します。

埋め込みモデルの選択

以下は現在利用可能な DashScope 埋め込みモデルです:

モデル名

寸法

行あたりの最大トークン数

サポート言語

テキスト埋め込み-v3

1,024(デフォルト)、768、または512

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語、その他50以上の言語

テキスト埋め込み-v2

1,536

2,048

中国語, 英語, スペイン語, フランス語, ポルトガル語, インドネシア語, 日本語, 韓国語, ドイツ語, ロシア語

テキスト埋め込み-v1

1,536

2,048

中国語, 英語, スペイン語, フランス語, ポルトガル語, インドネシア語, 日本語, 韓国語, ドイツ語, ロシア語

埋め込みモデルtext-embedding-v3はdim パラメータによって埋め込みサイズを小さくすることをサポートしています。一般的に、埋め込みサイズが大きいと、計算、メモリ、ストレージの観点から、より高価になります。次元数を調整できることで、全体的なコストとパフォーマンスをよりコントロールできるようになります。各モデルの詳細については、エンベッディングを参照してください。

認証情報の構成

Milvus は、埋め込みを要求する前に DashScope API キーを知っている必要があります。Milvus はクレデンシャルを設定するために 2 つの方法を提供します:

  • 設定ファイル (推奨):API キーをmilvus.yaml に保存し、再起動とノードが自動的に取得するようにします。

  • 環境変数:Docker Composeに最適です。

コンフィギュレーション・ファイルはベアメタルやVMでメンテナンスしやすく、env-varルートはコンテナのワークフローに適している。

同じプロバイダのAPIキーが設定ファイルと環境変数の両方に存在する場合、milvusは常にmilvus.yaml の値を使用し、環境変数は無視します。

milvus.yamlMilvusは起動時にAPIキーを読み込み、同じプロバイダの環境変数を上書きします。

  1. **の下にキーを宣言してください。credential:

    APIキーは1つでも複数でもかまいません。それぞれに、後で参照するためのラベルを付けてください。

    # milvus.yaml
    credential:
      apikey_dev:            # dev environment
        apikey: <YOUR_DEV_KEY>
      apikey_prod:           # production environment
        apikey: <YOUR_PROD_KEY>    
    

    APIキーをここに記述することで、再起動後もAPIキーが保持され、ラベルを変更するだけでAPIキーを切り替えることができます。

  2. DashScopeの呼び出しに使用するキーをMilvusに伝える。

    同じファイルで、DashScope プロバイダーに使用するラベルを指定します。

    function:
      textEmbedding:
        providers:
          dashscope:
            credential: apikey_dev      # ← choose any label you defined above
            # url: https://dashscope-intl.aliyuncs.com/compatible-mode/v1   # (optional) custom url
    

    これにより、Milvus が DashScope embeddings エンドポイントに送信するすべてのリクエストに特定のキーがバインドされます。

オプション 2: 環境変数

Docker ComposeでMilvusを実行し、ファイルやイメージから秘密を守りたい場合は、この方法を使用してください。

Milvus はmilvus.yaml にプロバイダのキーが見つからない場合のみ、環境変数にフォールバックします。

変数

必須

説明

MILVUSAI_DASHSCOPE_API_KEY

はい

DashScope キーを各 Milvus コンテナ内で使用可能にする(DashScope キーがmilvus.yaml に存在する場合は無視される)。

docker-compose.yamlファイルでMILVUSAI_DASHSCOPE_API_KEY 環境変数を設定します。

# docker-compose.yaml (standalone service section)
standalone:
  # ... other configurations ...
  environment:
    # ... other environment variables ...
    # Set the environment variable pointing to the DashScope API key inside the container
    MILVUSAI_DASHSCOPE_API_KEY: <MILVUSAI_DASHSCOPE_API_KEY>

environment: ブロックは、Milvus コンテナにのみキーを注入し、ホスト OS には手を付けません。詳細については、Docker Composeを使用したMilvusの設定を参照してください。

埋め込み関数の使用

認証情報の設定が完了したら、以下の手順で埋め込み関数を定義し、使用します。

ステップ1: スキーマフィールドの定義

埋め込み関数を使用するには、特定のスキーマを持つコレクションを作成します。このスキーマには、少なくとも3つの必要なフィールドが含まれていなければなりません:

  • コレクション内の各エンティティを一意に識別するプライマリフィールド。

  • 埋め込む生データを格納するスカラーフィールド。

  • スカラー・フィールドに対して関数が生成するベクトル埋め込みを格納するために予約されたベクトル・フィールド。

次の例では、テキストデータを格納するためのスカラーフィールド"document" と、Functionモジュールによって生成される埋め込みデータを格納するためのベクトルフィールド"dense" を持つスキーマを定義しています。ベクトル次元(dim)は、選択した埋め込みモデルの出力に合わせて設定することを忘れないでください。

from pymilvus import MilvusClient, DataType, Function, FunctionType

# Initialize Milvus client
client = MilvusClient(
    uri="http://localhost:19530",
)

# Create a new schema for the collection
schema = client.create_schema()

# Add primary field "id"
schema.add_field("id", DataType.INT64, is_primary=True, auto_id=False)

# Add scalar field "document" for storing textual data
schema.add_field("document", DataType.VARCHAR, max_length=9000)

# Add vector field "dense" for storing embeddings.
# IMPORTANT: Set dim to match the exact output dimension of the embedding model.
schema.add_field("dense", DataType.FLOAT_VECTOR, dim=1024)

ステップ 2: スキーマへの埋め込み関数の追加

MilvusのFunctionモジュールは、スカラーフィールドに格納された生データを自動的に埋め込みデータに変換し、明示的に定義されたベクトルフィールドに格納します。

下の例では、スカラーフィールド"document" をエンベッディングに変換するFunctionモジュール(ali)を追加し、結果のベクトルを先に定義した"dense" ベクトルフィールドに格納しています。

埋め込み関数を定義したら、コレクションスキーマに追加します。これにより、Milvusは指定された埋め込み関数を使用して、テキストデータの埋め込みを処理し、格納するようになります。


# Define embedding function specifically for model provider
text_embedding_function = Function(
    name="ali",                                     # Unique identifier for this embedding function
    function_type=FunctionType.TEXTEMBEDDING,       # Indicates a text embedding function
    input_field_names=["document"],                 # Scalar field(s) containing text data to embed
    output_field_names=["dense"],                   # Vector field(s) for storing embeddings
    params={                                        # Provider-specific embedding parameters
        "provider": "dashscope",                    # Embedding provider name (must be "dashscope")
        "model_name": "text-embedding-v3",          # Specific embedding model used
        # Optional parameters:
        # "credential": "apikey_dev"                # Optional: Credential label specified in milvus.yaml
        # "dim": "1024",                            # Optional: Shorten the output vector dimension
    }
)

# Add the configured embedding function to your existing collection schema
schema.add_function(text_embedding_function)

次のステップ

埋め込み関数を設定した後、インデックス設定、データ挿入例、セマンティック検索操作に関する追加ガイダンスについては、「関数の概要」を参照してください。