密ベクトル
密なベクトルは、機械学習やデータ分析で広く使われている数値データ表現である。実数の配列で構成され、要素のほとんどまたはすべてが0でない。密なベクトルは疎なベクトルと比較して、各次元が意味のある値を保持しているため、同じ次元レベルでより多くの情報を含んでいます。この表現は、複雑なパターンや関係を効果的に捉えることができ、高次元空間でのデータの分析や処理を容易にします。密なベクトルは通常、特定のアプリケーションや要件に応じて、数十から数百、あるいは数千の固定された次元数を持つ。
密なベクトルは主に、セマンティック検索や推薦システムなど、データのセマンティクスを理解する必要があるシナリオで使用される。セマンティック検索では、密なベクトルはクエリとドキュメント間の根本的なつながりを把握するのに役立ち、検索結果の関連性を向上させます。推薦システムでは、ユーザとアイテムの類似性を識別するのに役立ち、よりパーソナライズされた提案を提供します。
概要
密なベクトルは通常、[0.2, 0.7, 0.1, 0.8, 0.3, ..., 0.5]
のような固定長の浮動小数点数の配列として表現される。これらのベクトルの次元数は通常、128、256、768、1024など、数百から数千の範囲である。各次元は、オブジェクトの特定の意味的特徴を捉え、類似度計算によって様々なシナリオに適用できるようにします。
2次元空間における高密度ベクトル
上の画像は、2D空間における密なベクトルの表現を示しています。実世界のアプリケーションにおける密なベクトルは、より高い次元を持つことがよくありますが、この2次元の図は、いくつかの重要な概念を効果的に伝えています。
多次元表現:各点は概念的なオブジェクト(milvus、ベクトルデータベース、検索システムなど)を表し、その位置は次元の値によって決定される。
意味的関係:点間の距離は概念間の意味的類似性を反映する。より近い点は、より意味的に関連する概念を示す。
クラスタリング効果:関連する概念(milvus、ベクトルデータベース、検索システムなど)は、空間内で互いに近接して配置され、意味的なクラスタを形成する。
以下は、テキスト"Milvus is an efficient vector database"
を表現する実際の密なベクトルの例である。
[
-0.013052909,
0.020387933,
-0.007869,
-0.11111383,
-0.030188112,
-0.0053388323,
0.0010654867,
0.072027855,
// ... more dimensions
]
密なベクトルは、画像の場合はCNNモデル(ResNet、VGGなど)、テキストの場合は言語モデル(BERT、Word2Vecなど)など、さまざまな埋め込みモデルを使用して生成することができます。これらのモデルは生データを高次元空間のポイントに変換し、データの意味的特徴を捉えます。さらにMilvusは、Embeddingsで詳述されているように、ユーザが高密度ベクトルを生成し処理するのに役立つ便利なメソッドを提供しています。
一度ベクトル化されたデータはMilvusに保存され、管理やベクトル検索に利用することができます。下図は基本的なプロセスを示しています。
Milvusで密なベクトルを使う
Milvusは密なベクトル以外にも、疎なベクトルやバイナリベクトルにも対応しています。スパースベクトルはキーワード検索やタームマッチのような特定の用語に基づく正確なマッチングに適しており、バイナリベクトルは画像パターンマッチングや特定のハッシュアプリケーションのような2値化されたデータを効率的に処理するために一般的に使用されます。詳細はバイナリベクトルと スパースベクトルを参照してください。
Milvusで密なベクトルを使う
ベクトルフィールドの追加
Milvusで密なベクトルを使用するには、まずコレクションを作成する際に密なベクトルを格納するためのベクトルフィールドを定義します。このプロセスには以下が含まれます。
datatype
、サポートされる密なベクトルデータ型に設定します。サポートされる密なベクトルデータ型については、データ型を参照してください。dim
パラメータを使用して、密なベクトルの次元を指定します。
以下の例では、密なベクトルを格納するためにdense_vector
という名前のベクトル・フィールドを追加します。このフィールドのデータ型はFLOAT_VECTOR
で、次元は4
です。
from pymilvus import MilvusClient, DataType
client = MilvusClient(uri="http://localhost:19530")
schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)
schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=4)
import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;
import io.milvus.v2.common.DataType;
import io.milvus.v2.service.collection.request.AddFieldReq;
import io.milvus.v2.service.collection.request.CreateCollectionReq;
MilvusClientV2 client = new MilvusClientV2(ConnectConfig.builder()
.uri("http://localhost:19530")
.build());
CreateCollectionReq.CollectionSchema schema = client.createSchema();
schema.setEnableDynamicField(true);
schema.addField(AddFieldReq.builder()
.fieldName("pk")
.dataType(DataType.VarChar)
.isPrimaryKey(true)
.autoID(true)
.maxLength(100)
.build());
schema.addField(AddFieldReq.builder()
.fieldName("dense_vector")
.dataType(DataType.FloatVector)
.dimension(4)
.build());
import { DataType } from "@zilliz/milvus2-sdk-node";
schema.push({
name: "dense_vector",
data_type: DataType.FloatVector,
dim: 128,
});
export primaryField='{
"fieldName": "pk",
"dataType": "VarChar",
"isPrimary": true,
"elementTypeParams": {
"max_length": 100
}
}'
export vectorField='{
"fieldName": "dense_vector",
"dataType": "FloatVector",
"elementTypeParams": {
"dim": 4
}
}'
export schema="{
\"autoID\": true,
\"fields\": [
$primaryField,
$vectorField
]
}"
密なベクトル・フィールドでサポートされるデータ型
データ型 | 説明 |
---|---|
FLOAT_VECTOR | 32ビット浮動小数点数を格納し、科学計算や機械学習で実数を表現するために一般的に使用される。類似したベクトルを区別するなど、高精度を必要とするシナリオに最適。 |
FLOAT16_VECTOR | ディープ・ラーニングや GPU 計算に使用される 16 ビット半精度浮動小数点数を格納します。推薦システムの低精度想起段階など、精度がそれほど重要でないシナリオでは、ストレージ・スペースを節約できます。 |
BFLOAT16_VECTOR | 16ビットのBfloat16(Brain Floating Point)数を格納し、Float32と同じ範囲の指数を提供するが、精度は低下する。大規模な画像検索など、大量のベクトルを高速に処理する必要があるシナリオに適している。 |
ベクトルフィールドにインデックスパラメータを設定する
セマンティック検索を高速化するには、ベクトルフィールドにインデックスを作成する必要があります。インデックスを作成することで、大規模なベクトルデータの検索効率を大幅に向上させることができます。
index_params = client.prepare_index_params()
index_params.add_index(
field_name="dense_vector",
index_name="dense_vector_index",
index_type="IVF_FLAT",
metric_type="IP",
params={"nlist": 128}
)
import io.milvus.v2.common.IndexParam;
import java.util.*;
List<IndexParam> indexes = new ArrayList<>();
Map<String,Object> extraParams = new HashMap<>();
extraParams.put("nlist",128);
indexes.add(IndexParam.builder()
.fieldName("dense_vector")
.indexType(IndexParam.IndexType.IVF_FLAT)
.metricType(IndexParam.MetricType.IP)
.extraParams(extraParams)
.build());
import { MetricType, IndexType } from "@zilliz/milvus2-sdk-node";
const indexParams = {
index_name: 'dense_vector_index',
field_name: 'dense_vector',
metric_type: MetricType.IP,
index_type: IndexType.IVF_FLAT,
params: {
nlist: 128
},
};
export indexParams='[
{
"fieldName": "dense_vector",
"metricType": "IP",
"indexName": "dense_vector_index",
"indexType": "IVF_FLAT",
"params":{"nlist": 128}
}
]'
上の例では、IVF_FLAT
インデックス・タイプを使用して、dense_vector
フィールドにdense_vector_index
という名前のインデックスが作成されている。metric_type
はIP
に設定され、距離メトリックとして内積が使用されることを示しています。
Milvusは他のインデックスタイプもサポートしています。詳細は浮動ベクトルインデックスを参照してください。さらに、Milvusは他のメトリックタイプもサポートしています。詳細はメトリックタイプを参照してください。
コレクションの作成
密なベクトルとインデックス・パラメータの設定が完了したら、密なベクトルを含むコレクションを作成できます。以下の例では、create_collection
メソッドを使用して、my_dense_collection
という名前のコレクションを作成しています。
client.create_collection(
collection_name="my_dense_collection",
schema=schema,
index_params=index_params
)
import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;
MilvusClientV2 client = new MilvusClientV2(ConnectConfig.builder()
.uri("http://localhost:19530")
.build());
CreateCollectionReq requestCreate = CreateCollectionReq.builder()
.collectionName("my_dense_collection")
.collectionSchema(schema)
.indexParams(indexes)
.build();
client.createCollection(requestCreate);
import { MilvusClient } from "@zilliz/milvus2-sdk-node";
const client = new MilvusClient({
address: 'http://localhost:19530'
});
await client.createCollection({
collection_name: 'my_dense_collection',
schema: schema,
index_params: indexParams
});
curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/collections/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
\"collectionName\": \"my_dense_collection\",
\"schema\": $schema,
\"indexParams\": $indexParams
}"
データの挿入
コレクションを作成した後、insert
メソッドを使用して、密なベクトルを 含むデータを追加する。挿入する密なベクトルの次元数が、密なベクトル・フィールドを追加するときに定義したdim
の値と一致することを確認します。
data = [
{"dense_vector": [0.1, 0.2, 0.3, 0.7]},
{"dense_vector": [0.2, 0.3, 0.4, 0.8]},
]
client.insert(
collection_name="my_dense_collection",
data=data
)
import com.google.gson.Gson;
import com.google.gson.JsonObject;
import io.milvus.v2.service.vector.request.InsertReq;
import io.milvus.v2.service.vector.response.InsertResp;
List<JsonObject> rows = new ArrayList<>();
Gson gson = new Gson();
rows.add(gson.fromJson("{\"dense_vector\": [0.1, 0.2, 0.3, 0.4]}", JsonObject.class));
rows.add(gson.fromJson("{\"dense_vector\": [0.2, 0.3, 0.4, 0.5]}", JsonObject.class));
InsertResp insertR = client.insert(InsertReq.builder()
.collectionName("my_dense_collection")
.data(rows)
.build());
const data = [
{ dense_vector: [0.1, 0.2, 0.3, 0.7] },
{ dense_vector: [0.2, 0.3, 0.4, 0.8] },
];
client.insert({
collection_name: "my_dense_collection",
data: data,
});
curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/entities/insert" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d '{
"data": [
{"dense_vector": [0.1, 0.2, 0.3, 0.4]},
{"dense_vector": [0.2, 0.3, 0.4, 0.5]}
],
"collectionName": "my_dense_collection"
}'
## {"code":0,"cost":0,"data":{"insertCount":2,"insertIds":["453577185629572531","453577185629572532"]}}
類似検索の実行
密なベクトルに基づくセマンティック検索はmilvusのコア機能の1つであり、ベクトル間の距離に基づいてクエリベクトルに最も似ているデータを素早く見つけることができます。類似検索を行うには、クエリベクトルと検索パラメータを用意し、search
メソッドを呼び出します。
search_params = {
"params": {"nprobe": 10}
}
query_vector = [0.1, 0.2, 0.3, 0.7]
res = client.search(
collection_name="my_dense_collection",
data=[query_vector],
anns_field="dense_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)
print(res)
# Output
# data: ["[{'id': '453718927992172271', 'distance': 0.7599999904632568, 'entity': {'pk': '453718927992172271'}}, {'id': '453718927992172270', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172270'}}]"]
import io.milvus.v2.service.vector.request.data.FloatVec;
Map<String,Object> searchParams = new HashMap<>();
searchParams.put("nprobe",10);
FloatVec queryVector = new FloatVec(new float[]{0.1f, 0.3f, 0.3f, 0.4f});
SearchResp searchR = client.search(SearchReq.builder()
.collectionName("my_dense_collection")
.data(Collections.singletonList(queryVector))
.annsField("dense_vector")
.searchParams(searchParams)
.topK(5)
.outputFields(Collections.singletonList("pk"))
.build());
System.out.println(searchR.getSearchResults());
// Output
//
// [[SearchResp.SearchResult(entity={pk=453444327741536779}, score=0.65, id=453444327741536779), SearchResp.SearchResult(entity={pk=453444327741536778}, score=0.65, id=453444327741536778)]]
query_vector = [0.1, 0.2, 0.3, 0.7];
client.search({
collection_name: my_dense_collection,
data: query_vector,
limit: 5,
output_fields: ['pk'],
params: {
nprobe: 10
}
});
curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/entities/search" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d '{
"collectionName": "my_dense_collection",
"data": [
[0.1, 0.2, 0.3, 0.7]
],
"annsField": "dense_vector",
"limit": 5,
"searchParams":{
"params":{"nprobe":10}
},
"outputFields": ["pk"]
}'
## {"code":0,"cost":0,"data":[{"distance":0.55,"id":"453577185629572532","pk":"453577185629572532"},{"distance":0.42,"id":"453577185629572531","pk":"453577185629572531"}]}
類似検索パラメータの詳細については、基本的なANN検索を参照してください。