MilvusとVoyageAIによるセマンティック検索
このガイドでは、MilvusベクトルデータベースとVoyageAIのEmbedding APIを使用して、テキストをセマンティック検索する方法を紹介します。
はじめに
始める前に、Voyage APIキーが用意されているか、VoyageAIのウェブサイトから取得できることを確認してください。
この例で使用するデータは本のタイトルである。データセットはこちらからダウンロードでき、以下のコードを実行するのと同じディレクトリに置くことができる。
まず、MilvusとVoyage AI用のパッケージをインストールする:
$ pip install --upgrade voyageai pymilvus milvus-lite
Google Colabを使用している場合、インストールした依存関係を有効にするために、ランタイムを再起動する必要があるかもしれません。(画面上部の "Runtime "メニューをクリックし、ドロップダウンメニューから "Restart session "を選択する)。
これで、埋め込みデータを生成し、ベクターデータベースを使ってセマンティック検索を行う準備が整いました。
VoyageAI & Milvusによる書籍タイトルの検索
以下の例では、ダウンロードしたCSVファイルから書籍のタイトルデータを読み込み、VoyageAIの埋め込みモデルを使ってベクトル表現を生成し、Milvusのベクトルデータベースに格納して意味検索を行います。
import voyageai
from pymilvus import MilvusClient
MODEL_NAME = "voyage-law-2" # Which model to use, please check https://docs.voyageai.com/docs/embeddings for available models
DIMENSION = 1024 # Dimension of vector embedding
# Connect to VoyageAI with API Key.
voyage_client = voyageai.Client(api_key="<YOUR_VOYAGEAI_API_KEY>")
docs = [
"Artificial intelligence was founded as an academic discipline in 1956.",
"Alan Turing was the first person to conduct substantial research in AI.",
"Born in Maida Vale, London, Turing was raised in southern England.",
]
vectors = voyage_client.embed(texts=docs, model=MODEL_NAME, truncation=False).embeddings
# Prepare data to be stored in Milvus vector database.
# We can store the id, vector representation, raw text and labels such as "subject" in this case in Milvus.
data = [
{"id": i, "vector": vectors[i], "text": docs[i], "subject": "history"}
for i in range(len(docs))
]
# Connect to Milvus, all data is stored in a local file named "milvus_voyage_demo.db"
# in current directory. You can also connect to a remote Milvus server following this
# instruction: https://milvus.io/docs/install_standalone-docker.md.
milvus_client = MilvusClient(uri="milvus_voyage_demo.db")
COLLECTION_NAME = "demo_collection" # Milvus collection name
# Create a collection to store the vectors and text.
if milvus_client.has_collection(collection_name=COLLECTION_NAME):
milvus_client.drop_collection(collection_name=COLLECTION_NAME)
milvus_client.create_collection(collection_name=COLLECTION_NAME, dimension=DIMENSION)
# Insert all data into Milvus vector database.
res = milvus_client.insert(collection_name="demo_collection", data=data)
print(res["insert_count"])
引数としてMilvusClient を指定する:
./milvus.dbのようにuriをローカルファイルとして設定する方法が最も便利である。- データ規模が大きい場合は、dockerやkubernetes上に、よりパフォーマンスの高いMilvusサーバを構築することができます。このセットアップでは、サーバの uri、例えば
http://localhost:19530をuriとして使用してください。 - MilvusのフルマネージドクラウドサービスであるZilliz Cloudを使用する場合は、Zilliz CloudのPublic EndpointとApi keyに対応する
uriとtokenを調整してください。
Milvusのベクトルデータベースに全てのデータが登録されたので、クエリに対してベクトル埋め込みを生成してベクトル検索を行うことで、セマンティック検索を行うことができる。
queries = ["When was artificial intelligence founded?"]
query_vectors = voyage_client.embed(
texts=queries, model=MODEL_NAME, truncation=False
).embeddings
res = milvus_client.search(
collection_name=COLLECTION_NAME, # target collection
data=query_vectors, # query vectors
limit=2, # number of returned entities
output_fields=["text", "subject"], # specifies fields to be returned
)
for q in queries:
print("Query:", q)
for result in res:
print(result)
print("\n")
Query: When was artificial intelligence founded?
[{'id': 0, 'distance': 0.7196218371391296, 'entity': {'text': 'Artificial intelligence was founded as an academic discipline in 1956.', 'subject': 'history'}}, {'id': 1, 'distance': 0.6297335028648376, 'entity': {'text': 'Alan Turing was the first person to conduct substantial research in AI.', 'subject': 'history'}}]
VoyageAI & Milvusによる画像検索
import base64
import voyageai
from pymilvus import MilvusClient
import urllib.request
import matplotlib.pyplot as plt
from io import BytesIO
import urllib.request
import fitz # PyMuPDF
from PIL import Image
def pdf_url_to_screenshots(url: str, zoom: float = 1.0) -> list[Image]:
# Ensure that the URL is valid
if not url.startswith("http") and url.endswith(".pdf"):
raise ValueError("Invalid URL")
# Read the PDF from the specified URL
with urllib.request.urlopen(url) as response:
pdf_data = response.read()
pdf_stream = BytesIO(pdf_data)
pdf = fitz.open(stream=pdf_stream, filetype="pdf")
images = []
# Loop through each page, render as pixmap, and convert to PIL Image
mat = fitz.Matrix(zoom, zoom)
for n in range(pdf.page_count):
pix = pdf[n].get_pixmap(matrix=mat)
# Convert pixmap to PIL Image
img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
images.append(img)
# Close the document
pdf.close()
return images
def image_to_base64(image):
buffered = BytesIO()
image.save(buffered, format="JPEG")
img_str = base64.b64encode(buffered.getvalue())
return img_str.decode("utf-8")
DIMENSION = 1024 # Dimension of vector embedding
次にMilvusの入力データを用意する。前章で作成したVoyageAIクライアントを再利用しよう。利用可能なVoyageAIのマルチモーダル埋め込みモデルについては、こちらのページを参照してください。
pages = pdf_url_to_screenshots("https://www.fdrlibrary.org/documents/356632/390886/readingcopy.pdf", zoom=3.0)
inputs = [[img] for img in pages]
vectors = client.multimodal_embed(inputs, model="voyage-multimodal-3")
inputs = [i[0] if isinstance(i[0], str) else image_to_base64(i[0]) for i in inputs]
# Prepare data to be stored in Milvus vector database.
# We can store the id, vector representation, raw text and labels such as "subject" in this case in Milvus.
data = [
{"id": i, "vector": vectors.embeddings[i], "data": inputs[i], "subject": "fruits"}
for i in range(len(inputs))
]
次に、Milvusデータベース接続を作成し、埋め込みデータをMilvusデータベースに挿入します。
milvus_client = MilvusClient(uri="milvus_voyage_multi_demo.db")
COLLECTION_NAME = "demo_collection" # Milvus collection name
# Create a collection to store the vectors and text.
if milvus_client.has_collection(collection_name=COLLECTION_NAME):
milvus_client.drop_collection(collection_name=COLLECTION_NAME)
milvus_client.create_collection(collection_name=COLLECTION_NAME, dimension=DIMENSION)
# Insert all data into Milvus vector database.
res = milvus_client.insert(collection_name="demo_collection", data=data)
print(res["insert_count"])
これで画像を検索する準備が整いました。ここでは、クエリは文字列ですが、画像でもクエリできます。(結果を表示するにはmatplotlibを使います。
queries = [["The consequences of a dictator's peace"]]
query_vectors = client.multimodal_embed(
inputs=queries, model="voyage-multimodal-3", truncation=False
).embeddings
res = milvus_client.search(
collection_name=COLLECTION_NAME, # target collection
data=query_vectors, # query vectors
limit=4, # number of returned entities
output_fields=["data", "subject"], # specifies fields to be returned
)
for q in queries:
print("Query:", q)
for result in res:
fig, axes = plt.subplots(1, len(result), figsize=(66, 6))
for n, page in enumerate(result):
page_num = page['id']
axes[n].imshow(pages[page_num])
axes[n].axis("off")
plt.tight_layout()
plt.show()