June 05, 2024
Stephen Batifol


現在、MilvusのPython SDKであるPyMilvusのモデルモジュール統合により、EmbeddingモデルとRerankingモデルの追加がさらに簡単になりました。この統合により、データを検索可能なベクトルに変換したり、RAG(Retrieval Augmented Generation)のようなより正確な結果を得るために結果を再ランキングしたりすることが簡単になります。

このブログでは、密な埋め込みモデル、疎な埋め込みモデル、そして再ランカーについてレビューし、Pythonアプリケーションでローカルに実行できるMilvusの軽量版であるMilvus Liteを使用して、実際の使い方をデモンストレーションします。



ベクトル埋め込みは一般的に2つの主要なカテゴリに分類されます:密な埋め込み(Dense Embeddings)と疎な埋め込み(Sparse Embeddings)です。

  • 密な埋め込みは高次元のベクトルで、要素のほとんどまたはすべてがゼロでないため、テキストのセマンティクスやファジーな意味をエンコードするのに理想的です。

  • スパース埋め込みは、多くのゼロ要素を持つ高次元ベクトルであり、厳密な概念や隣接する概念の符号化に適しています。




例1: デフォルトの埋め込み関数を使って高密度ベクトルを生成する

Milvusで埋め込み関数とリランキング関数を使用するには、model パッケージと一緒にpymilvus クライアントをインストールする必要があります。

pip install "pymilvus[model]"

このステップではMilvus Liteをインストールし、Pythonアプリケーション内でローカルにMilvusを実行できるようにします。また、Milvus Liteにはモデルサブパッケージが含まれており、エンベッディングとリランキングに関するすべてのユーティリティが含まれています。

モデルサブパッケージは、OpenAI、Sentence TransformersBGE-M3、BM25、SPLADE、Jina AIプレトレーニングモデルを含む様々なエンベッディングモデルをサポートしています。

この例では、DefaultEmbeddingFunctionall-MiniLM-L6-v2 Sentence Transformer モデルに基づいて、簡単にするために使用しています。モデルは約70MBで、最初の使用時にダウンロードされる:

from pymilvus import model

# This will download "all-MiniLM-L6-v2", a lightweight model.
ef = model.DefaultEmbeddingFunction()

# Data from which embeddings are to be generated
docs = [
   "Artificial intelligence was founded as an academic discipline in 1956.",
   "Alan Turing was the first person to conduct substantial research in AI.",
   "Born in Maida Vale, London, Turing was raised in southern England.",

embeddings = ef.encode_documents(docs)

print("Embeddings:", embeddings)
# Print dimension and shape of embeddings
print("Dim:", ef.dim, embeddings[0].shape)


Embeddings: [array([-3.09392996e-02, -1.80662833e-02,  1.34775648e-02,  2.77156215e-02,
      -4.86349640e-03, -3.12581174e-02, -3.55921760e-02,  5.76934684e-03,
       2.80773244e-03,  1.35783911e-01,  3.59678417e-02,  6.17732145e-02,
      -4.61330153e-02, -4.85207550e-02,  3.13997865e-02,  7.82178566e-02,
      -4.75336798e-02,  5.21207601e-02,  9.04406682e-02, -5.36676683e-02],
Dim: 384 (384,)


BM25は、単語の出現頻度を用いてクエリと文書の関連性を決定するよく知られた手法です。この例では、BM25EmbeddingFunction を使って、クエリとドキュメントのスパース埋め込みを生成する方法を示します。


from pymilvus.model.sparse import BM25EmbeddingFunction

# 1. Prepare a small corpus to search
docs = [
   "Artificial intelligence was founded as an academic discipline in 1956.",
   "Alan Turing was the first person to conduct substantial research in AI.",
   "Born in Maida Vale, London, Turing was raised in southern England.",
query = "Where was Turing born?"
bm25_ef = BM25EmbeddingFunction()

# 2. Fit the corpus to get BM25 model parameters on your documents.

# 3. Store the fitted parameters to expedite future processing.

# 4. Load the saved params
new_bm25_ef = BM25EmbeddingFunction()

docs_embeddings = new_bm25_ef.encode_documents(docs)
query_embeddings = new_bm25_ef.encode_queries([query])
print("Dim:", new_bm25_ef.dim, list(docs_embeddings)[0].shape)




この例では、Jina AI Rerankerを使用する。

from pymilvus.model.reranker import JinaRerankFunction

jina_api_key = "<YOUR_JINA_API_KEY>"

rf = JinaRerankFunction("jina-reranker-v1-base-en", jina_api_key)

query = "What event in 1956 marked the official birth of artificial intelligence as a discipline?"

documents = [
   "In 1950, Alan Turing published his seminal paper, 'Computing Machinery and Intelligence,' proposing the Turing Test as a criterion of intelligence, a foundational concept in the philosophy and development of artificial intelligence.",
   "The Dartmouth Conference in 1956 is considered the birthplace of artificial intelligence as a field; here, John McCarthy and others coined the term 'artificial intelligence' and laid out its basic goals.",
   "In 1951, British mathematician and computer scientist Alan Turing also developed the first program designed to play chess, demonstrating an early example of AI in game strategy.",
   "The invention of the Logic Theorist by Allen Newell, Herbert A. Simon, and Cliff Shaw in 1955 marked the creation of the first true AI program, which was capable of solving logic problems, akin to proving mathematical theorems."

results = rf(query, documents)

for result in results:
   print(f"Index: {result.index}")
   print(f"Score: {result.score:.6f}")
   print(f"Text: {result.text}\n")


Index: 1
Score: 0.937096
Text: The Dartmouth Conference in 1956 is considered the birthplace of artificial intelligence as a field; here, John McCarthy and others coined the term 'artificial intelligence' and laid out its basic goals.

Index: 3
Score: 0.354210
Text: The invention of the Logic Theorist by Allen Newell, Herbert A. Simon, and Cliff Shaw in 1955 marked the creation of the first true AI program, which was capable of solving logic problems, akin to proving mathematical theorems.

Index: 0
Score: 0.349866
Text: In 1950, Alan Turing published his seminal paper, 'Computing Machinery and Intelligence,' proposing the Turing Test as a criterion of intelligence, a foundational concept in the philosophy and development of artificial intelligence.

Index: 2
Score: 0.272896
Text: In 1951, British mathematician and computer scientist Alan Turing also developed the first program designed to play chess, demonstrating an early example of AI in game strategy.



