🚀 Coba Zilliz Cloud, Milvus yang sepenuhnya terkelola, secara gratis—rasakan performa 10x lebih cepat! Coba Sekarang>>

milvus-logo
LFAI
Beranda
  • Model

Cohere

Model penyematan Cohere digunakan untuk menghasilkan penyematan teks, yang merupakan daftar angka floating-point yang menangkap informasi semantik tentang teks. Penyematan ini dapat digunakan untuk tugas-tugas seperti klasifikasi teks dan pencarian semantik.

Milvus terintegrasi dengan model penyematan Cohere menggunakan kelas CohereEmbeddingFunction. Kelas ini menangani komputasi penyematan dan mengembalikannya dalam format yang kompatibel dengan Milvus untuk pengindeksan dan pencarian.

Untuk menggunakan fitur ini, instal dependensi yang diperlukan:

pip install --upgrade pymilvus
pip install "pymilvus[model]"

Kemudian, instansikan CohereEmbeddingFunction:

from pymilvus.model.dense import CohereEmbeddingFunction

cohere_ef = CohereEmbeddingFunction(
    model_name="embed-english-light-v3.0",
    api_key="YOUR_COHERE_API_KEY",
    input_type="search_document",
    embedding_types=["float"]
)

Parameter:

  • model_name (string)

    Nama model penyematan Cohere yang akan digunakan untuk pengkodean. Anda dapat menentukan salah satu nama model penyematan Cohere yang tersedia, misalnya, embed-english-v3.0, embed-multilingual-v3.0, dll. Jika Anda membiarkan parameter ini tidak ditentukan, embed-english-light-v3.0 akan digunakan. Untuk daftar model yang tersedia, lihat Sematkan.

  • api_key (string)

    Kunci API untuk mengakses API Cohere.

  • input_type (string)

    Jenis input yang diteruskan ke model. Diperlukan untuk model penyematan v3 dan yang lebih tinggi.

    • "search_document": Digunakan untuk penyematan yang disimpan dalam basis data vektor untuk kasus penggunaan pencarian.
    • "search_query": Digunakan untuk penyematan kueri penelusuran yang dijalankan terhadap DB vektor untuk menemukan dokumen yang relevan.
    • "classification": Digunakan untuk penyematan yang dilewatkan melalui pengklasifikasi teks.
    • "clustering": Digunakan untuk penyematan yang dijalankan melalui algoritma pengelompokan.
  • embedding_types (Daftar [str])

    Jenis sematan yang ingin Anda dapatkan kembali. Tidak diperlukan dan nilai standarnya adalah None, yang mengembalikan jenis respons Embed Floats. Saat ini, Anda hanya dapat menentukan satu nilai untuk parameter ini. Nilai yang mungkin:

    • "float": Gunakan ini bila Anda ingin mendapatkan kembali penyematan mengambang default. Berlaku untuk semua model.
    • "binary": Gunakan ini bila Anda ingin mendapatkan kembali penyematan biner yang ditandatangani. Hanya berlaku untuk model v3.
    • "ubinary": Gunakan ini bila Anda ingin mendapatkan kembali embedding biner yang tidak ditandatangani. Hanya berlaku untuk model v3.

Untuk membuat sematan untuk dokumen, gunakan metode encode_documents():

docs = [
    "Artificial intelligence was founded as an academic discipline in 1956.",
    "Alan Turing was the first person to conduct substantial research in AI.",
    "Born in Maida Vale, London, Turing was raised in southern England.",
]

docs_embeddings = cohere_ef.encode_documents(docs)

# Print embeddings
print("Embeddings:", docs_embeddings)
# Print dimension and shape of embeddings
print("Dim:", cohere_ef.dim, docs_embeddings[0].shape)

Hasil yang diharapkan mirip dengan yang berikut ini:

Embeddings: [array([ 3.43322754e-02,  1.16252899e-03, -5.25207520e-02,  1.32846832e-03,
       -6.80541992e-02,  6.10961914e-02, -7.06176758e-02,  1.48925781e-01,
        1.54174805e-01,  1.98516846e-02,  2.43835449e-02,  3.55224609e-02,
        1.82952881e-02,  7.57446289e-02, -2.40783691e-02,  4.40063477e-02,
...
        0.06359863, -0.01971436, -0.02253723,  0.00354195,  0.00222015,
        0.00184727,  0.03408813, -0.00777817,  0.04919434,  0.01519775,
       -0.02862549,  0.04760742, -0.07891846,  0.0124054 ], dtype=float32)]
Dim: 384 (384,)

Untuk membuat sematan untuk kueri, gunakan metode encode_queries():

queries = ["When was artificial intelligence founded", 
           "Where was Alan Turing born?"]

query_embeddings = cohere_ef.encode_queries(queries)

print("Embeddings:", query_embeddings)
print("Dim", cohere_ef.dim, query_embeddings[0].shape)

Hasil yang diharapkan serupa dengan yang berikut ini:

Embeddings: [array([-1.33361816e-02,  9.79423523e-04, -7.28759766e-02, -1.93786621e-02,
       -9.71679688e-02,  4.34875488e-02, -9.81445312e-02,  1.16882324e-01,
        5.89904785e-02, -4.19921875e-02,  4.95910645e-02,  5.83496094e-02,
        3.47595215e-02, -5.87463379e-03, -7.30514526e-03,  2.92816162e-02,
...
        0.00749969, -0.01192474,  0.02719116,  0.03347778,  0.07696533,
        0.01409149,  0.00964355, -0.01681519, -0.0073204 ,  0.00043154,
       -0.04577637,  0.03591919, -0.02807617, -0.04812622], dtype=float32)]
Dim 384 (384,)
Daftar isi

Coba Milvus yang Dikelola secara Gratis

Zilliz Cloud bebas masalah, didukung oleh Milvus dan 10x lebih cepat.

Mulai
Umpan balik

Apakah halaman ini bermanfaat?