Open In Colab GitHub Repository

VectorETL을 사용하여 Milvus에 효율적으로 데이터 로드하기

이 튜토리얼에서는 벡터 데이터베이스를 위해 설계된 경량 ETL 프레임워크인 VectorETL을 사용하여 Milvus에 데이터를 효율적으로 로드하는 방법을 살펴봅니다. VectorETL은 다양한 소스에서 데이터를 추출하고, AI 모델을 사용하여 벡터 임베딩으로 변환한 다음, 빠르고 확장 가능한 검색을 위해 Milvus에 저장하는 프로세스를 간소화합니다. 이 튜토리얼이 끝나면 벡터 검색 시스템을 쉽게 통합하고 관리할 수 있는 작동하는 ETL 파이프라인을 갖추게 됩니다. 시작해 보겠습니다!

준비

종속성 및 환경

$ pip install --upgrade vector-etl pymilvus

Google Colab을 사용하는 경우 방금 설치한 종속 요소를 사용하려면 런타임을 다시 시작해야 할 수 있습니다(화면 상단의 "런타임" 메뉴를 클릭하고 드롭다운 메뉴에서 "세션 다시 시작"을 선택).

VectorETL은 Amazon S3, Google 클라우드 스토리지, 로컬 파일 등 다양한 데이터 소스를 지원합니다. 지원되는 소스의 전체 목록은 여기에서 확인할 수 있습니다. 이 튜토리얼에서는 데이터 소스 예제로 Amazon S3를 집중적으로 살펴보겠습니다.

Amazon S3에서 문서를 로드하겠습니다. 따라서 S3 버킷에 안전하게 액세스하려면 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY 을 환경 변수로 준비해야 합니다. 또한 OpenAI의 text-embedding-ada-002 임베딩 모델을 사용하여 데이터에 대한 임베딩을 생성할 것입니다. 또한 환경 변수로 OPENAI_API_KEY API 키를 준비해야 합니다.

import os

os.environ["OPENAI_API_KEY"] = "your-openai-api-key"
os.environ["AWS_ACCESS_KEY_ID"] = "your-aws-access-key-id"
os.environ["AWS_SECRET_ACCESS_KEY"] = "your-aws-secret-access-key"

워크플로

데이터 소스 정의(Amazon S3)

이 사례에서는 Amazon S3 버킷에서 문서를 추출합니다. VectorETL을 사용하면 버킷 이름, 파일 경로, 작업 중인 데이터 유형을 지정할 수 있습니다.

source = {
    "source_data_type": "Amazon S3",
    "bucket_name": "my-bucket",
    "key": "path/to/files/",
    "file_type": ".csv",
    "aws_access_key_id": os.environ["AWS_ACCESS_KEY_ID"],
    "aws_secret_access_key": os.environ["AWS_SECRET_ACCESS_KEY"],
}

임베딩 모델 구성하기(OpenAI)

데이터 소스를 설정했으면 텍스트 데이터를 벡터 임베딩으로 변환할 임베딩 모델을 정의해야 합니다. 여기서는 이 예제에서 OpenAI의 text-embedding-ada-002 을 사용합니다.

embedding = {
    "embedding_model": "OpenAI",
    "api_key": os.environ["OPENAI_API_KEY"],
    "model_name": "text-embedding-ada-002",
}

Milvus를 대상 데이터베이스로 설정하기

생성된 임베딩을 Milvus에 저장해야 합니다. 여기서는 Milvus Lite를 사용하여 Milvus 연결 파라미터를 정의합니다.

target = {
    "target_database": "Milvus",
    "host": "./milvus.db",  # os.environ["ZILLIZ_CLOUD_PUBLIC_ENDPOINT"] if using Zilliz Cloud
    "api_key": "",  # os.environ["ZILLIZ_CLOUD_TOKEN"] if using Zilliz Cloud
    "collection_name": "my_collection",
    "vector_dim": 1536,  # 1536 for text-embedding-ada-002
}

hostapi_key:

  • host 을 로컬 파일(예:./milvus.db)로 설정하고 api_key 을 비워두는 것이 가장 편리한 방법이며, 이 파일에 모든 데이터를 저장하기 위해 Milvus Lite를 자동으로 활용하기 때문입니다.

  • 데이터 규모가 큰 경우, 도커나 쿠버네티스에 더 성능이 좋은 Milvus 서버를 설정할 수 있습니다. 이 설정에서는 서버 URL(예:http://localhost:19530)을 host 으로 사용하고 api_key 은 비워두세요.

  • 밀버스의 완전 관리형 클라우드 서비스인 질리즈 클라우드를 사용하려면, 질리즈 클라우드의 퍼블릭 엔드포인트와 API 키에 해당하는 hostapi_key 을 조정하세요.

임베딩할 컬럼 지정하기

이제 CSV 파일에서 임베딩으로 변환할 컬럼을 지정해야 합니다. 이렇게 하면 관련 텍스트 필드만 처리되어 효율성과 저장 공간을 모두 최적화할 수 있습니다.

embed_columns = ["col_1", "col_2", "col_3"]

VectorETL 파이프라인 생성 및 실행

모든 구성이 완료되었으므로 이제 ETL 파이프라인을 초기화하고 데이터 흐름을 설정한 후 실행합니다.

from vector_etl import create_flow

flow = create_flow()
flow.set_source(source)
flow.set_embedding(embedding)
flow.set_target(target)
flow.set_embed_columns(embed_columns)

# Execute the flow
flow.execute()

이 튜토리얼을 따라 VectorETL을 사용하여 Amazon S3에서 Milvus로 문서를 이동하는 엔드투엔드 ETL 파이프라인을 성공적으로 구축했습니다. VectorETL은 데이터 소스에서 유연하기 때문에 특정 애플리케이션의 필요에 따라 원하는 데이터 소스를 선택할 수 있습니다. VectorETL의 모듈식 설계로 이 파이프라인을 쉽게 확장하여 다른 데이터 소스를 지원하고 모델을 임베딩할 수 있어 AI 및 데이터 엔지니어링 워크플로우를 위한 강력한 도구가 될 수 있습니다!

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
피드백

이 페이지가 도움이 되었나요?