🚀 완전 관리형 Milvus인 Zilliz Cloud를 무료로 체험해보세요—10배 더 빠른 성능을 경험하세요! 지금 체험하기>>

milvus-logo
LFAI
  • Home
  • Blog
  • Milvus로 데이터를 원활하게 마이그레이션하는 방법: 종합 가이드

Milvus로 데이터를 원활하게 마이그레이션하는 방법: 종합 가이드

  • Engineering
December 01, 2023
Wenhui Zhang

Milvus는 유사도 검색을 위한 강력한 오픈 소스 벡터 데이터베이스로, 최소한의 지연 시간으로 수십억, 수조 개의 벡터 데이터를 저장, 처리 및 검색할 수 있습니다. 또한 확장성과 안정성이 뛰어나고 클라우드 네이티브이며 기능이 풍부합니다. Milvus의 최신 버전은 10배 이상 빠른 성능을 위한 GPU 지원과 단일 머신에서 더 큰 저장 용량을 위한 MMap 등 훨씬 더 흥미로운 기능과 개선 사항을 도입했습니다.

2023년 9월 현재 Milvus는 GitHub에서 약 23,000개의 별을 획득했으며, 다양한 요구사항을 가진 다양한 산업 분야의 수만 명의 사용자를 보유하고 있습니다. ChatGPT와 같은 생성형 AI 기술이 널리 보급됨에 따라 더욱 인기를 얻고 있습니다. 특히 검색 증강 생성 프레임워크는 대규모 언어 모델의 환각 문제를 해결하는 다양한 AI 스택의 필수 구성 요소입니다.

Milvus로 마이그레이션하려는 신규 사용자와 최신 Milvus 버전으로 업그레이드하려는 기존 사용자의 증가하는 수요를 충족하기 위해 Milvus 마이그레이션을 개발했습니다. 이 블로그에서는 Milvus 마이그레이션의 기능을 살펴보고 Milvus 1.x, FAISS, Elasticsearch 7.0 이상 버전에서 Milvus로 데이터를 신속하게 전환하는 방법을 안내해 드립니다.

강력한 데이터 마이그레이션 도구, Milvus Migration

Milvus Migration은 Go로 작성된 데이터 마이그레이션 도구입니다. 이를 통해 사용자는 이전 버전의 Milvus(1.x), FAISS, Elasticsearch 7.0 이상 버전에서 Milvus 2.x 버전으로 데이터를 원활하게 이동할 수 있습니다.

아래 다이어그램은 Milvus 마이그레이션을 구축한 방법과 작동 방식을 보여줍니다.

Milvus 마이그레이션이 데이터를 마이그레이션하는 방법

Milvus 1.x 및 FAISS에서 Milvus 2.x로 마이그레이션하기

Milvus 1.x 및 FAISS에서 데이터 마이그레이션은 원본 데이터 파일의 내용을 파싱하고, 이를 Milvus 2.x의 데이터 저장 형식으로 변환한 다음, Milvus SDK의 bulkInsert 를 사용하여 데이터를 작성하는 과정을 포함합니다. 이 전체 프로세스는 스트림 기반이며 이론적으로 디스크 공간에 의해서만 제한되며 데이터 파일은 로컬 디스크, S3, OSS, GCP 또는 Minio에 저장됩니다.

Elasticsearch에서 Milvus 2.x로 전환하기

Elasticsearch 데이터 마이그레이션에서는 데이터 검색이 달라집니다. 파일에서 데이터를 가져오는 것이 아니라 Elasticsearch의 스크롤 API를 사용해 데이터를 순차적으로 가져옵니다. 그런 다음 데이터를 구문 분석하여 Milvus 2.x 스토리지 형식으로 변환한 다음 bulkInsert 을 사용하여 씁니다. Elasticsearch에 저장된 dense_vector 유형 벡터를 마이그레이션하는 것 외에도, Milvus 마이그레이션은 긴, 정수, 짧은, 부울, 키워드, 텍스트, 이중 등 다른 필드 유형도 마이그레이션할 수 있도록 지원합니다.

Milvus 마이그레이션 기능 세트

Milvus 마이그레이션은 강력한 기능 세트를 통해 마이그레이션 프로세스를 간소화합니다:

  • 지원되는 데이터 소스:

    • Milvus 1.x에서 Milvus 2.x로

    • Elasticsearch 7.0 이상에서 Milvus 2.x로의 마이그레이션

    • FAISS에서 Milvus 2.x로

  • 다양한 상호 작용 모드:

    • Cobra 프레임워크를 사용하는 명령줄 인터페이스(CLI)

    • Swagger UI가 내장된 Restful API

    • 다른 도구에서 Go 모듈로 통합

  • 다양한 파일 형식 지원:

    • 로컬 파일

    • Amazon S3

    • 오브젝트 스토리지 서비스(OSS)

    • 구글 클라우드 플랫폼(GCP)

  • 유연한 Elasticsearch 통합:

    • Elasticsearch에서 dense_vector 유형 벡터 마이그레이션

    • 긴, 정수, 짧은, 부울, 키워드, 텍스트, 이중과 같은 다른 필드 유형 마이그레이션 지원

인터페이스 정의

Milvus 마이그레이션은 다음과 같은 주요 인터페이스를 제공합니다:

  • /start: 마이그레이션 작업을 시작합니다(덤프와 로드의 조합에 해당, 현재 ES 마이그레이션만 지원).

  • /dump: 덤프 작업을 시작합니다(소스 데이터를 대상 저장 매체에 씁니다).

  • /load: 로드 작업을 시작합니다(대상 저장 매체의 데이터를 Milvus 2.x에 씁니다).

  • /get_job: 사용자가 작업 실행 결과를 볼 수 있습니다. (자세한 내용은 프로젝트의 server.go를 참조하세요).

다음으로, 몇 가지 예제 데이터를 사용하여 이 섹션에서 Milvus 마이그레이션을 사용하는 방법을 살펴보겠습니다. 예제는 GitHub에서 찾을 수 있습니다.

Elasticsearch에서 Milvus 2.x로의 마이그레이션

  1. Elasticsearch 데이터 준비

Elasticsearch 데이터를 마이그레이션하려면 이미 자체 Elasticsearch 서버를 설정해야 합니다. dense_vector 필드에 벡터 데이터를 저장하고 다른 필드와 함께 색인을 생성해야 합니다. 인덱스 매핑은 아래와 같습니다.

  1. 컴파일 및 빌드

먼저, GitHub에서 Milvus Migration의 소스 코드를 다운로드합니다. 그런 다음 다음 명령을 실행하여 컴파일합니다.

go get
go build

이 단계는 milvus-migration 이라는 실행 파일을 생성합니다.

  1. 구성 migration.yaml

마이그레이션을 시작하기 전에 데이터 소스, 대상 및 기타 관련 설정에 대한 정보가 포함된 migration.yaml 이라는 이름의 구성 파일을 준비해야 합니다. 다음은 구성 예시입니다:

# Configuration for Elasticsearch to Milvus 2.x migration


dumper:
  worker:
    workMode: Elasticsearch
    reader:
      bufferSize: 2500
meta:
  mode: config
  index: test_index
  fields:
    - name: id
      pk: true
      type: long
    - name: other_field
      maxLen: 60
      type: keyword
    - name: data
      type: dense_vector
      dims: 512
  milvus:
      collection: "rename_index_test"
      closeDynamicField: false
      consistencyLevel: Eventually
      shardNum: 1


source:
  es:
    urls:
      - http://localhost:9200
    username: xxx
    password: xxx


target:
  mode: remote
  remote:
    outputDir: outputPath/migration/test1
    cloud: aws
    region: us-west-2
    bucket: xxx
    useIAM: true
    checkBucket: false
  milvus2x:
    endpoint: {yourMilvusAddress}:{port}
    username: ******
    password: ******

구성 파일에 대한 자세한 설명은 GitHub의 이 페이지를 참조하세요.

  1. 마이그레이션 작업 실행

이제 migration.yaml 파일을 구성했으므로 다음 명령을 실행하여 마이그레이션 작업을 시작할 수 있습니다:

./milvus-migration start --config=/{YourConfigFilePath}/migration.yaml

로그 출력을 관찰합니다. 다음과 유사한 로그가 표시되면 마이그레이션이 성공했다는 뜻입니다.

[task/load_base_task.go:94] ["[LoadTasker] Dec Task Processing-------------->"] [Count=0] [fileName=testfiles/output/zwh/migration/test_mul_field4/data_1_1.json] [taskId=442665677354739304][task/load_base_task.go:76] ["[LoadTasker] Progress Task --------------->"] [fileName=testfiles/output/zwh/migration/test_mul_field4/data_1_1.json] [taskId=442665677354739304][dbclient/cus_field_milvus2x.go:86] ["[Milvus2x] begin to ShowCollectionRows"][loader/cus_milvus2x_loader.go:66] ["[Loader] Static: "] [collection=test_mul_field4_rename1] [beforeCount=50000] [afterCount=100000] [increase=50000][loader/cus_milvus2x_loader.go:66] ["[Loader] Static Total"] ["Total Collections"=1] [beforeTotalCount=50000] [afterTotalCount=100000] [totalIncrease=50000][migration/es_starter.go:25] ["[Starter] migration ES to Milvus finish!!!"] [Cost=80.009174459][starter/starter.go:106] ["[Starter] Migration Success!"] [Cost=80.00928425][cleaner/remote_cleaner.go:27] ["[Remote Cleaner] Begin to clean files"] [bucket=a-bucket] [rootPath=testfiles/output/zwh/migration][cmd/start.go:32] ["[Cleaner] clean file success!"]

명령줄 접근 방식 외에도 Milvus 마이그레이션은 Restful API를 사용한 마이그레이션도 지원합니다.

Restful API를 사용하려면 다음 명령을 사용하여 API 서버를 시작합니다:

./milvus-migration server run -p 8080

서비스가 실행되면 API를 호출하여 마이그레이션을 시작할 수 있습니다.

curl -XPOST http://localhost:8080/api/v1/start

마이그레이션이 완료되면 올인원 벡터 데이터베이스 관리 도구인 Attu를 사용하여 마이그레이션된 총 성공 행 수를 확인하고 기타 수집 관련 작업을 수행할 수 있습니다.

The Attu interface Attu 인터페이스

Milvus 1.x에서 Milvus 2.x로 마이그레이션하기

  1. Milvus 1.x 데이터 준비

마이그레이션 프로세스를 빠르게 경험할 수 있도록 Milvus 마이그레이션의 소스 코드에 10,000개의 Milvus 1.x 테스트 데이터 레코드를 넣었습니다. 그러나 실제 사례에서는 마이그레이션 프로세스를 시작하기 전에 Milvus 1.x 인스턴스에서 meta.json 파일을 직접 내보내야 합니다.

  • 다음 명령을 사용하여 데이터를 내보낼 수 있습니다.
./milvus-migration export -m "user:password@tcp(adderss)/milvus?charset=utf8mb4&parseTime=True&loc=Local" -o outputDir

다음 사항을 확인하세요:

  • 플레이스홀더를 실제 MySQL 자격 증명으로 바꿉니다.

  • 이 내보내기를 수행하기 전에 Milvus 1.x 서버를 중지하거나 데이터 쓰기를 중지합니다.

  • Milvus tables 폴더와 meta.json 파일을 같은 디렉터리에 복사합니다.

참고: 밀버스의 완전 관리형 서비스인 질리즈 클라우드에서 밀버스 2.x를 사용하는 경우, 클라우드 콘솔을 사용하여 마이그레이션을 시작할 수 있습니다.

  1. 컴파일 및 빌드

먼저 GitHub에서 Milvus 마이그레이션의 소스 코드를 다운로드합니다. 그런 다음 다음 명령을 실행하여 컴파일합니다.

go get
go build

이 단계는 milvus-migration 이라는 실행 파일을 생성합니다.

  1. 구성 migration.yaml

migration.yaml 구성 파일을 준비하여 소스, 대상 및 기타 관련 설정에 대한 세부 정보를 지정합니다. 다음은 구성 예시입니다:

# Configuration for Milvus 1.x to Milvus 2.x migration


dumper:
  worker:
    limit: 2
    workMode: milvus1x
    reader:
      bufferSize: 1024
    writer:
      bufferSize: 1024
loader:
  worker:
    limit: 16
meta:
  mode: local
  localFile: /outputDir/test/meta.json


source:
  mode: local
  local:
    tablesDir: /db/tables/


target:
  mode: remote
  remote:
    outputDir: "migration/test/xx"
    ak: xxxx
    sk: xxxx
    cloud: aws
    endpoint: 0.0.0.0:9000
    region: ap-southeast-1
    bucket: a-bucket
    useIAM: false
    useSSL: false
    checkBucket: true
  milvus2x:
    endpoint: localhost:19530
    username: xxxxx
    password: xxxxx

구성 파일에 대한 자세한 설명은 GitHub의 이 페이지를 참조하세요.

  1. 마이그레이션 작업 실행

마이그레이션을 완료하려면 dumpload 명령을 별도로 실행해야 합니다. 이 명령은 데이터를 변환하여 Milvus 2.x로 가져옵니다.

참고: 조만간 이 단계를 간소화하여 사용자가 하나의 명령으로 마이그레이션을 완료할 수 있도록 할 예정입니다. 계속 지켜봐 주세요.

덤프 명령:

./milvus-migration dump --config=/{YourConfigFilePath}/migration.yaml

로드 명령:

./milvus-migration load --config=/{YourConfigFilePath}/migration.yaml

마이그레이션이 완료되면 Milvus 2.x에서 생성된 컬렉션에는 iddata 두 개의 필드가 포함됩니다. 올인원 벡터 데이터베이스 관리 도구인 Attu를 사용하여 자세한 내용을 확인할 수 있습니다.

FAISS에서 Milvus 2.x로 마이그레이션하기

  1. FAISS 데이터 준비

Elasticsearch 데이터를 마이그레이션하려면 자체 FAISS 데이터가 준비되어 있어야 합니다. 마이그레이션 프로세스를 빠르게 경험할 수 있도록 Milvus 마이그레이션의 소스 코드에 몇 가지 FAISS 테스트 데이터를 넣었습니다.

  1. 컴파일 및 빌드

먼저 GitHub에서 Milvus 마이그레이션의 소스 코드를 다운로드합니다. 그런 다음 다음 명령을 실행하여 컴파일합니다.

go get
go build

이 단계는 milvus-migration 이라는 실행 파일을 생성합니다.

  1. 구성 migration.yaml

소스, 대상 및 기타 관련 설정에 대한 세부 정보를 지정하여 FAISS 마이그레이션을 위한 migration.yaml 구성 파일을 준비합니다. 다음은 구성 예시입니다:

# Configuration for FAISS to Milvus 2.x migration


dumper:
  worker:
    limit: 2
    workMode: FAISS
    reader:
      bufferSize: 1024
    writer:
      bufferSize: 1024
loader:
  worker:
    limit: 2
source:
  mode: local
  local:
    FAISSFile: ./testfiles/FAISS/FAISS_ivf_flat.index


target:
  create:
    collection:
      name: test1w
      shardsNums: 2
      dim: 256
      metricType: L2
  mode: remote
  remote:
    outputDir: testfiles/output/
    cloud: aws
    endpoint: 0.0.0.0:9000
    region: ap-southeast-1
    bucket: a-bucket
    ak: minioadmin
    sk: minioadmin
    useIAM: false
    useSSL: false
    checkBucket: true
  milvus2x:
    endpoint: localhost:19530
    username: xxxxx
    password: xxxxx

구성 파일에 대한 자세한 설명은 GitHub의 이 페이지를 참조하세요.

  1. 마이그레이션 작업 실행

Milvus 1.x에서 Milvus 2.x로의 마이그레이션과 마찬가지로 FAISS 마이그레이션도 dumpload 명령을 모두 실행해야 합니다. 이 명령은 데이터를 변환하여 Milvus 2.x로 가져옵니다.

참고: 조만간 이 단계를 간소화하여 사용자가 단 하나의 명령으로 마이그레이션을 완료할 수 있도록 할 예정입니다. 계속 지켜봐 주세요.

덤프 명령:

./milvus-migration dump --config=/{YourConfigFilePath}/migration.yaml

로드 명령:

./milvus-migration load --config=/{YourConfigFilePath}/migration.yaml

올인원 벡터 데이터베이스 관리 도구인 Attu를 사용하여 자세한 내용을 확인할 수 있습니다.

향후 마이그레이션 계획에 대해 계속 지켜봐 주세요.

향후에는 더 많은 데이터 소스에서 마이그레이션을 지원하고 다음과 같은 마이그레이션 기능을 추가할 예정입니다:

  • Redis에서 Milvus로의 마이그레이션 지원.

  • MongoDB에서 Milvus로의 마이그레이션 지원.

  • 재개 가능한 마이그레이션 지원.

  • 덤프와 로드 프로세스를 하나로 병합하여 마이그레이션 명령을 간소화하세요.

  • 다른 주류 데이터 소스에서 Milvus로의 마이그레이션을 지원합니다.

결론

Milvus의 최신 릴리스인 Milvus 2.3은 데이터 관리의 증가하는 요구 사항을 충족하는 흥미로운 새 기능과 성능 개선을 제공합니다. Milvus 2.x로 데이터를 마이그레이션하면 이러한 이점을 누릴 수 있으며, Milvus 마이그레이션 프로젝트를 통해 마이그레이션 프로세스가 간소화되고 쉬워집니다. 한 번 사용해 보시면 실망하지 않으실 겁니다.

참고: 이 블로그의 정보는 2023년 9월 현재 Milvus 및 Milvus 마이그레이션 프로젝트의 상태를 기반으로 합니다. 최신 정보 및 지침은 Milvus 공식 문서를 참조하세요.

Like the article? Spread the word

계속 읽기