제품 FAQ
Milvus의 가격은 얼마인가요?
Milvus는 100% 무료 오픈소스 프로젝트입니다.
제작 또는 배포 목적으로 Milvus를 사용할 때는 Apache 라이선스 2.0을 준수하시기 바랍니다.
Milvus의 개발사인 Zilliz는 자체 분산 인스턴스를 구축 및 유지 관리하고 싶지 않은 사용자를 위해 완전 관리형 클라우드 버전의 플랫폼도 제공합니다. Zilliz Cloud는 자동으로 데이터 안정성을 유지하며 사용자가 사용한 만큼만 비용을 지불할 수 있습니다.
Milvus는 비 x86 아키텍처를 지원하나요?
Milvus는 x86이 아닌 플랫폼에서는 설치하거나 실행할 수 없습니다.
Milvus를 실행하려면 CPU가 다음 명령어 세트 중 하나를 지원해야 합니다: SSE4.2, AVX, AVX2, AVX512. 이들은 모두 x86 전용 SIMD 명령어 세트입니다.
Milvus가 처리할 수 있는 최대 데이터 세트 크기는 얼마인가요?
이론적으로 Milvus가 처리할 수 있는 최대 데이터 세트 크기는 실행되는 하드웨어, 특히 시스템 메모리와 스토리지에 따라 결정됩니다:
- Milvus는 쿼리를 실행하기 전에 지정된 모든 컬렉션과 파티션을 메모리에 로드합니다. 따라서 메모리 크기에 따라 Milvus가 쿼리할 수 있는 최대 데이터 양이 결정됩니다.
- 새로운 엔티티와 컬렉션 관련 스키마(현재는 데이터 지속성을 위해 MinIO만 지원됨)가 Milvus에 추가되면 시스템 스토리지가 삽입된 데이터의 최대 허용 크기를 결정합니다.
Milvus는 데이터를 어디에 저장하나요?
Milvus는 삽입된 데이터와 메타데이터라는 두 가지 유형의 데이터를 처리합니다.
벡터 데이터, 스칼라 데이터, 컬렉션별 스키마 등 삽입된 데이터는 증분 로그 형태로 영구 스토리지에 저장됩니다. Milvus는 MinIO, AWS S3, 구글 클라우드 스토리지 (GCS), 애저 블롭 스토리지, 알리바바 클라우드 OSS, 텐센트 클라우드 오브젝트 스토리지 (COS) 등 여러 오브젝트 스토리지 백엔드를 지원합니다.
메타데이터는 Milvus 내에서 생성됩니다. 각 Milvus 모듈에는 etcd에 저장되는 자체 메타데이터가 있습니다.
etcd에 벡터 데이터가 없는 이유는 무엇인가요?
etcd는 Milvus 모듈 메타데이터를 저장하고, MinIO는 엔티티를 저장합니다.
Milvus는 데이터 삽입과 검색을 동시에 지원하나요?
예. 삽입 작업과 쿼리 작업은 상호 독립적인 두 개의 개별 모듈에서 처리됩니다. 클라이언트 관점에서 삽입 작업은 삽입된 데이터가 메시지 큐에 들어가면 완료됩니다. 그러나 삽입된 데이터는 쿼리 노드에 로드될 때까지 검색할 수 없습니다. 세그먼트 크기가 인덱스 구축 임계값(기본값 512MB)에 도달하지 않으면 Milvus는 무차별 대입 검색을 사용하며 쿼리 성능이 저하될 수 있습니다.
기본 키가 중복된 벡터를 Milvus에 삽입할 수 있나요?
예. Milvus는 벡터 기본 키가 중복되는지 확인하지 않습니다.
기본 키가 중복된 벡터가 삽입되면 Milvus는 이를 업데이트 작업으로 처리하나요?
아니요. Milvus는 현재 업데이트 작업을 지원하지 않으며 엔티티 기본 키가 중복되는지 여부를 확인하지 않습니다. 엔티티 기본 키가 고유한지 확인할 책임은 사용자에게 있으며, 그렇지 않은 경우 Milvus에 기본 키가 중복된 엔티티가 여러 개 포함될 수 있습니다.
이 경우 쿼리 시 어떤 데이터 사본이 반환될지는 알 수 없습니다. 이 제한은 향후 릴리스에서 수정될 예정입니다.
자체 정의된 엔티티 기본 키의 최대 길이는 어떻게 되나요?
엔티티 기본 키는 음수가 아닌 64비트 정수여야 합니다.
삽입 작업당 추가할 수 있는 최대 데이터 양은 얼마입니까?
삽입 작업의 크기는 1,024MB를 초과하지 않아야 합니다. 이것은 gRPC에 의해 부과된 제한입니다.
특정 파티션에서 검색할 때 수집 크기가 쿼리 성능에 영향을 주나요?
아니요. 검색할 파티션을 지정하면 Milvus는 지정된 파티션만 검색합니다.
검색을 위해 파티션을 지정하면 Milvus가 전체 컬렉션을 로드하나요?
아니요. Milvus의 동작은 다양합니다. 검색하기 전에 데이터를 메모리에 로드해야 합니다.
- 데이터가 어느 파티션에 있는지 알고 있는 경우
load_partition()
을 호출하여 원하는 파티션을 로드한 다음search()
메서드 호출에서 파티션을 지정하세요. - 정확한 파티션을 모르는 경우
search()
을 호출하기 전에load_collection()
을 호출하세요. - 검색 전에 컬렉션이나 파티션을 로드하지 못하면 Milvus는 오류를 반환합니다.
벡터를 삽입한 후 인덱스를 생성할 수 있나요?
예. 이전에 create_index()
에 의해 컬렉션에 대한 인덱스가 생성된 경우, Milvus는 이후에 삽입된 벡터에 대한 인덱스를 자동으로 생성합니다. 그러나 새로 삽입된 벡터가 전체 세그먼트를 채우고 새로 생성된 인덱스 파일이 이전 인덱스 파일과 분리될 때까지 Milvus는 인덱스를 생성하지 않습니다.
FLAT 인덱스와 IVF_FLAT 인덱스는 어떻게 다른가요?
IVF_FLAT 인덱스는 벡터 공간을 목록 클러스터로 나눕니다. 기본 목록 값인 16,384에서 Milvus는 대상 벡터와 모든 16,384개 클러스터의 중심점 사이의 거리를 비교하여 가장 가까운 프로브 클러스터를 반환합니다. 그런 다음 Milvus는 대상 벡터와 선택한 클러스터의 벡터 사이의 거리를 비교하여 가장 가까운 벡터를 얻습니다. IVF_FLAT과 달리 FLAT은 대상 벡터와 다른 모든 벡터 사이의 거리를 직접 비교합니다.
벡터의 총 수가 대략 nlist와 같을 때 계산 요구 사항과 검색 성능 측면에서 IVF_FLAT과 FLAT 사이에는 거의 차이가 없습니다. 그러나 벡터의 수가 nlist를 두 배 이상 초과하면 IVF_FLAT이 성능 우위를 보이기 시작합니다.
자세한 내용은 벡터 인덱스를 참조하세요.
Milvus는 데이터를 어떻게 플러시하나요?
Milvus는 삽입된 데이터가 메시지 큐에 로드되면 성공을 반환합니다. 그러나 데이터는 아직 디스크에 플러시되지 않습니다. 그러면 Milvus의 데이터 노드는 메시지 큐에 있는 데이터를 증분 로그로 영구 저장소에 씁니다. flush()
이 호출되면 데이터 노드는 메시지 큐의 모든 데이터를 즉시 영구 저장소에 강제로 씁니다.
정규화란 무엇인가요? 정규화가 필요한 이유는 무엇인가요?
정규화는 벡터의 규범이 1이 되도록 벡터를 변환하는 과정을 말합니다. 벡터 유사성을 계산하기 위해 내적 곱을 사용하는 경우 벡터를 정규화해야 합니다. 정규화 후 내적 곱은 코사인 유사도와 같습니다.
자세한 내용은 위키백과를 참조하세요.
유클리드 거리(L2)와 내적 곱(IP)이 서로 다른 결과를 반환하는 이유는 무엇인가요?
정규화된 벡터의 경우, 유클리드 거리(L2)는 수학적으로 내적 곱(IP)과 동일합니다. 이러한 유사성 메트릭이 서로 다른 결과를 반환하는 경우 벡터가 정규화되었는지 확인하세요.
Milvus에서 컬렉션과 파티션의 총 개수에 제한이 있나요?
예. Milvus 인스턴스에서 최대 65,535개의 컬렉션을 생성할 수 있습니다. 기존 컬렉션의 수를 계산할 때 Milvus는 샤드 및 파티션이 포함된 모든 컬렉션을 계산합니다.
예를 들어, 이미 100개의 컬렉션을 만들었고 그 중 60개 컬렉션에 2개의 샤드와 4개의 파티션이 있고 나머지 40개 컬렉션에 1개의 샤드와 12개의 파티션이 있다고 가정해 보겠습니다. 현재 컬렉션 수는 다음과 같이 계산할 수 있습니다:
60 * 2 * 4 + 40 * 1 * 12 = 960
topk
벡터를 검색할 때 왜 k보다 적은 수의 벡터가 표시되나요?
Milvus가 지원하는 인덱스 중 IVF_FLAT과 IVF_SQ8은 k-평균 클러스터링 방식을 구현합니다. 데이터 공간을 nlist
클러스터로 나누고 삽입된 벡터를 이 클러스터에 분산시킵니다. 그런 다음 Milvus는 nprobe
가장 가까운 클러스터를 선택하고 대상 벡터와 선택한 클러스터의 모든 벡터 사이의 거리를 비교하여 최종 결과를 반환합니다.
nlist
과 topk
이 크고 nprobe 가 작은 경우 nprobe 클러스터의 벡터 수가 k
보다 적을 수 있습니다. 따라서 topk
가장 가까운 벡터를 검색하면 반환되는 벡터 수가 k
보다 적을 수 있습니다.
이를 방지하려면 nprobe
을 더 크게, nlist
과 k
을 더 작게 설정해 보세요.
자세한 내용은 벡터 색인을 참조하세요.
Milvus에서 지원되는 최대 벡터 크기는 얼마인가요?
Milvus는 기본적으로 최대 32,768개의 차원으로 벡터를 관리할 수 있습니다. Proxy.maxDimension
값을 늘려 더 큰 차원의 벡터를 허용할 수 있습니다.
Milvus는 Apple M1 CPU를 지원하나요?
현재 Milvus 릴리스는 Apple M1 CPU를 지원하지 않습니다.
Milvus는 기본 키 필드에서 어떤 데이터 유형을 지원하나요?
현재 릴리스에서 Milvus는 INT64와 문자열을 모두 지원합니다.
Milvus는 확장 가능한가요?
예. 쿠버네티스의 헬름 차트를 통해 여러 노드가 있는 Milvus 클러스터를 배포할 수 있습니다. 자세한 지침은 확장 가이드를 참조하세요.
쿼리가 메모리에서 수행되나요? 증분 데이터와 기록 데이터란 무엇인가요?
예. 쿼리 요청이 들어오면 Milvus는 증분 데이터와 기록 데이터를 모두 메모리에 로드하여 검색합니다. 증분 데이터는 증가하는 세그먼트에 있으며, 스토리지 엔진에서 지속될 임계값에 도달하기 전에 메모리에 버퍼링되며, 히스토리 데이터는 오브젝트 스토리지에 저장되는 봉인된 세그먼트의 데이터입니다. 증분 데이터와 기록 데이터가 함께 검색할 전체 데이터 세트를 구성합니다.
Milvus를 동시 검색에 사용할 수 있나요?
네. 동일한 컬렉션에 대한 쿼리의 경우, Milvus는 증분 데이터와 기록 데이터를 동시에 검색합니다. 그러나 서로 다른 컬렉션에 대한 쿼리는 순차적으로 수행됩니다. 기록 데이터는 매우 방대한 데이터 세트가 될 수 있지만, 기록 데이터에 대한 검색은 상대적으로 더 많은 시간이 소요되며 기본적으로 연속적으로 수행됩니다.
해당 컬렉션이 삭제된 후에도 MinIO의 데이터가 남아있는 이유는 무엇인가요?
MinIO의 데이터는 데이터 롤백의 편의를 위해 일정 기간 동안 유지되도록 설계되었습니다.
Milvus는 Pulsar 이외의 메시지 엔진을 지원하나요?
네. Milvus 2.1.0에서는 Kafka가 지원됩니다.
검색과 쿼리의 차이점은 무엇인가요?
Milvus에서 벡터 유사도 검색은 유사도 계산과 벡터 인덱스 가속을 기반으로 벡터를 검색합니다. 벡터 유사도 검색과 달리, 벡터 쿼리는 부울 표현식을 기반으로 스칼라 필터링을 통해 벡터를 검색합니다. 부울 표현식은 스칼라 필드 또는 기본 키 필드를 필터링하고 필터와 일치하는 모든 결과를 검색합니다. 쿼리에는 유사성 메트릭이나 벡터 인덱스가 포함되지 않습니다.
Milvus에서 실수 벡터 값의 정밀도가 소수점 이하 7자리인 이유는 무엇인가요?
Milvus는 벡터를 Float32 배열로 저장하는 것을 지원합니다. Float32 값의 정밀도는 소수점 이하 7자리입니다. 1.3476964684980388 같은 Float64 값의 경우에도 Milvus는 1.347696으로 저장합니다. 따라서 Milvus에서 이러한 벡터를 검색하면 Float64 값의 정밀도가 손실됩니다.
Milvus는 벡터 데이터 유형과 정밀도를 어떻게 처리하나요?
Milvus는 Binary, Float32, Float16 및 BFloat16 벡터 유형을 지원합니다.
- 바이너리 벡터: 이진 데이터는 이미지 처리와 정보 검색에 사용되는 0과 1의 시퀀스로 저장합니다.
- Float32 벡터: 소수점 이하 7자리 정도의 정밀도를 가진 기본 저장소입니다. Float64 값도 Float32 정밀도로 저장되므로 검색 시 정밀도 손실이 발생할 수 있습니다.
- Float16 및 BFloat16 벡터: 정밀도와 메모리 사용량이 감소합니다. Float16은 대역폭과 스토리지가 제한된 애플리케이션에 적합하며, BFloat16은 정확도에 큰 영향을 주지 않으면서 계산 요구 사항을 줄이기 위해 딥 러닝에서 일반적으로 사용되는 범위와 효율성의 균형을 맞추는 데 적합합니다.
Milvus는 스칼라 또는 벡터 필드에 대한 기본값 지정을 지원하나요?
현재 Milvus 2.4.x는 스칼라 또는 벡터 필드에 대한 기본값 지정을 지원하지 않습니다. 이 기능은 향후 릴리스에 추가될 예정입니다.
아직 질문이 있으신가요?
언제든지 문의하세요:
- GitHub에서 Milvus를 확인하세요. 질문을 제기하고 아이디어를 공유하며 다른 사람들을 도울 수 있습니다.
- Slack 커뮤니티에 가입하여 지원을 찾고 오픈 소스 커뮤니티에 참여하세요.