Milvus 지표 대시보드
Milvus는 런타임 중에 상세한 시계열 메트릭 목록을 출력합니다. Prometheus와 Grafana를 사용하여 메트릭을 시각화할 수 있습니다. 이 항목에서는 Grafana Milvus 대시보드에 표시되는 모니터링 메트릭을 소개합니다.
이 항목의 시간 단위는 밀리초입니다. 그리고 이 항목에서 "99번째 백분위수"는 시간 통계의 99%가 특정 값 내에서 제어된다는 사실을 의미합니다.
먼저 Milvus 모니터링 프레임워크 개요를 읽고 Prometheus 메트릭을 이해하는 것이 좋습니다.
프록시
패널 | 패널 설명 | PromQL(Prometheus 쿼리 언어) | 사용되는 Milvus 지표 | Milvus 지표 설명 |
---|---|---|---|---|
검색 벡터 개수 비율 | 지난 2분 동안 각 프록시가 초당 쿼리한 벡터의 평균 수입니다. | sum(increase(milvus_proxy_search_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_search_vectors_count | 쿼리된 벡터의 누적 수입니다. |
벡터 삽입 횟수 비율 | 지난 2분 동안 각 프록시가 초당 삽입한 평균 벡터 수입니다. | sum(increase(milvus_proxy_insert_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_insert_vectors_count | 삽입된 누적 벡터 수입니다. |
검색 지연 시간 | 지난 2분 동안 각 프록시가 검색 및 쿼리 요청을 수신한 평균 지연 시간 및 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_latency | 검색 및 쿼리 요청의 지연 시간입니다. |
컬렉션 검색 지연 시간 | 지난 2분 동안 각 프록시가 특정 컬렉션에 대한 검색 및 쿼리 요청을 수신한 평균 지연 시간과 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) 평균: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 특정 컬렉션에 대한 검색 및 쿼리 요청의 지연 시간 |
변이 지연 시간 | 지난 2분 동안 각 프록시에서 돌연변이 요청을 수신한 평균 지연 시간과 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_proxy_mutation_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_latency_sum | 변이 요청의 지연 시간입니다. |
수집 변이 지연 시간 | 지난 2분 동안 각 프록시가 특정 컬렉션에 대한 변이 요청을 수신한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) 평균: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 특정 컬렉션에 대한 변경 요청의 지연 시간 |
대기 검색 결과 지연 시간 | 지난 2분 동안 프록시를 통해 검색 및 쿼리 요청을 전송하고 결과를 받기까지의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_wait_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_proxy_sq_wait_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_wait_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_wait_result_latency | 검색 및 쿼리 요청을 전송하고 결과를 수신하는 데 걸리는 지연 시간입니다. |
검색 결과 지연 시간 단축 | 지난 2분 동안 프록시로 검색 및 쿼리 결과를 집계하는 데 걸린 평균 지연 시간과 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_reduce_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_proxy_sq_reduce_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_reduce_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_reduce_result_latency | 각 쿼리 노드에서 반환한 검색 및 쿼리 결과를 집계하는 지연 시간입니다. |
검색 결과 디코딩 지연 시간 | 지난 2분 동안 프록시를 통해 검색 및 쿼리 결과를 디코딩하는 데 걸린 평균 지연 시간과 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_decode_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_sq_decode_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_decode_resultlatency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_decode_result_latency | 각 검색 및 쿼리 결과를 디코딩하는 데 걸리는 지연 시간입니다. |
메시지 스트림 개체 수 | 지난 2분 동안 각 프록시가 해당 물리적 토픽에 대해 생성한 메시지 스트림 개체의 평균, 최대 및 최소 개수입니다. | avg(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_msgstream_obj_num | 각 실제 토픽에서 생성된 메시지 스트림 개체의 수입니다. |
변이 전송 지연 시간 | 지난 2분 동안 각 프록시가 삽입 또는 삭제 요청을 보낸 평균 지연 시간과 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_send_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_proxy_mutation_send_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_send_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_send_latency | 삽입 또는 삭제 요청을 전송하는 지연 시간입니다. |
캐시 적중률 | 지난 2분 동안 초당 GeCollectionID , GetCollectionInfo , GetCollectionSchema 를 포함한 작업의 평균 캐시 적중률입니다. | sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", cache_state="hit"}[2m])/120) by(cache_name, pod, node_id) / sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(cache_name, pod, node_id) | milvus_proxy_cache_hit_count | 각 캐시 읽기 작업의 히트 및 실패율 통계입니다. |
캐시 업데이트 지연 시간 | 지난 2분 동안 프록시별 캐시 업데이트 지연 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_cache_update_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_cache_update_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_cache_update_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_cache_update_latency | 매번 캐시를 업데이트하는 데 걸리는 지연 시간입니다. |
동기화 시간 | 각 프록시가 해당 물리적 채널에서 동기화한 에포크 시간의 평균, 최대 및 최소 횟수입니다. | avg(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_sync_epoch_time | 각 물리적 채널의 에포크 시간(유닉스 시간, 1970년 1월 1일 이후 경과된 밀리초)입니다. 물리적 채널과는 별도로 기본값 ChannelName 이 있습니다. |
PK 지연 시간 적용 | 지난 2분 동안 각 프록시별 기본 키 애플리케이션 지연 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_pk_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_apply_pk_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_pk_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_pk_latency | 기본 키 적용 지연 시간입니다. |
타임스탬프 적용 지연 시간 | 지난 2분 동안 각 프록시별 타임스탬프 적용 지연 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_timestamp_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_apply_timestamp_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_timestamp_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_timestamp_latency | 타임스탬프 적용 지연 시간입니다. |
요청 성공률 | 각 프록시가 초당 수신한 요청 성공 건수와 각 요청 유형에 대한 자세한 분석입니다. 가능한 요청 유형은 DescribeCollection, DescribeIndex, GetCollectionStatistics, HasCollection, Search, Query, ShowPartitions, Insert 등입니다. | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="success"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | 모든 유형의 수신 요청 수 | ||
요청 실패율 | 각 프록시가 초당 수신한 실패한 요청의 수와 각 요청 유형에 대한 자세한 분석입니다. 가능한 요청 유형은 DescribeCollection, DescribeIndex, GetCollectionStatistics, HasCollection, Search, Query, ShowPartitions, Insert 등입니다. | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="fail"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | 수신 요청의 모든 유형 수 | ||
요청 지연 시간 | 각 프록시의 모든 수신 요청 유형에 대한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id, function_name) (rate(milvus_proxy_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_proxy_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) / sum(increase(milvus_proxy_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) | milvus_proxy_req_latency | 모든 수신 요청 유형의 지연 시간 |
삽입/삭제 요청 바이트 비율 | 지난 2분 동안 프록시가 초당 수신한 삽입 및 삭제 요청의 바이트 수입니다. | sum(increase(milvus_proxy_receive_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_receive_bytes_count | 삽입 및 삭제 요청의 개수입니다. |
전송 바이트 속도 | 지난 2분 동안 각 프록시가 검색 및 쿼리 요청에 응답하는 동안 클라이언트로 다시 전송된 초당 바이트 수입니다. | sum(increase(milvus_proxy_send_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_send_bytes_count | 각 프록시가 검색 및 쿼리 요청에 응답하는 동안 클라이언트로 다시 전송된 바이트 수입니다. |
루트 코디네이터
패널 | 패널 설명 | PromQL(Prometheus 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
프록시 노드 수 | 생성된 프록시 수입니다. | sum(milvus_rootcoord_proxy_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_proxy_num | 생성된 프록시 수입니다. |
동기화 시간 | 각 물리적 채널(PC채널)에서 각 루트 좌표가 동기화한 에포크 시간의 평균, 최대 및 최소 수입니다. | avg(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_sync_epoch_time | 각 물리적 채널의 에포크 시간(유닉스 시간, 1970년 1월 1일 이후 경과한 밀리초)입니다. |
DDL 요청 비율 | 지난 2분 동안의 초당 DDL 요청 상태 및 수입니다. | sum(increase(milvus_rootcoord_ddl_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, function_name) | milvus_rootcoord_ddl_req_count | CreateCollection , DescribeCollection , DescribeSegments , HasCollection , ShowCollections , ShowPartitions , ShowSegments 을 포함한 총 DDL 요청 수입니다. |
DDL 요청 지연 시간 | 지난 2분 동안의 DDL 요청 지연 시간의 평균 지연 시간과 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, function_name) (rate(milvus_rootcoord_ddl_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_rootcoord_ddl_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) / sum(increase(milvus_rootcoord_ddl_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) | milvus_rootcoord_ddl_req_latency | 모든 유형의 DDL 요청 지연 시간입니다. |
동기화 시간 지연 시간 | 지난 2분 동안 루트 좌표가 모든 타임스탬프를 PC채널에 동기화하는 데 사용한 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le) (rate(milvus_rootcoord_sync_timetick_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_rootcoord_sync_timetick_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_rootcoord_sync_timetick_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_rootcoord_sync_timetick_latency | 루트 좌표가 모든 타임스탬프를 P채널에 동기화하는 데 사용한 시간입니다. |
ID 할당 비율 | 지난 2분 동안 루트 좌표에 의해 초당 할당된 ID의 수입니다. | sum(increase(milvus_rootcoord_id_alloc_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) | milvus_rootcoord_id_alloc_count | 루트 좌표에 의해 할당된 누적 ID 수입니다. |
타임스탬프 | 루트 좌표의 최신 타임스탬프입니다. | milvus_rootcoord_timestamp{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp | 루트 좌표의 최신 타임스탬프입니다. |
저장된 타임스탬프 | 루트 좌표가 메타 저장소에 저장하는 미리 할당된 타임스탬프입니다. | milvus_rootcoord_timestamp_saved{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp_saved | 루트 좌표가 메타 저장소에 저장하는 미리 할당된 타임스탬프입니다. 타임스탬프는 3초 전에 할당됩니다. 그리고 타임스탬프는 50밀리초마다 업데이트되어 메타 스토리지에 저장됩니다. |
컬렉션 수 | 총 컬렉션 수입니다. | sum(milvus_rootcoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_collection_num | 현재 Milvus에 존재하는 총 컬렉션 수입니다. |
파티션 개수 | 총 파티션 수입니다. | sum(milvus_rootcoord_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_partition_num | 현재 Milvus에 존재하는 총 파티션 수입니다. |
DML 채널 수 | DML 채널의 총 개수입니다. | sum(milvus_rootcoord_dml_channel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_dml_channel_num | 현재 Milvus에 존재하는 DML 채널의 총 개수입니다. |
메시지 스트림 수 | 총 메시지 스트림 수입니다. | sum(milvus_rootcoord_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_msgstream_obj_num | 현재 밀버스에 있는 총 메시지 스트림 수입니다. |
자격증명 개수 | 총 자격증명 수입니다. | sum(milvus_rootcoord_credential_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_credential_num | 현재 밀버스에 있는 총 자격 증명 수입니다. |
시간 틱 지연 | 모든 데이터 노드와 쿼리 노드에서 흐름 그래프의 최대 시간 틱 지연의 합계입니다. | sum(milvus_rootcoord_time_tick_delay{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_time_tick_delay | 각 데이터 노드와 쿼리 노드에서 흐름 그래프의 최대 시간 틱 지연입니다. |
쿼리 코디네이터
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
로드된 컬렉션 수 | 현재 메모리에 로드된 컬렉션의 수입니다. | sum(milvus_querycoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_collection_num | Milvus에서 현재 로드한 컬렉션의 수입니다. |
엔티티 로드된 개수 | 현재 메모리에 로드된 엔티티의 수입니다. | sum(milvus_querycoord_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_entitiy_num | 밀버스가 현재 로드한 엔티티의 수입니다. |
로드 요청 속도 | 지난 2분 동안의 초당 로드 요청 횟수입니다. | sum(increase(milvus_querycoord_load_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])120) by (status) | milvus_querycoord_load_req_count | 누적 로드 요청 횟수입니다. |
릴리스 요청 비율 | 지난 2분 동안의 초당 릴리스 요청 횟수입니다. | sum(increase(milvus_querycoord_release_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_querycoord_release_req_count | 누적 릴리스 요청 횟수입니다. |
로드 요청 지연 시간 | 지난 2분 동안의 평균 지연 시간 및 로드 요청 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_load_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querycoord_load_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_load_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_load_latency | 로드 요청을 완료하는 데 사용된 시간입니다. |
릴리스 요청 지연 시간 | 지난 2분 동안의 평균 지연 시간 및 릴리스 요청 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_release_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querycoord_release_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_release_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_release_latency | 릴리스 요청을 완료하는 데 사용된 시간입니다. |
하위 로드 작업 | 하위 로드 작업의 수입니다. | sum(milvus_querycoord_child_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_child_task_num | 하위 로드 작업의 수입니다. 쿼리 코드는 로드 요청을 여러 하위 로드 작업으로 분할합니다. |
상위 로드 작업 | 상위 로드 작업의 수입니다. | sum(milvus_querycoord_parent_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_parent_task_num | 하위 로드 작업의 수입니다. 각 로드 요청은 작업 대기열의 상위 작업에 해당합니다. |
하위 로드 작업 지연 시간 | 지난 2분 동안의 하위 로드 작업의 평균 지연 시간 및 지연 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_child_task_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querycoord_child_task_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_child_task_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) namespace"}[2m]))) | milvus_querycoord_child_task_latency | 하위 로드 작업을 완료하는 데 걸리는 지연 시간입니다. |
쿼리 노드 수 | 쿼리 코디가 관리하는 쿼리 노드 수입니다. | sum(milvus_querycoord_querynode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_querynode_num | 쿼리 코디가 관리하는 쿼리 노드 수입니다. |
쿼리 노드
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
로드된 컬렉션 수 | 각 쿼리 노드에서 메모리에 로드한 컬렉션의 수입니다. | sum(milvus_querynode_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_collection_num | 각 쿼리 노드에서 로드한 컬렉션의 수입니다. |
파티션 로드된 개수 | 각 쿼리 노드가 메모리에 로드한 파티션의 수입니다. | sum(milvus_querynode_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_partition_num | 각 쿼리 노드가 로드한 파티션의 수입니다. |
로드된 세그먼트 수 | 각 쿼리 노드가 메모리에 로드한 세그먼트의 수입니다. | sum(milvus_querynode_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_segment_num | 각 쿼리 노드가 로드한 세그먼트의 수입니다. |
쿼리 가능한 엔티티 수 | 각 쿼리 노드에서 쿼리 및 검색 가능한 엔티티의 수입니다. | sum(milvus_querynode_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_entity_num | 각 쿼리 노드에서 쿼리 및 검색 가능한 엔티티의 수입니다. |
DML 가상 채널 | 각 쿼리 노드에서 감시하는 DML 가상 채널의 수입니다. | sum(milvus_querynode_dml_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_dml_vchannel_num | 각 쿼리 노드에서 감시하는 DML 가상 채널의 수입니다. |
델타 가상 채널 | 각 쿼리 노드가 감시하는 델타 채널의 수입니다. | sum(milvus_querynode_delta_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_delta_vchannel_num | 각 쿼리 노드가 감시하는 델타 채널의 수입니다. |
소비자 수 | 각 쿼리 노드에 있는 소비자 수입니다. | sum(milvus_querynode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_consumer_num | 각 쿼리 노드에 있는 소비자 수입니다. |
검색 요청 비율 | 각 쿼리 노드에서 초당 수신한 총 검색 및 쿼리 요청 수와 지난 2분 동안 검색 및 쿼리 요청에 성공한 횟수입니다. | sum(increase(milvus_querynode_sq_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (query_type, status, pod, node_id) | milvus_querynode_sq_req_count | 누적 검색 및 쿼리 요청 횟수입니다. |
검색 요청 지연 시간 | 지난 2분 동안 각 쿼리 노드가 검색 및 쿼리 요청에 사용한 평균 지연 시간 및 99번째 백분위수입니다. 이 패널에는 상태가 "성공" 또는 "전체"인 검색 및 쿼리 요청의 지연 시간이 표시됩니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_sq_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querynode_sq_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_req_latency | 쿼리 노드의 검색 요청 대기 시간입니다. |
대기열 내 검색 대기 시간 | 지난 2분 동안 대기열에 있는 검색 및 쿼리 요청의 평균 대기 시간 및 대기 시간의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_queue_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querynode_sq_queue_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_queue_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_queue_latency | 쿼리 노드가 수신한 검색 및 쿼리 요청의 지연 시간입니다. |
검색 세그먼트 지연 시간 | 지난 2분 동안 각 쿼리 노드가 세그먼트를 검색하고 쿼리하는 데 걸린 평균 지연 시간 및 99번째 백분위수입니다. 세그먼트의 상태는 봉인되거나 증가 중일 수 있습니다. | P99: histogram_quantile(0.99, sum by (le, query_type, segment_state, pod, node_id) (rate(milvus_querynode_sq_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) / sum(increase(milvus_querynode_sq_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) | milvus_querynode_sq_segment_latency | 각 쿼리 노드가 각 세그먼트를 검색하고 쿼리하는 데 걸리는 시간입니다. |
세그코어 요청 지연 시간 | 지난 2분 동안 각 쿼리 노드가 세그스코어를 검색하고 쿼리하는 데 걸린 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_querynode_sq_core_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_core_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_core_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_core_latency | 각 쿼리 노드가 세그스코어에서 검색 및 쿼리하는 데 걸리는 시간입니다. |
검색 지연 시간 단축 | 지난 2분 동안 검색 또는 쿼리의 축소 단계에서 각 쿼리 노드가 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_reduce_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querynode_sq_reduce_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_reduce_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_reduce_latency | 각 쿼리가 축소 단계에서 소요되는 시간입니다. |
로드 세그먼트 지연 시간 | 지난 2분 동안 각 쿼리 노드가 세그먼트를 로드하는 데 걸린 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_load_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_load_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_load_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 각 쿼리 노드가 세그먼트를 로드하는 데 걸리는 시간입니다. |
플로우그래프 개수 | 각 쿼리 노드에 있는 플로우그래프 수입니다. | sum(milvus_querynode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_flowgraph_num | 각 쿼리 노드에 있는 플로우그래프 수입니다. |
해결되지 않은 읽기 작업 길이 | 각 쿼리 노드에서 해결되지 않은 읽기 요청의 대기열 길이입니다. | sum(milvus_querynode_read_task_unsolved_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_unsolved_len | 해결되지 않은 읽기 요청의 대기열 길이입니다. |
준비된 읽기 작업 길이 | 각 쿼리 노드에서 실행할 읽기 요청의 큐 길이입니다. | sum(milvus_querynode_read_task_ready_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_ready_len | 실행할 읽기 요청의 큐 길이입니다. |
병렬 읽기 작업 수 | 현재 각 쿼리 노드에서 실행 중인 동시 읽기 요청의 수입니다. | sum(milvus_querynode_read_task_concurrency{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_concurrency | 현재 실행 중인 동시 읽기 요청의 수입니다. |
CPU 사용량 예상 | 스케줄러가 예상한 각 쿼리 노드의 CPU 사용량입니다. | sum(milvus_querynode_estimate_cpu_usage{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_estimate_cpu_usage | 스케줄러에 의해 추정된 각 쿼리 노드별 CPU 사용량입니다. 값이 100이면 전체 가상 CPU(vCPU)가 사용됨을 의미합니다. |
검색 그룹 크기 | 지난 2분 동안 검색 그룹 크기(즉, 각 쿼리 노드에서 실행한 검색 요청을 합친 원본 검색 요청의 총 수)의 평균 수와 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 서로 다른 버킷에서 결합된 검색 작업 중 원본 검색 작업의 수(즉, 검색 그룹 크기)입니다. |
검색 NQ | 지난 2분 동안 각 쿼리 노드가 검색 요청을 실행하는 동안 수행한 쿼리 수(NQ)의 평균 수와 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | MILVUS_QUERYNODE_LOAD_SEGMENT_LATency_BUCKET | 검색 요청의 쿼리 수(NQ)입니다. |
검색 그룹 NQ | 지난 2분 동안 각 쿼리 노드에서 결합되어 실행된 검색 요청의 평균 수와 NQ의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_nq_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_nq_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_nq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 서로 다른 버킷에서 결합된 검색 요청의 NQ입니다. |
검색 Top_K | 지난 2분 이내에 각 쿼리 노드에서 실행된 검색 요청의 평균 수와 Top_K 의 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 검색 요청의 Top_K . |
검색 그룹 Top_K | 지난 2분 이내에 각 쿼리 노드에서 합산하여 실행한 검색 요청의 Top_K 평균 수와 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 서로 다른 버킷에서 결합된 검색 요청의 Top_K 입니다. |
퇴출된 읽기 요청 비율 | 지난 2분 동안 각 쿼리 노드에서 초당 퇴출된 읽기 요청의 수입니다. | sum(increase(milvus_querynode_read_evicted_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_querynode_sq_req_count | 트래픽 제한으로 인해 쿼리 노드에서 퇴출된 읽기 요청의 누적 수입니다. |
데이터 코디네이터
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
데이터 노드 수 | 데이터 코디에서 관리하는 데이터 노드 수입니다. | sum(milvus_datacoord_datanode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_datanode_num | 데이터 코디가 관리하는 데이터 노드 수입니다. |
세그먼트 수 | 데이터 코디에 의해 메타데이터에 기록된 모든 유형의 세그먼트 수입니다. | sum(milvus_datacoord_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (segment_state) | milvus_datacoord_segment_num | 데이터 코디별로 메타데이터에 기록된 모든 유형의 세그먼트 수입니다. 세그먼트 유형에는 삭제, 플러시, 플러싱, 성장, 봉인 등이 있습니다. |
컬렉션 개수 | 데이터 좌표별로 메타데이터에 기록된 컬렉션의 수입니다. | sum(milvus_datacoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_collection_num | 데이터 좌표별로 메타데이터에 기록된 컬렉션의 수입니다. |
저장된 행 | 데이터 좌표에서 유효하고 플러시된 데이터의 누적 행 수입니다. | sum(milvus_datacoord_stored_rows_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_rows_num | 데이터 좌표에서 유효하고 플러시된 데이터의 누적 행 수입니다. |
저장된 행 비율 | 지난 2분 동안 초당 평균 플러시된 행 수입니다. | sum(increase(milvus_datacoord_stored_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_datacoord_stored_rows_count | 데이터 좌표에 의해 플러시된 누적 행 수입니다. |
동기화 시간 | 각 물리적 채널에서 데이터 좌표별로 동기화된 에포크 시간의 평균, 최대 및 최소 횟수입니다. | avg(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_sync_epoch_time | 각 물리적 채널의 에포크 시간(유닉스 시간, 1970년 1월 1일 이후 경과된 밀리초)입니다. |
저장된 빈로그 크기 | 저장된 빈로그의 총 크기입니다. | sum(milvus_datacoord_stored_binlog_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_binlog_size | Milvus에 저장된 빈로그의 총 크기입니다. |
데이터 노드
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
플로우그래프 개수 | 각 데이터 노드에 해당하는 플로우그래프 개체의 수입니다. | sum(milvus_datanode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_flowgraph_num | 플로우그래프 개체의 수입니다. 컬렉션의 각 샤드는 플로우그래프 개체에 해당합니다. |
메시지 행 소비율 | 지난 2분 동안 각 데이터 노드에서 초당 소비한 스트리밍 메시지 행 수입니다. | sum(increase(milvus_datanode_msg_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_msg_rows_count | 소비된 스트리밍 메시지의 행 수입니다. 현재 데이터 노드별로 계산되는 스트리밍 메시지에는 삽입 및 삭제 메시지만 포함됩니다. |
플러시 데이터 크기 비율 | 지난 2분 동안 각 데이터 노드에서 초당 기록된 각 플러시된 메시지의 크기입니다. | sum(increase(milvus_datanode_flushed_data_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_flushed_data_size | 플러시된 각 메시지의 크기입니다. 현재 데이터 노드별로 집계되는 스트리밍 메시지에는 삽입 및 삭제 메시지만 포함됩니다. |
소비자 수 | 각 데이터 노드에서 생성된 소비자 수입니다. | sum(milvus_datanode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_consumer_num | 각 데이터 노드에서 생성된 소비자 수입니다. 각 플로그래프는 하나의 소비자에 해당합니다. |
생산자 개수 | 각 데이터 노드에서 생성된 생산자 수입니다. | sum(milvus_datanode_producer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_producer_num | 각 데이터 노드에 생성된 소비자 수입니다. 컬렉션의 각 샤드는 델타 채널 생산자와 타임틱 채널 생산자에 해당합니다. |
동기화 시간 | 모든 물리적 토픽에서 각 데이터 노드가 동기화한 에포크 시간의 평균, 최대 및 최소 수입니다. | avg(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_sync_epoch_time | 데이터 노드에 있는 각 물리적 토픽의 에포크 시간(유닉스 시간, 1970년 1월 1일 이후 경과된 밀리초)입니다. |
플러시되지 않은 세그먼트 수 | 각 데이터 노드에 생성된 플러시되지 않은 세그먼트의 수입니다. | sum(milvus_datanode_unflushed_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_unflushed_segment_num | 각 데이터 노드에서 생성된 플러시되지 않은 세그먼트의 수입니다. |
인코딩 버퍼 지연 시간 | 지난 2분 동안 각 데이터 노드가 버퍼를 인코딩하는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_encode_buffer_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_datanode_encode_buffer_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_encode_buffer_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_encode_buffer_latency | 각 데이터 노드가 버퍼를 인코딩하는 데 걸리는 시간입니다. |
데이터 지연 시간 | 지난 2분 동안 각 데이터 노드가 스토리지 계층에 버퍼를 쓰는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_save_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_datanode_save_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_save_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_save_latency | 각 데이터 노드가 스토리지 계층에 버퍼를 쓰는 데 걸리는 시간입니다. |
플러시 작동 속도 | 지난 2분 동안 각 데이터 노드가 초당 버퍼를 플러시한 횟수입니다. | sum(increase(milvus_datanode_flush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_buffer_op_count | 데이터 노드가 버퍼를 플러시한 누적 횟수입니다. |
자동 플러시 작동 속도 | 지난 2분 동안 각 데이터 노드가 초당 버퍼를 자동 플러시한 횟수입니다. | sum(increase(milvus_datanode_autoflush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_autoflush_buffer_op_count | 데이터 노드가 버퍼를 자동 플러시한 누적 횟수입니다. |
플러시 요청 비율 | 지난 2분 동안 각 데이터 노드가 초당 버퍼 플러시 요청을 받은 횟수입니다. | sum(increase(milvus_datanode_flush_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_req_count | 데이터 노드가 데이터 코드로부터 플러시 요청을 받은 누적 횟수입니다. |
압축 지연 시간 | 지난 2분 동안 각 데이터 노드가 압축 작업을 실행하는 데 걸린 평균 지연 시간 및 99 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_compaction_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_datanode_compaction_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_compaction_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_compaction_latency | 각 데이터 노드가 압축 작업을 실행하는 데 걸리는 시간입니다. |
인덱스 코디네이터
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 메트릭 설명 |
---|---|---|---|---|
인덱스 요청 비율 | 지난 2분 동안 초당 평균 수신된 인덱스 구축 요청 수입니다. | sum(increase(milvus_indexcoord_indexreq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_indexcoord_indexreq_count | 수신된 인덱스 구축 요청의 수입니다. |
인덱스 작업 수 | 인덱스 메타데이터에 기록된 모든 인덱싱 작업의 수입니다. | sum(milvus_indexcoord_indextask_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (index_task_status) | milvus_indexcoord_indextask_count | 인덱스 메타데이터에 기록된 모든 인덱싱 작업의 수입니다. |
인덱스 노드 수 | 관리되는 인덱스 노드 수입니다. | sum(milvus_indexcoord_indexnode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_indexcoord_indexnode_num | 관리되는 인덱스 노드의 수입니다. |
인덱스 노드
패널 | 패널 설명 | PromQL(프로메테우스 쿼리 언어) | 사용된 Milvus 메트릭 | Milvus 지표 설명 |
---|---|---|---|---|
인덱스 작업 속도 | 지난 2분 동안 각 인덱스 노드가 초당 받은 인덱스 구축 작업의 평균 수입니다. | sum(increase(milvus_indexnode_index_task_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_indexnode_index_task_count | 수신된 인덱스 구축 작업의 수입니다. |
로드 필드 지연 시간 | 지난 2분 동안 각 인덱스 노드가 세그먼트 필드 데이터를 로드하는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_load_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_indexnode_load_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_load_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_load_field_latency | 인덱스 노드가 세그먼트 필드 데이터를 로드하는 데 사용한 시간입니다. |
디코딩 필드 지연 시간 | 지난 2분 동안 각 인덱스 노드가 필드 데이터를 인코딩하는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_decode_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_indexnode_decode_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_decode_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_decode_field_latency | 필드 데이터를 디코딩하는 데 사용된 시간입니다. |
인덱스 구축 지연 시간 | 지난 2분 동안 각 인덱스 노드가 인덱스를 구축하는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_build_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_indexnode_build_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_build_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_build_index_latency | 인덱스 빌드에 사용된 시간입니다. |
인덱스 인코딩 지연 시간 | 지난 2분 동안 각 인덱스 노드가 인덱스 파일을 인코딩하는 데 사용한 시간의 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_encode_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_indexnode_encode_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_encode_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_encode_index_latency | 인덱스 파일을 인코딩하는 데 사용된 시간입니다. |
인덱스 레이턴시 저장 | 지난 2분 동안 각 인덱스 노드가 인덱스 파일을 저장하는 데 사용한 평균 지연 시간 및 99번째 백분위수입니다. | P99: histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_save_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 평균: sum(increase(milvus_indexnode_save_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_save_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_save_index_latency | 인덱스 파일을 저장하는 데 사용된 시간입니다. |