🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 管理指南
  • Home
  • Docs
  • 管理指南

  • 監控、警示與日誌

  • 監控

  • Milvus 指標儀表板

Milvus 指標儀表板

Milvus 會在執行期間輸出詳細的時間序列指標清單。您可以使用PrometheusGrafana來視覺化這些指標。本主題介紹 Grafana Milvus Dashboard 中顯示的監控指標。

本主題中的時間單位為毫秒。而本主題中的「第 99 百分位數」是指 99% 的時間統計都控制在某個數值之內。

我們建議先閱讀Milvus 監控框架概述,以瞭解 Prometheus 的度量指標。

代理

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 公制Milvus 測量指標說明
查詢向量計數率過去兩分鐘內,每個代理每秒查詢的向量平均數。sum(increase(milvus_proxy_search_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id)milvus_proxy_search_vectors_count累積查詢的向量數量。
插入向量計數率過去兩分鐘內,每個代理平均每秒插入的向量數量。sum(increase(milvus_proxy_insert_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id)milvus_proxy_insert_vectors_count插入向量的累積數量。
搜尋延遲過去兩分鐘內,每個代理伺服器接收搜尋與查詢要求的平均延遲時間,以及延遲時間的第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type)
milvus_proxy_sq_latency搜尋與查詢要求的延遲時間。
集合搜尋延遲每個代理在過去兩分鐘內接收特定資料集的搜尋和查詢請求的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])))
AVG:
sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type)
milvus_proxy_collection_sq_latency_sum搜尋和查詢要求到特定集合的延遲時間
突變延遲過去兩分鐘內每個代理接收突變請求的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_mutation_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type)
milvus_proxy_mutation_latency_sum突變請求的延遲時間。
收集突變延遲每個代理在過去兩分鐘內接收到特定集合的突變請求的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])))
AVG:
sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type)
milvus_proxy_collection_sq_latency_sum對特定集合提出突變請求的延遲時間
等待搜尋結果的延遲代理在過去兩分鐘內傳送搜尋和查詢請求與接收結果之間的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_wait_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_sq_wait_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_wait_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type)
milvus_proxy_sq_wait_result_latency傳送搜尋和查詢要求與接收結果之間的延遲。
減少搜尋結果延遲在過去兩分鐘內,透過代理匯集搜尋和查詢結果的平均延遲時間和第 99 百分位數的延遲時間。P99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_reduce_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_proxy_sq_reduce_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_reduce_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type)
milvus_proxy_sq_reduce_result_latency每個查詢節點彙總搜尋與查詢結果的延遲時間。
解碼搜尋結果的延遲在過去兩分鐘內,由代理解碼搜尋和查詢結果的平均延遲時間和第 99 百分位數的延遲時間。P99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_decode_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_proxy_sq_decode_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_decode_resultlatency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type)
milvus_proxy_sq_decode_result_latency解碼每個搜尋與查詢結果的延遲時間。
Msg Stream Object Num過去兩分鐘內,每個代理在其對應的實體主題上建立的 msgstream 物件的平均、最大及最小數量。avg(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_proxy_msgstream_obj_num在每個實體主題上建立的 msgstream 物件數量。
突發傳送延遲每個代理伺服器在過去兩分鐘內傳送插入或刪除請求的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_send_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_proxy_mutation_send_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_send_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type)
milvus_proxy_mutation_send_latency傳送插入或刪除請求的延遲時間。
快取記憶體命中率過去兩分鐘內,包括GeCollectionIDGetCollectionInfoGetCollectionSchema 在內的每秒平均快取記憶體命中率。sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", cache_state="hit"}[2m])/120) by(cache_name, pod, node_id) / sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(cache_name, pod, node_id)milvus_proxy_cache_hit_count每個快取記憶體讀取作業的命中率和失敗率統計。
快取更新延遲過去兩分鐘內,各代理的快取更新平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_cache_update_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_proxy_cache_update_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_cache_update_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id)
milvus_proxy_cache_update_latency每次更新快取記憶體的延遲時間。
同步時間每個代理伺服器在其對應的實體通道中同步的平均、最大和最小時間。avg(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_proxy_sync_epoch_time每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。
除了實體通道之外,還有預設的ChannelName
套用 PK 延遲過去兩分鐘內每個代理的平均延遲時間和主索引鍵應用延遲時間的第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_pk_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_apply_pk_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_pk_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id)
milvus_proxy_apply_pk_latency應用主索引鍵的延遲。
套用時間戳延遲過去兩分鐘內,每個代理伺服器應用 Timestamp 應用延遲的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_timestamp_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_apply_timestamp_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_timestamp_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id)
milvus_proxy_apply_timestamp_latency套用時間戳的延遲。
請求成功率每個代理每秒收到的成功請求數目,每個請求類型的詳細明細。可能的請求類型包括 DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert 等。
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="success"}[2m])/120) by(function_name, pod, node_id)milvus_proxy_req_count所有類型的接收要求數量
請求失敗率每個代理每秒收到的失敗請求數目,並詳細列出每種請求類型。可能的請求類型有:DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert 等。
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="fail"}[2m])/120) by(function_name, pod, node_id)milvus_proxy_req_count所有類型的接收要求數量
請求延遲每個代理接收所有類型要求的平均延遲時間和第 99 百分位數p99:
histogram_quantile(0.99, sum by (le, pod, node_id, function_name) (rate(milvus_proxy_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_proxy_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) / sum(increase(milvus_proxy_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name)
milvus_proxy_req_latency所有類型接收請求的延遲
插入/刪除要求位元組率代理伺服器在過去兩分鐘內每秒收到的插入和刪除請求的位元組數量。sum(increase(milvus_proxy_receive_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id)milvus_proxy_receive_bytes_count插入和刪除請求的計數。
傳送位元組率每個代理伺服器在過去兩分鐘內回應搜尋和查詢要求時,每秒傳回給用戶端的位元組數量。sum(increase(milvus_proxy_send_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id)milvus_proxy_send_bytes_count每個代理伺服器回應搜尋和查詢要求時,傳回給用戶端的位元組數量。

根協調者

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 公制描述
代理節點數建立的代理數目。sum(milvus_rootcoord_proxy_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_proxy_num代理的數量。
同步時間每個實體通道 (PChannel) 中每個根協定同步的平均、最大和最小歷時。avg(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_sync_epoch_time每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。
DDL 請求率過去兩分鐘內每秒 DDL 請求的狀態和次數。sum(increase(milvus_rootcoord_ddl_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, function_name)milvus_rootcoord_ddl_req_countDDL 請求的總數,包括CreateCollection,DescribeCollection,DescribeSegments,HasCollection,ShowCollections,ShowPartitions, 和ShowSegments
DDL 請求延遲過去兩分鐘內 DDL 請求延遲的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, function_name) (rate(milvus_rootcoord_ddl_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_rootcoord_ddl_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) / sum(increase(milvus_rootcoord_ddl_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name)
milvus_rootcoord_ddl_req_latency所有類型 DDL 請求的延遲。
同步計時延遲過去兩分鐘內,root coord 將所有時間戳記同步至 PChannel 所使用時間的平均延遲和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le) (rate(milvus_rootcoord_sync_timetick_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_rootcoord_sync_timetick_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_rootcoord_sync_timetick_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))
milvus_rootcoord_sync_timetick_latency根協調同步所有時間戳記到 PChannel 所使用的時間。
ID 分配率過去兩分鐘內,每秒由 root coord 指派的 ID 數量。sum(increase(milvus_rootcoord_id_alloc_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120)milvus_rootcoord_id_alloc_count根目錄分配的 ID 累積數量。
時間戳記根目錄的最新時間戳記。milvus_rootcoord_timestamp{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}milvus_rootcoord_timestamp根目錄的最新時間戳記。
儲存的時間戳記根目錄儲存於元儲存的預先指定時間戳記。milvus_rootcoord_timestamp_saved{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}milvus_rootcoord_timestamp_saved根目錄儲存於元儲存的預先指定時間戳記。
時間戳提前 3 秒指定。時間戳每 50 毫秒更新一次,並儲存在元儲存器中。
集合總數集合的總數。sum(milvus_rootcoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_collection_num目前 Milvus 中存在的集合總數。
分區數目分區的總數。sum(milvus_rootcoord_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_partition_num目前 Milvus 中存在的分區總數。
DML 通道數目DML 通道的總數。sum(milvus_rootcoord_dml_channel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_dml_channel_num目前 Milvus 中存在的 DML 通道總數。
訊息流總數msgstreams 的總數。sum(milvus_rootcoord_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_msgstream_obj_numMilvus 目前的 msgstreams 總數。
憑證總數憑證總數。sum(milvus_rootcoord_credential_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_credential_numMilvus 目前的憑證總數。
時間延遲所有資料節點和查詢節點上流量圖的最大時間延遲總和。sum(milvus_rootcoord_time_tick_delay{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_rootcoord_time_tick_delay每個 DataNode 和 QueryNode 上流量圖的最大時間刻度延遲。

查詢協調器

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 公制描述
已載入的集合數目目前載入記憶體的集合數量。sum(milvus_querycoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_querycoord_collection_numMilvus 目前載入的集合數量。
已載入的實體數目目前載入記憶體的實體數量。sum(milvus_querycoord_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_querycoord_entitiy_numMilvus 目前載入的實體數量。
載入要求率過去兩分鐘內每秒載入要求的次數。sum(increase(milvus_querycoord_load_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])120) by (status)milvus_querycoord_load_req_count累積的載入要求數量。
釋放要求率過去兩分鐘內每秒釋放要求的數量。sum(increase(milvus_querycoord_release_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status)milvus_querycoord_release_req_count釋放要求的累積數目。
負載要求延遲過去兩分鐘內負載要求延遲的平均延遲和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_load_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querycoord_load_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_load_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))
milvus_querycoord_load_latency完成負載請求所用的時間。
釋放請求延遲過去兩分鐘內釋放要求延遲的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_release_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_querycoord_release_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_release_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))
milvus_querycoord_release_latency完成釋放要求所用的時間。
次負載任務次負載任務的數量。sum(milvus_querycoord_child_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_querycoord_child_task_num子負載任務的數量。
查詢協定會將負載請求分割為多個子負載任務。
父載入任務父載入任務的數量。sum(milvus_querycoord_parent_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_querycoord_parent_task_num子負載任務的數量。
每個負載請求對應任務佇列中的父任務。
子負載任務延遲子負載任務在過去兩分鐘內的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_child_task_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querycoord_child_task_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_child_task_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) namespace"}[2m])))
milvus_querycoord_child_task_latency完成次負載任務的延遲時間。
查詢節點數查詢協調器管理的查詢節點數目。sum(milvus_querycoord_querynode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_querycoord_querynode_num查詢協調器管理的查詢節點數。

查詢節點

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 測量指標說明
載入的集合數目每個查詢節點載入記憶體的集合數量。sum(milvus_querynode_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_collection_num每個查詢節點載入的集合數量。
載入的分割數目每個查詢節點載入記憶體的分割數目。sum(milvus_querynode_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_partition_num每個查詢節點載入的分割數目。
載入的區段數目每個查詢節點載入記憶體的區段數目。sum(milvus_querynode_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_segment_num每個查詢節點載入的區段數目。
可查詢的實體數目每個查詢節點上可查詢及可搜尋的實體數目。sum(milvus_querynode_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_entity_num每個查詢節點上可查詢及可搜尋的實體數目。
DML 虛擬通道每個查詢節點監視的 DML 虛擬通道數量。sum(milvus_querynode_dml_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_dml_vchannel_num每個查詢節點監視的 DML 虛擬通道數量。
Delta 虛擬通道每個查詢節點監視的 delta 通道數量。sum(milvus_querynode_delta_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_delta_vchannel_num每個查詢節點所看管的 delta 通道數量。
消費者數目每個查詢節點的 Consumer 數量。sum(milvus_querynode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_consumer_num每個查詢節點中的消費者數量。
搜尋要求率每個查詢節點每秒收到的搜尋和查詢請求總數,以及過去兩分鐘內成功搜尋和查詢請求的數目。sum(increase(milvus_querynode_sq_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (query_type, status, pod, node_id)milvus_querynode_sq_req_count累積的搜尋與查詢請求次數。
搜尋要求延遲每個查詢節點在過去兩分鐘內搜尋和查詢請求所用時間的平均延遲時間和第 99 百分位數。
此面板顯示狀態為 「成功 」或 「總計 」的搜尋和查詢請求的延遲時間。
P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_sq_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_sq_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type)
milvus_querynode_sq_req_latency查詢節點的搜尋要求延遲。
搜尋在佇列中的延遲過去兩分鐘內佇列中的搜尋與查詢請求的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_queue_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_sq_queue_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_queue_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type)
milvus_querynode_sq_queue_latency查詢節點收到的搜尋和查詢請求的延遲時間。
搜尋段延遲每個查詢節點在過去兩分鐘內搜尋和查詢網段所花時間的平均延遲時間和第 99 百分位數。
區段的狀態可以是封閉或成長。
p99:
histogram_quantile(0.99, sum by (le, query_type, segment_state, pod, node_id) (rate(milvus_querynode_sq_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_querynode_sq_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) / sum(increase(milvus_querynode_sq_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state)
milvus_querynode_sq_segment_latency每個查詢節點搜尋和查詢每個區段所花的時間。
Segcore 請求延遲過去兩分鐘內,每個查詢節點在 segcore 中搜尋和查詢所花時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_querynode_sq_core_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_sq_core_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_core_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type)
milvus_querynode_sq_core_latency每個查詢節點在 segcore 中搜尋與查詢所花費的時間。
搜尋縮短延遲過去兩分鐘內,每個查詢節點在搜尋或查詢的還原階段所用時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_reduce_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_sq_reduce_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_reduce_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type)
milvus_querynode_sq_reduce_latency每個查詢在 reduce 階段所花費的時間。
負載分段延遲每個查詢節點在過去兩分鐘內載入一個區段所花時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_load_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_load_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_load_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket每個查詢節點載入一個區段所花的時間。
流程圖數每個查詢節點中的 flowgraph 數量。sum(milvus_querynode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_flowgraph_num每個查詢節點中的 flowgraph 數量。
未解決的讀取任務長度每個查詢節點中未解決的讀取要求佇列的長度。sum(milvus_querynode_read_task_unsolved_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_read_task_unsolved_len未解決的讀取要求佇列的長度。
就緒讀取任務長度每個查詢節點中待執行讀取請求佇列的長度。sum(milvus_querynode_read_task_ready_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_read_task_ready_len待執行讀取請求佇列的長度。
並行讀取任務數每個查詢節點目前執行的並行讀取請求數目。sum(milvus_querynode_read_task_concurrency{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_read_task_concurrency目前執行的並行讀取請求數目。
估計 CPU 使用量排程器估計每個查詢節點的 CPU 使用量。sum(milvus_querynode_estimate_cpu_usage{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_querynode_estimate_cpu_usage排程器估計每個查詢節點的 CPU 使用量。
當值為 100 時,表示使用了整個虛擬 CPU (vCPU)。
搜尋群大小過去兩分鐘內搜尋群大小 (即每個查詢節點執行的合併搜尋請求中原始搜尋請求的總數) 的平均數和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket來自不同資料桶的合併搜尋任務中的原始搜尋任務數目(即搜尋群組大小)。
搜尋 NQ每個查詢節點在過去兩分鐘內執行搜尋要求時,所完成查詢次數 (NQ) 的平均值和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket搜尋要求的查詢次數 (NQ)。
搜尋群組 NQ每個查詢節點在過去兩分鐘內合併執行的搜尋要求 NQ 的平均數和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_nq_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_querynode_search_group_nq_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_nq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket來自不同資料桶的合併搜尋要求 NQ。
搜尋 Top_K每個查詢節點在過去兩分鐘內執行的Top_K 搜尋要求的平均數和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_querynode_search_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket搜尋要求的Top_K
搜尋群組 Top_K過去兩分鐘內,每個查詢節點合計執行的Top_K 搜尋請求的平均數和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_querynode_search_group_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_querynode_load_segment_latency_bucket從不同資料桶合併的搜尋要求的Top_K
驅逐讀取請求率過去兩分鐘內,每個查詢節點每秒驅逐的讀取要求數目。sum(increase(milvus_querynode_read_evicted_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id)milvus_querynode_sq_req_count查詢節點因流量限制而驅逐的讀取要求累計數。

資料協調器

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 測量指標說明
資料節點數由 data coord. 管理的資料節點數目。sum(milvus_datacoord_datanode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_datacoord_datanode_num由資料協調員管理的資料節點數目。
段數 Num由 data coord 記錄在 metadata 中的所有類型段落的數量。sum(milvus_datacoord_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (segment_state)milvus_datacoord_segment_num由資料協調員記錄在元資料中的所有類型段落的數量。
區段類型包括:掉落、刷新、沖洗、成長和封存。
集合數依據資料坐標在元資料中記錄的集合數量。sum(milvus_datacoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_datacoord_collection_num按資料坐標在 metadata 中記錄的集合數目。
儲存的行數資料坐標中有效和已沖洗資料的累積行數。sum(milvus_datacoord_stored_rows_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_datacoord_stored_rows_num資料坐標中有效和已刷新資料的累積行數。
儲存行數比率過去兩分鐘內每秒刷新的平均行數。sum(increase(milvus_datacoord_stored_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id)milvus_datacoord_stored_rows_count資料坐標刷新的累積行數。
同步時間資料協調器在每個實體通道同步的平均、最大和最小歷時。avg(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_datacoord_sync_epoch_time每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。
儲存的 binlog 大小儲存的 binlog 總大小。sum(milvus_datacoord_stored_binlog_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_datacoord_stored_binlog_size儲存於 Milvus 的 binlog 總大小。

資料節點

面板面板描述PromQL (Prometheus 查詢語言)使用的 Milvus 公制Milvus 測量指標說明
流程圖數量每個資料節點對應的 flowgraph 物件數量。sum(milvus_datanode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_datanode_flowgraph_numflowgraph 物件的數量。
集合中的每個分片對應一個 flowgraph 物件。
Msg Rows Consume Rate(訊息行消耗率過去兩分鐘內,每個資料節點每秒消耗的串流訊息行數目。sum(increase(milvus_datanode_msg_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id)milvus_datanode_msg_rows_count消耗的串流訊息行數。
目前,按資料節點計算的串流訊息只包括插入和刪除訊息。
刷新資料大小率過去兩分鐘內,每個資料節點每秒記錄的每個刷新訊息的大小。sum(increase(milvus_datanode_flushed_data_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id)milvus_datanode_flushed_data_size每個刷新訊息的大小。
目前,按資料節點計算的串流訊息只包括插入和刪除訊息。
用戶數在每個資料節點上建立的消費者數量。sum(milvus_datanode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_datanode_consumer_num每個資料節點上建立的消費者數量。
每個 flowgraph 對應一個 Consumer。
生產者數目每個資料節點上建立的生產者數量。sum(milvus_datanode_producer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_datanode_producer_num每個資料節點上建立的消費者數量。
集合中的每個分片對應一個 delta 通道生產者和一個 Timetick 通道生產者。
同步時間在所有實體主題中,每個資料節點同步的平均、最大和最小時元時間。avg(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_datanode_sync_epoch_time資料節點上每個實體主題的 epoch time (Unix time,自 1970 年 1 月 1 日起經過的毫秒數。)。
未刷新段數在每個資料節點上建立的未刷新區段數目。sum(milvus_datanode_unflushed_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id)milvus_datanode_unflushed_segment_num在每個資料節點上建立的未刷新區段數目。
編碼緩衝區延遲每個資料節點在過去兩分鐘內編碼緩衝區所用時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_encode_buffer_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_datanode_encode_buffer_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_encode_buffer_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_datanode_encode_buffer_latency每個資料節點編碼緩衝區所需的時間。
儲存資料延遲每個資料節點在過去兩分鐘內,將緩衝區寫入儲存層所用時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_save_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_datanode_save_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_save_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_datanode_save_latency每個資料節點將緩衝區寫入儲存層所花費的時間。
沖洗作業率過去兩分鐘內,每個資料節點每秒刷新緩衝區的次數。sum(increase(milvus_datanode_flush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id)milvus_datanode_flush_buffer_op_count資料節點刷新緩衝區的累積次數。
自動沖洗作業率過去兩分鐘內,每個資料節點每秒自動刷新緩衝區的次數。sum(increase(milvus_datanode_autoflush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id)milvus_datanode_autoflush_buffer_op_count資料節點自動刷新緩衝區的累積次數。
沖洗要求率過去兩分鐘內,每個資料節點每秒收到緩衝區刷新請求的次數。sum(increase(milvus_datanode_flush_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id)milvus_datanode_flush_req_count資料節點從資料協調器收到沖洗要求的累積次數。
壓縮延遲過去兩分鐘內,每個資料節點執行壓縮任務所花時間的平均延遲時間和 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_compaction_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_datanode_compaction_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_compaction_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_datanode_compaction_latency每個資料節點執行壓縮任務所需的時間。

索引協調器

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 度量說明
索引請求率過去兩分鐘內平均每秒收到的索引建立請求數目。sum(increase(milvus_indexcoord_indexreq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status)milvus_indexcoord_indexreq_count收到的索引建立請求數目。
索引任務計數索引元資料中記錄的所有索引建立任務的計數。sum(milvus_indexcoord_indextask_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (index_task_status)milvus_indexcoord_indextask_count索引元資料中記錄的所有索引任務計數。
索引節點數目受管索引節點的數量。sum(milvus_indexcoord_indexnode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance)milvus_indexcoord_indexnode_num受管索引節點的數目。

索引節點

面板面板說明PromQL (Prometheus 查詢語言)使用的 Milvus 度量Milvus 測量指標說明
索引任務率過去兩分鐘內,每個索引節點平均每秒收到的索引建立任務數量。sum(increase(milvus_indexnode_index_task_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id)milvus_indexnode_index_task_count收到的索引建立任務數。
負載欄位延遲過去兩分鐘內,每個索引節點每次載入段字段資料所用時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_load_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_indexnode_load_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_load_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_indexnode_load_field_latency索引節點載入段字段資料所用的時間。
解碼欄位延遲每個索引節點在過去兩分鐘內每次編碼欄位資料所用時間的平均延遲時間和第 99 百分位數。P99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_decode_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
AVG:
sum(increase(milvus_indexnode_decode_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_decode_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_indexnode_decode_field_latency用於解碼欄位資料的時間。
建立索引延遲每個索引節點在過去兩分鐘內建立索引所用時間的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_build_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_indexnode_build_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_build_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_indexnode_build_index_latency建立索引所用的時間。
編碼索引延遲每個索引節點在過去兩分鐘內編碼索引檔案所用時間的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_encode_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_indexnode_encode_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_encode_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_indexnode_encode_index_latency編碼索引檔案所用的時間。
儲存索引延遲每個索引節點在過去兩分鐘內儲存索引檔案所用時間的平均延遲時間和第 99 百分位數。p99:
histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_save_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])))
avg:
sum(increase(milvus_indexnode_save_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_save_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id)
milvus_indexnode_save_index_latency儲存索引檔案所用的時間。

免費嘗試托管的 Milvus

Zilliz Cloud 無縫接入,由 Milvus 提供動力,速度提升 10 倍。

開始使用
反饋

這個頁面有幫助嗎?