Milvus 指標儀表板
Milvus 會在執行期間輸出詳細的時間序列指標清單。您可以使用Prometheus和Grafana來視覺化這些指標。本主題介紹 Grafana Milvus Dashboard 中顯示的監控指標。
本主題中的時間單位為毫秒。而本主題中的「第 99 百分位數」是指 99% 的時間統計都控制在某個數值之內。
我們建議先閱讀Milvus 監控框架概述,以瞭解 Prometheus 的度量指標。
代理
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 公制 | Milvus 測量指標說明 |
---|---|---|---|---|
查詢向量計數率 | 過去兩分鐘內,每個代理每秒查詢的向量平均數。 | sum(increase(milvus_proxy_search_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_search_vectors_count | 累積查詢的向量數量。 |
插入向量計數率 | 過去兩分鐘內,每個代理平均每秒插入的向量數量。 | sum(increase(milvus_proxy_insert_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_insert_vectors_count | 插入向量的累積數量。 |
搜尋延遲 | 過去兩分鐘內,每個代理伺服器接收搜尋與查詢要求的平均延遲時間,以及延遲時間的第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_latency | 搜尋與查詢要求的延遲時間。 |
集合搜尋延遲 | 每個代理在過去兩分鐘內接收特定資料集的搜尋和查詢請求的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) AVG: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 搜尋和查詢要求到特定集合的延遲時間 |
突變延遲 | 過去兩分鐘內每個代理接收突變請求的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_mutation_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_latency_sum | 突變請求的延遲時間。 |
收集突變延遲 | 每個代理在過去兩分鐘內接收到特定集合的突變請求的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) AVG: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 對特定集合提出突變請求的延遲時間 |
等待搜尋結果的延遲 | 代理在過去兩分鐘內傳送搜尋和查詢請求與接收結果之間的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_wait_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_sq_wait_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_wait_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_wait_result_latency | 傳送搜尋和查詢要求與接收結果之間的延遲。 |
減少搜尋結果延遲 | 在過去兩分鐘內,透過代理匯集搜尋和查詢結果的平均延遲時間和第 99 百分位數的延遲時間。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_reduce_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_sq_reduce_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_reduce_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_reduce_result_latency | 每個查詢節點彙總搜尋與查詢結果的延遲時間。 |
解碼搜尋結果的延遲 | 在過去兩分鐘內,由代理解碼搜尋和查詢結果的平均延遲時間和第 99 百分位數的延遲時間。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_decode_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_sq_decode_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_decode_resultlatency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_decode_result_latency | 解碼每個搜尋與查詢結果的延遲時間。 |
Msg Stream Object Num | 過去兩分鐘內,每個代理在其對應的實體主題上建立的 msgstream 物件的平均、最大及最小數量。 | avg(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_msgstream_obj_num | 在每個實體主題上建立的 msgstream 物件數量。 |
突發傳送延遲 | 每個代理伺服器在過去兩分鐘內傳送插入或刪除請求的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_send_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_mutation_send_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_send_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_send_latency | 傳送插入或刪除請求的延遲時間。 |
快取記憶體命中率 | 過去兩分鐘內,包括GeCollectionID 、GetCollectionInfo 及GetCollectionSchema 在內的每秒平均快取記憶體命中率。 | sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", cache_state="hit"}[2m])/120) by(cache_name, pod, node_id) / sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(cache_name, pod, node_id) | milvus_proxy_cache_hit_count | 每個快取記憶體讀取作業的命中率和失敗率統計。 |
快取更新延遲 | 過去兩分鐘內,各代理的快取更新平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_cache_update_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_proxy_cache_update_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_cache_update_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_cache_update_latency | 每次更新快取記憶體的延遲時間。 |
同步時間 | 每個代理伺服器在其對應的實體通道中同步的平均、最大和最小時間。 | avg(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_sync_epoch_time | 每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。 除了實體通道之外,還有預設的 ChannelName 。 |
套用 PK 延遲 | 過去兩分鐘內每個代理的平均延遲時間和主索引鍵應用延遲時間的第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_pk_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_apply_pk_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_pk_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_pk_latency | 應用主索引鍵的延遲。 |
套用時間戳延遲 | 過去兩分鐘內,每個代理伺服器應用 Timestamp 應用延遲的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_timestamp_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_apply_timestamp_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_timestamp_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_timestamp_latency | 套用時間戳的延遲。 |
請求成功率 | 每個代理每秒收到的成功請求數目,每個請求類型的詳細明細。可能的請求類型包括 DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert 等。 | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="success"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | 所有類型的接收要求數量 | ||
請求失敗率 | 每個代理每秒收到的失敗請求數目,並詳細列出每種請求類型。可能的請求類型有:DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert 等。 | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="fail"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | 所有類型的接收要求數量 | ||
請求延遲 | 每個代理接收所有類型要求的平均延遲時間和第 99 百分位數 | p99:histogram_quantile(0.99, sum by (le, pod, node_id, function_name) (rate(milvus_proxy_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) / sum(increase(milvus_proxy_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) | milvus_proxy_req_latency | 所有類型接收請求的延遲 |
插入/刪除要求位元組率 | 代理伺服器在過去兩分鐘內每秒收到的插入和刪除請求的位元組數量。 | sum(increase(milvus_proxy_receive_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_receive_bytes_count | 插入和刪除請求的計數。 |
傳送位元組率 | 每個代理伺服器在過去兩分鐘內回應搜尋和查詢要求時,每秒傳回給用戶端的位元組數量。 | sum(increase(milvus_proxy_send_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_send_bytes_count | 每個代理伺服器回應搜尋和查詢要求時,傳回給用戶端的位元組數量。 |
根協調者
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 公制描述 |
---|---|---|---|---|
代理節點數 | 建立的代理數目。 | sum(milvus_rootcoord_proxy_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_proxy_num | 代理的數量。 |
同步時間 | 每個實體通道 (PChannel) 中每個根協定同步的平均、最大和最小歷時。 | avg(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_sync_epoch_time | 每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。 |
DDL 請求率 | 過去兩分鐘內每秒 DDL 請求的狀態和次數。 | sum(increase(milvus_rootcoord_ddl_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, function_name) | milvus_rootcoord_ddl_req_count | DDL 請求的總數,包括CreateCollection ,DescribeCollection ,DescribeSegments ,HasCollection ,ShowCollections ,ShowPartitions , 和ShowSegments 。 |
DDL 請求延遲 | 過去兩分鐘內 DDL 請求延遲的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, function_name) (rate(milvus_rootcoord_ddl_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_rootcoord_ddl_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) / sum(increase(milvus_rootcoord_ddl_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) | milvus_rootcoord_ddl_req_latency | 所有類型 DDL 請求的延遲。 |
同步計時延遲 | 過去兩分鐘內,root coord 將所有時間戳記同步至 PChannel 所使用時間的平均延遲和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_rootcoord_sync_timetick_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_rootcoord_sync_timetick_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_rootcoord_sync_timetick_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_rootcoord_sync_timetick_latency | 根協調同步所有時間戳記到 PChannel 所使用的時間。 |
ID 分配率 | 過去兩分鐘內,每秒由 root coord 指派的 ID 數量。 | sum(increase(milvus_rootcoord_id_alloc_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) | milvus_rootcoord_id_alloc_count | 根目錄分配的 ID 累積數量。 |
時間戳記 | 根目錄的最新時間戳記。 | milvus_rootcoord_timestamp{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp | 根目錄的最新時間戳記。 |
儲存的時間戳記 | 根目錄儲存於元儲存的預先指定時間戳記。 | milvus_rootcoord_timestamp_saved{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp_saved | 根目錄儲存於元儲存的預先指定時間戳記。 時間戳提前 3 秒指定。時間戳每 50 毫秒更新一次,並儲存在元儲存器中。 |
集合總數 | 集合的總數。 | sum(milvus_rootcoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_collection_num | 目前 Milvus 中存在的集合總數。 |
分區數目 | 分區的總數。 | sum(milvus_rootcoord_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_partition_num | 目前 Milvus 中存在的分區總數。 |
DML 通道數目 | DML 通道的總數。 | sum(milvus_rootcoord_dml_channel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_dml_channel_num | 目前 Milvus 中存在的 DML 通道總數。 |
訊息流總數 | msgstreams 的總數。 | sum(milvus_rootcoord_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_msgstream_obj_num | Milvus 目前的 msgstreams 總數。 |
憑證總數 | 憑證總數。 | sum(milvus_rootcoord_credential_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_credential_num | Milvus 目前的憑證總數。 |
時間延遲 | 所有資料節點和查詢節點上流量圖的最大時間延遲總和。 | sum(milvus_rootcoord_time_tick_delay{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_time_tick_delay | 每個 DataNode 和 QueryNode 上流量圖的最大時間刻度延遲。 |
查詢協調器
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 公制描述 |
---|---|---|---|---|
已載入的集合數目 | 目前載入記憶體的集合數量。 | sum(milvus_querycoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_collection_num | Milvus 目前載入的集合數量。 |
已載入的實體數目 | 目前載入記憶體的實體數量。 | sum(milvus_querycoord_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_entitiy_num | Milvus 目前載入的實體數量。 |
載入要求率 | 過去兩分鐘內每秒載入要求的次數。 | sum(increase(milvus_querycoord_load_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])120) by (status) | milvus_querycoord_load_req_count | 累積的載入要求數量。 |
釋放要求率 | 過去兩分鐘內每秒釋放要求的數量。 | sum(increase(milvus_querycoord_release_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_querycoord_release_req_count | 釋放要求的累積數目。 |
負載要求延遲 | 過去兩分鐘內負載要求延遲的平均延遲和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_load_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querycoord_load_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_load_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_load_latency | 完成負載請求所用的時間。 |
釋放請求延遲 | 過去兩分鐘內釋放要求延遲的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_release_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querycoord_release_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_release_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_release_latency | 完成釋放要求所用的時間。 |
次負載任務 | 次負載任務的數量。 | sum(milvus_querycoord_child_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_child_task_num | 子負載任務的數量。 查詢協定會將負載請求分割為多個子負載任務。 |
父載入任務 | 父載入任務的數量。 | sum(milvus_querycoord_parent_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_parent_task_num | 子負載任務的數量。 每個負載請求對應任務佇列中的父任務。 |
子負載任務延遲 | 子負載任務在過去兩分鐘內的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_child_task_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querycoord_child_task_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_child_task_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) namespace"}[2m]))) | milvus_querycoord_child_task_latency | 完成次負載任務的延遲時間。 |
查詢節點數 | 查詢協調器管理的查詢節點數目。 | sum(milvus_querycoord_querynode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_querynode_num | 查詢協調器管理的查詢節點數。 |
查詢節點
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 測量指標說明 |
---|---|---|---|---|
載入的集合數目 | 每個查詢節點載入記憶體的集合數量。 | sum(milvus_querynode_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_collection_num | 每個查詢節點載入的集合數量。 |
載入的分割數目 | 每個查詢節點載入記憶體的分割數目。 | sum(milvus_querynode_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_partition_num | 每個查詢節點載入的分割數目。 |
載入的區段數目 | 每個查詢節點載入記憶體的區段數目。 | sum(milvus_querynode_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_segment_num | 每個查詢節點載入的區段數目。 |
可查詢的實體數目 | 每個查詢節點上可查詢及可搜尋的實體數目。 | sum(milvus_querynode_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_entity_num | 每個查詢節點上可查詢及可搜尋的實體數目。 |
DML 虛擬通道 | 每個查詢節點監視的 DML 虛擬通道數量。 | sum(milvus_querynode_dml_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_dml_vchannel_num | 每個查詢節點監視的 DML 虛擬通道數量。 |
Delta 虛擬通道 | 每個查詢節點監視的 delta 通道數量。 | sum(milvus_querynode_delta_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_delta_vchannel_num | 每個查詢節點所看管的 delta 通道數量。 |
消費者數目 | 每個查詢節點的 Consumer 數量。 | sum(milvus_querynode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_consumer_num | 每個查詢節點中的消費者數量。 |
搜尋要求率 | 每個查詢節點每秒收到的搜尋和查詢請求總數,以及過去兩分鐘內成功搜尋和查詢請求的數目。 | sum(increase(milvus_querynode_sq_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (query_type, status, pod, node_id) | milvus_querynode_sq_req_count | 累積的搜尋與查詢請求次數。 |
搜尋要求延遲 | 每個查詢節點在過去兩分鐘內搜尋和查詢請求所用時間的平均延遲時間和第 99 百分位數。 此面板顯示狀態為 「成功 」或 「總計 」的搜尋和查詢請求的延遲時間。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_sq_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_req_latency | 查詢節點的搜尋要求延遲。 |
搜尋在佇列中的延遲 | 過去兩分鐘內佇列中的搜尋與查詢請求的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_queue_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_queue_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_queue_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_queue_latency | 查詢節點收到的搜尋和查詢請求的延遲時間。 |
搜尋段延遲 | 每個查詢節點在過去兩分鐘內搜尋和查詢網段所花時間的平均延遲時間和第 99 百分位數。 區段的狀態可以是封閉或成長。 | p99:histogram_quantile(0.99, sum by (le, query_type, segment_state, pod, node_id) (rate(milvus_querynode_sq_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_sq_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) / sum(increase(milvus_querynode_sq_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) | milvus_querynode_sq_segment_latency | 每個查詢節點搜尋和查詢每個區段所花的時間。 |
Segcore 請求延遲 | 過去兩分鐘內,每個查詢節點在 segcore 中搜尋和查詢所花時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_querynode_sq_core_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_core_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_core_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_core_latency | 每個查詢節點在 segcore 中搜尋與查詢所花費的時間。 |
搜尋縮短延遲 | 過去兩分鐘內,每個查詢節點在搜尋或查詢的還原階段所用時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_reduce_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_sq_reduce_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_reduce_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_reduce_latency | 每個查詢在 reduce 階段所花費的時間。 |
負載分段延遲 | 每個查詢節點在過去兩分鐘內載入一個區段所花時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_load_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_load_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_load_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 每個查詢節點載入一個區段所花的時間。 |
流程圖數 | 每個查詢節點中的 flowgraph 數量。 | sum(milvus_querynode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_flowgraph_num | 每個查詢節點中的 flowgraph 數量。 |
未解決的讀取任務長度 | 每個查詢節點中未解決的讀取要求佇列的長度。 | sum(milvus_querynode_read_task_unsolved_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_unsolved_len | 未解決的讀取要求佇列的長度。 |
就緒讀取任務長度 | 每個查詢節點中待執行讀取請求佇列的長度。 | sum(milvus_querynode_read_task_ready_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_ready_len | 待執行讀取請求佇列的長度。 |
並行讀取任務數 | 每個查詢節點目前執行的並行讀取請求數目。 | sum(milvus_querynode_read_task_concurrency{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_concurrency | 目前執行的並行讀取請求數目。 |
估計 CPU 使用量 | 排程器估計每個查詢節點的 CPU 使用量。 | sum(milvus_querynode_estimate_cpu_usage{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_estimate_cpu_usage | 排程器估計每個查詢節點的 CPU 使用量。 當值為 100 時,表示使用了整個虛擬 CPU (vCPU)。 |
搜尋群大小 | 過去兩分鐘內搜尋群大小 (即每個查詢節點執行的合併搜尋請求中原始搜尋請求的總數) 的平均數和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 來自不同資料桶的合併搜尋任務中的原始搜尋任務數目(即搜尋群組大小)。 |
搜尋 NQ | 每個查詢節點在過去兩分鐘內執行搜尋要求時,所完成查詢次數 (NQ) 的平均值和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 搜尋要求的查詢次數 (NQ)。 |
搜尋群組 NQ | 每個查詢節點在過去兩分鐘內合併執行的搜尋要求 NQ 的平均數和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_nq_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_querynode_search_group_nq_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_nq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 來自不同資料桶的合併搜尋要求 NQ。 |
搜尋 Top_K | 每個查詢節點在過去兩分鐘內執行的Top_K 搜尋要求的平均數和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 搜尋要求的Top_K 。 |
搜尋群組 Top_K | 過去兩分鐘內,每個查詢節點合計執行的Top_K 搜尋請求的平均數和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_group_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 從不同資料桶合併的搜尋要求的Top_K 。 |
驅逐讀取請求率 | 過去兩分鐘內,每個查詢節點每秒驅逐的讀取要求數目。 | sum(increase(milvus_querynode_read_evicted_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_querynode_sq_req_count | 查詢節點因流量限制而驅逐的讀取要求累計數。 |
資料協調器
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 測量指標說明 |
---|---|---|---|---|
資料節點數 | 由 data coord. 管理的資料節點數目。 | sum(milvus_datacoord_datanode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_datanode_num | 由資料協調員管理的資料節點數目。 |
段數 Num | 由 data coord 記錄在 metadata 中的所有類型段落的數量。 | sum(milvus_datacoord_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (segment_state) | milvus_datacoord_segment_num | 由資料協調員記錄在元資料中的所有類型段落的數量。 區段類型包括:掉落、刷新、沖洗、成長和封存。 |
集合數 | 依據資料坐標在元資料中記錄的集合數量。 | sum(milvus_datacoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_collection_num | 按資料坐標在 metadata 中記錄的集合數目。 |
儲存的行數 | 資料坐標中有效和已沖洗資料的累積行數。 | sum(milvus_datacoord_stored_rows_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_rows_num | 資料坐標中有效和已刷新資料的累積行數。 |
儲存行數比率 | 過去兩分鐘內每秒刷新的平均行數。 | sum(increase(milvus_datacoord_stored_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_datacoord_stored_rows_count | 資料坐標刷新的累積行數。 |
同步時間 | 資料協調器在每個實體通道同步的平均、最大和最小歷時。 | avg(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_sync_epoch_time | 每個實體通道的 epoch time (Unix 時間,自 1970 年 1 月 1 日起經過的毫秒數)。 |
儲存的 binlog 大小 | 儲存的 binlog 總大小。 | sum(milvus_datacoord_stored_binlog_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_binlog_size | 儲存於 Milvus 的 binlog 總大小。 |
資料節點
面板 | 面板描述 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 公制 | Milvus 測量指標說明 |
---|---|---|---|---|
流程圖數量 | 每個資料節點對應的 flowgraph 物件數量。 | sum(milvus_datanode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_flowgraph_num | flowgraph 物件的數量。 集合中的每個分片對應一個 flowgraph 物件。 |
Msg Rows Consume Rate(訊息行消耗率 | 過去兩分鐘內,每個資料節點每秒消耗的串流訊息行數目。 | sum(increase(milvus_datanode_msg_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_msg_rows_count | 消耗的串流訊息行數。 目前,按資料節點計算的串流訊息只包括插入和刪除訊息。 |
刷新資料大小率 | 過去兩分鐘內,每個資料節點每秒記錄的每個刷新訊息的大小。 | sum(increase(milvus_datanode_flushed_data_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_flushed_data_size | 每個刷新訊息的大小。 目前,按資料節點計算的串流訊息只包括插入和刪除訊息。 |
用戶數 | 在每個資料節點上建立的消費者數量。 | sum(milvus_datanode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_consumer_num | 每個資料節點上建立的消費者數量。 每個 flowgraph 對應一個 Consumer。 |
生產者數目 | 每個資料節點上建立的生產者數量。 | sum(milvus_datanode_producer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_producer_num | 每個資料節點上建立的消費者數量。 集合中的每個分片對應一個 delta 通道生產者和一個 Timetick 通道生產者。 |
同步時間 | 在所有實體主題中,每個資料節點同步的平均、最大和最小時元時間。 | avg(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_sync_epoch_time | 資料節點上每個實體主題的 epoch time (Unix time,自 1970 年 1 月 1 日起經過的毫秒數。)。 |
未刷新段數 | 在每個資料節點上建立的未刷新區段數目。 | sum(milvus_datanode_unflushed_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_unflushed_segment_num | 在每個資料節點上建立的未刷新區段數目。 |
編碼緩衝區延遲 | 每個資料節點在過去兩分鐘內編碼緩衝區所用時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_encode_buffer_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_datanode_encode_buffer_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_encode_buffer_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_encode_buffer_latency | 每個資料節點編碼緩衝區所需的時間。 |
儲存資料延遲 | 每個資料節點在過去兩分鐘內,將緩衝區寫入儲存層所用時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_save_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_datanode_save_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_save_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_save_latency | 每個資料節點將緩衝區寫入儲存層所花費的時間。 |
沖洗作業率 | 過去兩分鐘內,每個資料節點每秒刷新緩衝區的次數。 | sum(increase(milvus_datanode_flush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_buffer_op_count | 資料節點刷新緩衝區的累積次數。 |
自動沖洗作業率 | 過去兩分鐘內,每個資料節點每秒自動刷新緩衝區的次數。 | sum(increase(milvus_datanode_autoflush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_autoflush_buffer_op_count | 資料節點自動刷新緩衝區的累積次數。 |
沖洗要求率 | 過去兩分鐘內,每個資料節點每秒收到緩衝區刷新請求的次數。 | sum(increase(milvus_datanode_flush_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_req_count | 資料節點從資料協調器收到沖洗要求的累積次數。 |
壓縮延遲 | 過去兩分鐘內,每個資料節點執行壓縮任務所花時間的平均延遲時間和 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_compaction_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_datanode_compaction_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_compaction_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_compaction_latency | 每個資料節點執行壓縮任務所需的時間。 |
索引協調器
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 度量說明 |
---|---|---|---|---|
索引請求率 | 過去兩分鐘內平均每秒收到的索引建立請求數目。 | sum(increase(milvus_indexcoord_indexreq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_indexcoord_indexreq_count | 收到的索引建立請求數目。 |
索引任務計數 | 索引元資料中記錄的所有索引建立任務的計數。 | sum(milvus_indexcoord_indextask_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (index_task_status) | milvus_indexcoord_indextask_count | 索引元資料中記錄的所有索引任務計數。 |
索引節點數目 | 受管索引節點的數量。 | sum(milvus_indexcoord_indexnode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_indexcoord_indexnode_num | 受管索引節點的數目。 |
索引節點
面板 | 面板說明 | PromQL (Prometheus 查詢語言) | 使用的 Milvus 度量 | Milvus 測量指標說明 |
---|---|---|---|---|
索引任務率 | 過去兩分鐘內,每個索引節點平均每秒收到的索引建立任務數量。 | sum(increase(milvus_indexnode_index_task_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_indexnode_index_task_count | 收到的索引建立任務數。 |
負載欄位延遲 | 過去兩分鐘內,每個索引節點每次載入段字段資料所用時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_load_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_indexnode_load_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_load_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_load_field_latency | 索引節點載入段字段資料所用的時間。 |
解碼欄位延遲 | 每個索引節點在過去兩分鐘內每次編碼欄位資料所用時間的平均延遲時間和第 99 百分位數。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_decode_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) AVG: sum(increase(milvus_indexnode_decode_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_decode_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_decode_field_latency | 用於解碼欄位資料的時間。 |
建立索引延遲 | 每個索引節點在過去兩分鐘內建立索引所用時間的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_build_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_build_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_build_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_build_index_latency | 建立索引所用的時間。 |
編碼索引延遲 | 每個索引節點在過去兩分鐘內編碼索引檔案所用時間的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_encode_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_encode_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_encode_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_encode_index_latency | 編碼索引檔案所用的時間。 |
儲存索引延遲 | 每個索引節點在過去兩分鐘內儲存索引檔案所用時間的平均延遲時間和第 99 百分位數。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_save_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_save_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_save_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_save_index_latency | 儲存索引檔案所用的時間。 |