Milvusメトリクスダッシュボード
Milvusは実行時に詳細な時系列メトリクスのリストを出力します。Prometheusと Grafanaを使用してメトリクスを可視化できます。このトピックでは、Grafana Milvusダッシュボードに表示される監視メトリクスを紹介します。
このトピックでの時間単位はミリ秒です。また、本トピックにおける「99パーセンタイル」とは、時間統計の99パーセントが一定値内に制御されていることを指します。
Prometheusのメトリクスを理解するために、まずMilvusモニタリングフレームワークの概要を読むことをお勧めします。
プロキシ
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用するMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
検索ベクトルカウント率 | 過去2分以内に各プロキシが1秒当たりにクエリしたベクターの平均数。 | sum(increase(milvus_proxy_search_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_search_vectors_count | クエリされたベクターの累積数。 |
挿入ベクトル・カウント・レート | 過去2分以内に各プロキシが1秒間に挿入したベクターの平均数。 | sum(increase(milvus_proxy_insert_vectors_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_proxy_insert_vectors_count | 挿入されたベクターの累積数。 |
検索待ち時間 | 過去2分以内に各プロキシが検索リクエストとクエリリリクエストを受信したレイテンシの平均と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_latency | 検索リクエストとクエリーリクエストの待ち時間。 |
コレクション検索の待ち時間 | 過去2分以内に各プロキシが特定のコレクションへの検索およびクエリ要求を受信した際の平均待ち時間と待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) avg: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 特定のコレクションへの検索リクエストとクエリーリクエストの待ち時間 |
変異待ち時間 | 過去2分以内に各プロキシが変異リクエストを受信したレイテンシの平均と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_mutation_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_latency_sum | 変異リクエストの待ち時間。 |
コレクションミューテーションレイテンシ | 過去2分以内に各プロキシが特定のコレクションへの変異リクエストを受信したときの平均待ち時間と待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_collection_sq_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m]))) avg: sum(increase(milvus_proxy_collection_sq_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_collection_sq_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", collection_name=~"$collection"}[2m])) by (pod, node_id, query_type) | milvus_proxy_collection_sq_latency_sum | 特定のコレクションへの突然変異リクエストの待ち時間 |
検索結果待ち時間 | 過去2分以内にプロキシが検索およびクエリーリクエストを送信してから結果を受信するまでの待ち時間の平均値と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_wait_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_sq_wait_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_wait_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_wait_result_latency | 検索およびクエリーリクエストを送信してから結果を受信するまでの待ち時間。 |
検索結果の待ち時間の短縮 | 過去 2 分間における、プロキシによる検索結果とクエリ結果の集計の平均待ち時間と待ち時間の 99 パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_reduce_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均: sum(increase(milvus_proxy_sq_reduce_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_reduce_result_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_reduce_result_latency | 各クエリノードから返された検索結果とクエリ結果を集約する際の待ち時間。 |
検索結果のデコード待ち時間 | 過去2分以内にプロキシが検索結果とクエリ結果をデコードした際のレイテンシの平均値と99パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_proxy_sq_decode_result_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均: sum(increase(milvus_proxy_sq_decode_result_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) / sum(increase(milvus_proxy_sq_decode_resultlatency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, query_type) | milvus_proxy_sq_decode_result_latency | 各検索結果とクエリ結果のデコードの待ち時間。 |
Msg Stream Object Num | 過去2分以内に各プロキシが対応する物理トピック上に作成したmsgstreamオブジェクトの平均数、最大数、最小数。 | avg(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_msgstream_obj_num | 各物理トピックに作成された msgstream オブジェクトの数。 |
変異送信待ち時間 | 過去2分以内に各プロキシが挿入または削除要求を送信した平均待ち時間と待ち時間の99パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, msg_type, pod, node_id) (rate(milvus_proxy_mutation_send_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均値: sum(increase(milvus_proxy_mutation_send_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) / sum(increase(milvus_proxy_mutation_send_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, msg_type) | milvus_proxy_mutation_send_latency | 挿入または削除リクエストの送信の待ち時間。 |
キャッシュヒット率 | 過去2分以内のGeCollectionID 、GetCollectionInfo 、GetCollectionSchema を含む操作の1秒あたりの平均キャッシュヒット率。 | sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", cache_state="hit"}[2m])/120) by(cache_name, pod, node_id) / sum(increase(milvus_proxy_cache_hit_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(cache_name, pod, node_id) | milvus_proxy_cache_hit_count | 各キャッシュ読み取り操作のヒット率と失敗率の統計。 |
キャッシュ更新待ち時間 | 過去2分以内のプロキシごとの平均待ち時間とキャッシュ更新待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_cache_update_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_cache_update_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_cache_update_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_cache_update_latency | 毎回キャッシュを更新する際の待ち時間。 |
同期時間 | 各プロキシが対応する物理チャネルで同期したエポックタイムの平均、最大、最小数。 | avg(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_proxy_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_proxy_sync_epoch_time | 各物理チャネルのエポック時間(Unix時間、1970年1月1日から経過したミリ秒)。 物理チャネルとは別にデフォルトの ChannelName がある。 |
PKレイテンシーの適用 | 過去 2 分間の各プロキシによるプライマリキーの適用レイテンシの平均値と 99 パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_pk_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_apply_pk_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_pk_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_pk_latency | プライマリキーを適用する際の待ち時間。 |
タイムスタンプの適用待ち時間 | 過去 2 分間の、各プロキシによるタイムスタンプ適用待ち時間の平均値と 99 パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_proxy_apply_timestamp_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_apply_timestamp_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) / sum(increase(milvus_proxy_apply_timestamp_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id) | milvus_proxy_apply_timestamp_latency | タイムスタンプ適用待ち時間。 |
リクエスト成功率 | 各プロキシが1秒あたりに受け取った成功したリクエストの数で、 リクエストタイプごとの詳細な内訳を示す。可能なリクエストタイプは、DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert など。 | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="success"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | すべてのタイプの受信リクエスト数 | ||
リクエスト失敗率 | 各プロキシが毎秒受信する失敗したリクエストの数で、各リクエストタイプの詳細な内訳。可能なリクエストタイプは、DescribeCollection、DescribeIndex、GetCollectionStatistics、HasCollection、Search、Query、ShowPartitions、Insert など。 | |||
sum(increase(milvus_proxy_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace", status="fail"}[2m])/120) by(function_name, pod, node_id) | milvus_proxy_req_count | すべてのタイプの受信リクエスト数 | ||
リクエストの待ち時間 | 各プロキシが受信した全リクエストの平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id, function_name) (rate(milvus_proxy_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_proxy_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) / sum(increase(milvus_proxy_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (pod, node_id, function_name) | milvus_proxy_req_latency | すべての種類のリクエスト受信の待ち時間 |
挿入/削除リクエストバイトレート | 過去2分間にプロキシが1秒間に受信した挿入リクエストと削除リクエストのバイト数。 | sum(increase(milvus_proxy_receive_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_receive_bytes_count | 挿入リクエストと削除リクエストのカウント。 |
送信バイトレート | 各プロキシが過去2分以内に検索リクエストとクエリリリクエストに応答している間にクライアントに送り返された1秒あたりのバイト数。 | sum(increase(milvus_proxy_send_bytes_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by(pod, node_id) | milvus_proxy_send_bytes_count | 各プロキシが検索リクエストとクエリリクエストに応答している間にクライアントに送り返されたバイト数。 |
ルートコーディネータ
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
プロキシ・ノード数 | 作成されたプロキシの数。 | sum(milvus_rootcoord_proxy_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_proxy_num | プロキシの数。 |
同期時間 | 各物理チャネル(PChannel)の各ルート・コーダが同期したエポック・タイムの平均値、最大値、最小値。 | avg(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_rootcoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_sync_epoch_time | 各物理チャネルのエポック時間(Unix時間、1970年1月1日以降に経過したミリ秒)。 |
DDL リクエスト率 | 過去 2 分間の 1 秒あたりの DDL 要求のステータスと数。 | sum(increase(milvus_rootcoord_ddl_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, function_name) | milvus_rootcoord_ddl_req_count | CreateCollection ,DescribeCollection ,DescribeSegments ,HasCollection ,ShowCollections ,ShowPartitions ,ShowSegments を含む DDL 要求の総数。 |
DDL リクエストの待ち時間 | 過去 2 分間の平均待ち時間と DDL 要求待ち時間の 99 パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, function_name) (rate(milvus_rootcoord_ddl_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均: sum(increase(milvus_rootcoord_ddl_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) / sum(increase(milvus_rootcoord_ddl_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by (function_name) | milvus_rootcoord_ddl_req_latency | すべてのタイプの DDL 要求の待ち時間。 |
同期タイムティック・レイテンシ | ルートコーディネータが過去2分以内にすべてのタイムスタンプをPChannelに同期するために使用した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_rootcoord_sync_timetick_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_rootcoord_sync_timetick_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_rootcoord_sync_timetick_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_rootcoord_sync_timetick_latency | ルートコーディネータがすべてのタイムスタンプをPCチャネルに同期するために使用した時間。 |
ID割り当て率 | 過去2分間にroot coordが割り当てたIDの数。 | sum(increase(milvus_rootcoord_id_alloc_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) | milvus_rootcoord_id_alloc_count | root coordが割り当てたIDの累積数。 |
タイムスタンプ | root coordの最新のタイムスタンプ。 | milvus_rootcoord_timestamp{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp | ルートコーデックの最新のタイムスタンプ。 |
保存されたタイムスタンプ | root coordがメタストレージに保存する、事前に割り当てられたタイムスタンプ。 | milvus_rootcoord_timestamp_saved{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"} | milvus_rootcoord_timestamp_saved | root coordがメタストレージに保存する事前に割り当てられたタイムスタンプ。 タイムスタンプは3秒前に割り当てられる。そしてタイムスタンプは50ミリ秒ごとに更新され、メタストレージに保存される。 |
コレクション数 | コレクションの総数。 | sum(milvus_rootcoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_collection_num | 現在Milvusに存在するコレクションの総数。 |
パーティション数 | パーティションの総数。 | sum(milvus_rootcoord_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_partition_num | 現在Milvusに存在するパーティションの総数。 |
DMLチャンネル数 | DMLチャンネルの総数。 | sum(milvus_rootcoord_dml_channel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_dml_channel_num | 現在Milvusに存在するDMLチャンネルの総数。 |
Msgstream Num | Msgstreamの総数。 | sum(milvus_rootcoord_msgstream_obj_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_msgstream_obj_num | 現在Milvusに存在するMsgstreamの総数。 |
クレデンシャル数 | クレデンシャルの総数。 | sum(milvus_rootcoord_credential_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_credential_num | 現在のMilvusにおけるクレデンシャルの総数。 |
時間ティック遅延 | すべてのDataNodesおよびQueryNodes上のフローグラフの最大時間刻み遅延の合計。 | sum(milvus_rootcoord_time_tick_delay{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_rootcoord_time_tick_delay | 各DataNodeとQueryNodeのフローグラフの最大時間刻み遅延。 |
クエリ・コーディネータ
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
コレクション・ロード数 | 現在メモリにロードされているコレクションの数。 | sum(milvus_querycoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_collection_num | Milvusによって現在ロードされているコレクションの数。 |
エンティティのロード数 | 現在メモリにロードされているエンティティの数。 | sum(milvus_querycoord_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_entitiy_num | Milvusによって現在ロードされているエンティティの数。 |
ロード要求レート | 過去2分間の1秒あたりのロードリクエスト数。 | sum(increase(milvus_querycoord_load_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])120) by (status) | milvus_querycoord_load_req_count | 累積ロードリクエスト数。 |
リリース要求率 | 過去2分以内の1秒あたりのリリース要求数。 | sum(increase(milvus_querycoord_release_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_querycoord_release_req_count | 累積リリースリクエスト数。 |
負荷要求待ち時間 | 過去2分以内の負荷要求待ち時間の平均と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_load_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querycoord_load_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_load_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_load_latency | 負荷要求を完了するのに使用される時間。 |
リリース要求待ち時間 | 過去2分以内の平均待ち時間とリリース要求待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_release_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querycoord_release_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_release_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) | milvus_querycoord_release_latency | リリース要求の完了に使用された時間。 |
サブロードタスク | サブロードタスクの数。 | sum(milvus_querycoord_child_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_child_task_num | サブロードタスクの数。 クエリコーデックは負荷要求を複数のサブ負荷タスクに分割する。 |
親ロードタスク | 親ロードタスクの数。 | sum(milvus_querycoord_parent_task_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_parent_task_num | サブ負荷タスクの数。 各負荷要求はタスクキュー内の親タスクに対応する。 |
サブ負荷タスクの待ち時間 | 過去2分以内のサブロードタスクの平均待ち時間と待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le) (rate(milvus_querycoord_child_task_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querycoord_child_task_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) / sum(increase(milvus_querycoord_child_task_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) namespace"}[2m]))) | milvus_querycoord_child_task_latency | サブロードタスクを完了するまでの待ち時間。 |
クエリノード数 | クエリ・コーデックが管理するクエリ・ノードの数。 | sum(milvus_querycoord_querynode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_querycoord_querynode_num | クエリコーデックが管理するクエリノードの数。 |
クエリノード
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvus メトリクスの説明 |
---|---|---|---|---|
コレクション・ロード数 | 各クエリ・ノードがメモリにロードしたコレクションの数。 | sum(milvus_querynode_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_collection_num | 各クエリ・ノードによってロードされたコレクションの数。 |
パーティション・ロード数 | 各クエリ・ノードがメモリにロードしたパーティションの数。 | sum(milvus_querynode_partition_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_partition_num | 各クエリ・ノードによってロードされたパーティションの数。 |
セグメント・ロード数 | 各クエリ・ノードがメモリにロードしたセグメントの数。 | sum(milvus_querynode_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_segment_num | 各クエリノードがロードしたセグメントの数。 |
クエリ可能なエンティティ数 | 各クエリノードで検索可能なエンティティの数。 | sum(milvus_querynode_entity_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_entity_num | 各クエリ・ノードでクエリ可能および検索可能なエンティティの数。 |
DML仮想チャネル | 各クエリ・ノードが監視している DML 仮想チャネルの数。 | sum(milvus_querynode_dml_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_dml_vchannel_num | 各クエリ・ノードが監視している DML 仮想チャネルの数。 |
デルタ仮想チャネル | 各クエリ・ノードが監視しているデルタ・チャネルの数。 | sum(milvus_querynode_delta_vchannel_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_delta_vchannel_num | 各クエリ・ノードが監視するデルタ・チャネルの数。 |
コンシューマ数 | 各クエリ・ノードのコンシューマの数。 | sum(milvus_querynode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_consumer_num | 各クエリノードのコンシューマの数。 |
検索リクエスト率 | 各クエリノードが1秒間に受信した検索およびクエリ要求の総数と、過去2分以内に成功した検索およびクエリ要求の数。 | sum(increase(milvus_querynode_sq_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (query_type, status, pod, node_id) | milvus_querynode_sq_req_count | 検索およびクエリーリクエストの累積数。 |
検索リクエストの待ち時間 | 各クエリ・ノードが過去2分以内に検索およびクエリ・リクエストに使用した時間の平均待ち時間と99パーセンタイル。 このパネルには、ステータスが "success "または "total "の検索およびクエリーリクエストの待ち時間が表示されます。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_sq_req_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均値: sum(increase(milvus_querynode_sq_req_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_req_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_req_latency | クエリノードの検索リクエストの待ち時間。 |
キュー内検索待ち時間 | 過去2分以内のキュー内の検索リクエストとクエリーリクエストの平均待ち時間と待ち時間の99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_queue_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_sq_queue_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_queue_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_queue_latency | クエリノードが受信した検索リクエストとクエリリリクエストの待ち時間。 |
検索セグメントの待ち時間 | 各クエリ・ノードが過去2分以内にセグメントの検索とクエリに要した時間の平均レイテンシと99パーセンタイル。 セグメントのステータスは、sealed または growing のいずれか。 | p99:histogram_quantile(0.99, sum by (le, query_type, segment_state, pod, node_id) (rate(milvus_querynode_sq_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_sq_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) / sum(increase(milvus_querynode_sq_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type, segment_state) | milvus_querynode_sq_segment_latency | 各クエリノードが各セグメントの検索とクエリにかかる時間。 |
セグコア・リクエスト・レイテンシー | 各クエリノードが過去2分以内にセグコアの検索とクエリに要した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, query_type, pod, node_id) (rate(milvus_querynode_sq_core_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_sq_core_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_core_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_core_latency | 各クエリノードが segcore での検索とクエリにかかる時間。 |
検索削減レイテンシー | 過去2分以内に各クエリノードが検索やクエリのリデュースステージで使用した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id, query_type) (rate(milvus_querynode_sq_reduce_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_sq_reduce_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) / sum(increase(milvus_querynode_sq_reduce_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id, query_type) | milvus_querynode_sq_reduce_latency | 各クエリがリデュースの段階で費やす時間。 |
ロードセグメントの待ち時間 | 各クエリノードが過去2分間にセグメントをロードするのに要した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_load_segment_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_load_segment_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_load_segment_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 各クエリノードがセグメントをロードするのにかかる時間。 |
フローグラフ数 | 各クエリ・ノードのフローグラフの数。 | sum(milvus_querynode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_flowgraph_num | 各クエリ・ノードのフローグラフの数。 |
未解決読み取りタスクの長さ | 各クエリ・ノードにおける未解決の読み取り要求のキューの長さ。 | sum(milvus_querynode_read_task_unsolved_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_unsolved_len | 未解決の読み取り要求のキューの長さ。 |
レディ・リード・タスクの長さ | 各クエリノードで実行される読み込み要求のキューの長さ。 | sum(milvus_querynode_read_task_ready_len{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_ready_len | 実行される読み込み要求のキューの長さ。 |
並列読み取りタスク数 | 各クエリ・ノードで現在実行されている同時並行読み取り要求の数。 | sum(milvus_querynode_read_task_concurrency{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_read_task_concurrency | 現在実行されている同時読み取り要求の数。 |
推定CPU使用率 | スケジューラが推定した各クエリノードのCPU使用率。 | sum(milvus_querynode_estimate_cpu_usage{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_querynode_estimate_cpu_usage | スケジューラが推定した各クエリノードのCPU使用率。 値が100の場合、仮想CPU(vCPU)全体が使用されていることを意味する。 |
検索グループサイズ | 過去 2 分間の検索グループサイズ(各クエリノードが実行した検索リクエストを合計したオリジナル検索リクエストの総数)の平均値と 99 パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 異なるバケツからの検索タスクのうち、オリジナルの検索タスクの数(検索グループサイズ)。 |
検索 NQ | 各クエリノードが過去2分間に検索リクエストを実行したクエリ数(NQ)の平均値と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_size_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_group_size_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_size_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 検索リクエストのクエリー数(NQ)。 |
検索グループ NQ | 各クエリーノードが過去2分以内に実行した検索リクエストの平均数とNQの99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_nq_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_group_nq_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_nq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | 異なるバケツからの検索リクエストを合計した NQ。 |
検索トップ | 各クエリノードが過去2分以内に実行した検索リクエストのTop_K の平均数と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | Top_K 検索リクエストの数。 |
検索グループ Top_K | 過去2分以内に各クエリーノードが実行した検索リクエストのTop_K を合計した平均数と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_querynode_search_group_topk_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_querynode_search_group_topk_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_querynode_search_group_topk_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_querynode_load_segment_latency_bucket | Top_K 異なるバケツからの検索リクエストの組み合わせ。 |
退避された読み込みリクエスト数 | 過去2分以内に各クエリノードが1秒間に退避させた読み込みリクエスト数。 | sum(increase(milvus_querynode_read_evicted_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_querynode_sq_req_count | トラフィック制限のためにクエリノードが退避させた読み込みリクエストの累積数。 |
データコーディネータ
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
データノード数 | データ・コーディネータが管理するデータ・ノードの数。 | sum(milvus_datacoord_datanode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_datanode_num | データ・コーデックが管理するデータ・ノードの数。 |
セグメント数 | data coordataによってメタデータに記録されたすべてのタイプのセグメントの数。 | sum(milvus_datacoord_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (segment_state) | milvus_datacoord_segment_num | データ・コーディネータによってメタデータに記録されたすべてのタイプのセグメントの数。 セグメントの種類には、ドロップ、フラッシュ、フラッシング、グロース、シーリングが含まれる。 |
コレクション数 | メタデータに記録されたコレクションの数。 | sum(milvus_datacoord_collection_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_collection_num | データ・コーデックによってメタデータに記録されたコレクションの数。 |
蓄積行数 | データ・コーデック内の有効およびフラッシュされたデータの累積行数。 | sum(milvus_datacoord_stored_rows_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_rows_num | データ・コーデック内の有効なデータとフラッシュされたデータの累積行数。 |
保存行数レート | 過去2分間にフラッシュされた1秒あたりの平均行数。 | sum(increase(milvus_datacoord_stored_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (pod, node_id) | milvus_datacoord_stored_rows_count | データ・コーデックでフラッシュされた行の累積数。 |
同期時間 | 各物理チャネルの data coord で同期されたエポック・タイムの平均、最大、最小。 | avg(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) max(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) min(milvus_datacoord_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_sync_epoch_time | 各物理チャネルのエポック時間(Unix時間、1970年1月1日以降に経過したミリ秒)。 |
保存ビンログサイズ | 保存されているビンログの合計サイズ。 | sum(milvus_datacoord_stored_binlog_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_datacoord_stored_binlog_size | Milvusに保存されているbinlogの合計サイズ。 |
データノード
パネル | パネルの説明 | PromQL(プロメテウス・クエリー言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
フローグラフ数 | 各データ・ノードに対応するフローグラフ・オブジェクトの数。 | sum(milvus_datanode_flowgraph_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_flowgraph_num | フローグラフ・オブジェクトの数。 コレクション内の各シャードはフローグラフ・オブジェクトに対応する。 |
Msg行消費率 | 各データ・ノードが過去2分間に1秒間に消費したストリーミング・メッセージの行数。 | sum(increase(milvus_datanode_msg_rows_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_msg_rows_count | 消費されたストリーミング・メッセージの行数。 現在、データ・ノードごとにカウントされるストリーミング・メッセージには、挿入メッセージと削除メッセージのみが含まれます。 |
フラッシュ・データ・サイズ・レート | 過去2分間に各データノードが1秒間に記録した各フラッシュ・メッセージのサイズ。 | sum(increase(milvus_datanode_flushed_data_size{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (msg_type, pod, node_id) | milvus_datanode_flushed_data_size | 各フラッシュ・メッセージのサイズ。 現在、データ・ノードごとにカウントされるストリーミング・メッセージには、挿入メッセージと削除メッセージのみが含まれます。 |
コンシューマー数 | 各データ・ノードで作成されたコンシューマの数。 | sum(milvus_datanode_consumer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_consumer_num | 各データ・ノードに作成されたコンシューマの数。 各フローグラフがコンシューマに対応する。 |
プロデューサー数 | 各データ・ノードに作成されたプロデューサの数。 | sum(milvus_datanode_producer_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_producer_num | 各データ・ノードに作成されたコンシューマの数。 コレクション内の各シャードは、デルタ・チャネル・プロデューサーとタイムティック・チャネル・プロデューサーに対応する。 |
同期時間 | すべての物理トピックで各データ・ノードが同期したエポック・タイムの平均、最大、最小数。 | avg(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) max(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) min(milvus_datanode_sync_epoch_time{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_sync_epoch_time | データ・ノード上の各物理トピックのエポック時間(Unix時間、1970年1月1日以降に経過したミリ秒)。 |
未フラッシュセグメント数 | 各データ・ノードで作成された未フラッシュ・セグメントの数。 | sum(milvus_datanode_unflushed_segment_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (pod, node_id) | milvus_datanode_unflushed_segment_num | 各データノードで作成されたフラッシュされていないセグメントの数。 |
エンコード・バッファ・レイテンシ | 過去2分以内に各データノードがバッファのエンコードに使用した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_encode_buffer_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_datanode_encode_buffer_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_encode_buffer_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_encode_buffer_latency | 各データノードがバッファをエンコードするのにかかる時間。 |
セーブデータレイテンシ | 各データノードが過去2分以内にストレージレイヤーにバッファを書き込むのに要した時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_save_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_datanode_save_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_save_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_save_latency | 各データノードがストレージレイヤーにバッファを書き込むのにかかる時間。 |
フラッシュオペレート | 各データノードが過去2分以内に1秒間にバッファをフラッシュした回数。 | sum(increase(milvus_datanode_flush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_buffer_op_count | データ・ノードがバッファをフラッシュした累積回数。 |
オートフラッシュ・オペレート | 各データノードが過去2分以内に1秒間にバッファを自動フラッシュした回数。 | sum(increase(milvus_datanode_autoflush_buffer_op_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_autoflush_buffer_op_count | データ・ノードがバッファを自動フラッシュする累積回数。 |
フラッシュ要求レート | 各データ・ノードが過去2分以内に1秒間にバッファ・フラッシュ要求を受信した回数。 | sum(increase(milvus_datanode_flush_req_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_datanode_flush_req_count | データ・ノードがデータ・コーデックからフラッシュ要求を受信した累積回数。 |
コンパクション・レイテンシ | 各データノードが過去2分以内にコンパクションタスクを実行するのにかかった時間の平均レイテンシと99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_datanode_compaction_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_datanode_compaction_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_datanode_compaction_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_datanode_compaction_latency | 各データノードがコンパクションタスクを実行するのにかかる時間。 |
インデックス・コーディネータ
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
インデックス要求率 | 過去2分間に受信したインデックス構築リクエストの1秒あたりの平均数。 | sum(increase(milvus_indexcoord_indexreq_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status) | milvus_indexcoord_indexreq_count | 受信したインデックス構築リクエスト数。 |
インデックス・タスク数 | インデックス・メタデータに記録されたすべてのインデックス作成タスクの数。 | sum(milvus_indexcoord_indextask_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (index_task_status) | milvus_indexcoord_indextask_count | インデックスメタデータに記録されているすべてのインデックス作成タスクの数。 |
インデックスノード数 | 管理インデックスノードの数。 | sum(milvus_indexcoord_indexnode_num{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}) by (app_kubernetes_io_instance) | milvus_indexcoord_indexnode_num | 管理インデックスノードの数。 |
インデックス・ノード
パネル | パネルの説明 | PromQL(プロメテウス・クエリ言語) | 使用されるMilvusメトリクス | Milvusメトリクスの説明 |
---|---|---|---|---|
インデックスタスクレート | 過去2分間に各インデックスノードが受信したインデックス作成タスクの1秒あたりの平均数。 | sum(increase(milvus_indexnode_index_task_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])/120) by (status, pod, node_id) | milvus_indexnode_index_task_count | 受信したインデックス構築タスクの数。 |
負荷フィールドの待ち時間 | 過去 2 分間に各インデックス・ノードがセグメント・フィールド・データをロードするために使用した時間の平均レイテンシと 99 パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_load_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均: sum(increase(milvus_indexnode_load_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_load_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_load_field_latency | インデックスノードがセグメントフィールドデータのロードに使用した時間。 |
デコードフィールドレイテンシー | 過去 2 分間に各インデックスノードがフィールドデータをエンコードするために使用した時間の平均 レイテンシと 99 パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_decode_field_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_decode_field_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_decode_field_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_decode_field_latency | フィールドデータのデコードに使用された時間。 |
インデックスの構築待ち時間 | 各インデックスノードが過去2分以内にインデックスを構築するために使用した時間の平均待ち時間と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_build_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_build_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_build_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_build_index_latency | インデックスの構築に使用された時間。 |
エンコード・インデックスの待ち時間 | 各インデックスノードが過去2分以内にインデックスファイルのエンコードに使用した時間の平均待ち時間と99パーセンタイル。 | P99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_encode_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) 平均: sum(increase(milvus_indexnode_encode_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_encode_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_encode_index_latency | インデックスファイルのエンコードに使用された時間。 |
インデックスの保存待ち時間 | 各インデックスノードが過去2分以内にインデックスファイルを保存するために使用した時間の平均待ち時間と99パーセンタイル。 | p99:histogram_quantile(0.99, sum by (le, pod, node_id) (rate(milvus_indexnode_save_index_latency_bucket{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m]))) avg: sum(increase(milvus_indexnode_save_index_latency_sum{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) / sum(increase(milvus_indexnode_save_index_latency_count{app_kubernetes_io_instance=~"$instance", app_kubernetes_io_name="$app_name", namespace="$namespace"}[2m])) by(pod, node_id) | milvus_indexnode_save_index_latency | インデックスファイルの保存に使用された時間。 |