为 Milvus 服务创建警报
本主题介绍 Milvus 服务的警报机制,并解释在 Milvus 中创建警报的原因、时间和方法。
通过创建警报,当特定指标值超过预定义的阈值时,您就可以收到通知。
例如,创建警报并将 80 MB 设置为 Milvus 组件内存使用的最大值。如果实际使用量超过了预定义的数字,你就会收到警报,提醒你 Milvus 组件的内存使用量超过了 80 MB。收到警报后,您可以及时调整相应的资源分配,以确保服务的可用性。
创建警报的场景
以下是一些需要创建警报的常见情况。
- Milvus 组件的 CPU 或内存使用率过高。
- Milvus 组件 pod 的磁盘空间不足。
- Milvus 组件 pod 重启过于频繁。
以下指标可用于警报配置:
指标 | 描述 | 度量单位 |
---|---|---|
CPU 使用量 | Milvus 组件的 CPU 占用率,由 CPU 的运行时间表示。 | 秒 |
内存 | Milvus 组件消耗的内存资源。 | MB |
程序 | 用 GO 语言并发执行的活动。 | / |
操作系统线程 | 线程或操作系统中的轻量级进程。 | / |
进程打开的文件 | 当前使用的文件描述符数量。 | / |
设置警报
本指南以创建 Milvus 组件内存使用警报为例。要创建其他类型的警报,请相应调整命令。如果在创建过程中遇到任何问题,请随时到Milvus 论坛提问或在Slack 上发起讨论。
前提条件
本教程假定您已安装并配置了 Grafana。如果没有,建议阅读监控指南。
1.添加新查询
要为 Milvus 组件的内存使用情况添加警报,请编辑内存面板。然后,添加一个带有度量的新查询:process_resident_memory_bytes{app_kubernetes_io_name="milvus", app_kubernetes_io_instance=~"my-release", namespace="default"}
Alert_metric
2.保存仪表盘
保存仪表盘,等待几分钟就能看到警报。
警报仪表盘
Grafana 警报查询不支持模板变量。因此,应添加第二个查询,标签中不包含任何模板变量。第二个查询默认命名为 "A"。您可以点击下拉菜单重新命名。
警报查询
3.添加警报通知
要接收警报通知,请添加一个 "通知通道"。然后在 "发送至 "字段中指定通道。
警报通知
如果警报成功创建并触发,您将收到如下截图所示的通知。
通知信息
要删除警报,请进入 "警报 "面板并点击删除按钮。
删除警报
下一步
- 如果您需要开始监控 Milvus 服务:
- 如果您已经创建了 Milvus 组件内存使用警报:
- 了解如何分配资源
- 如果你正在寻找有关如何扩展 Milvus 集群的信息:
- 了解如何扩展 Milvus 集群