Zadig 工作流如何联动 Grafana 进行服务监测

Zadig 无缝联动 Grafana,实现运维自动化与高效监控 📈

cover.png

服务监控在现代软件运维中扮演着至关重要的角色,确保了系统的稳健运行。Grafana 作为一款全面开源的监控工具,以其强大的数据整合和可视化分析能力,为多源数据提供了深度洞察。Zadig 作为云原生 DevOps 平台,以其敏捷且可扩展的自动化工作流引擎,将软件交付中的业务、配置和数据变更任务管道化、自助化。

通过将 Zadig 与 Grafana 的监控能力紧密结合,我们能够显著提高系统异常的实时响应速度。本文将介绍如何实现 Zadig 与 Grafana 的无缝联动,保障服务变更后的持续监控,赋予运维团队更大的灵活性和控制力,确保系统的持续稳定。

# Zadig 集成 Grafana

  1. 访问 Grafana,创建 service account,角色配置为 Viewer ,然后添加并获取 Token。

01.png

02.png

03.png

04.png

  1. 访问 Zadig,前往 系统设置 -> 系统集成 -> 监控系统,添加 Grafana 的相关信息。

05.png

06.png

# 工作流配置监测任务

在生产发布工作流中添加 Grafana 监测任务,并选择相应的警报规则。

07.png

08.png

说明:

  • 监测时间:警报规则监测时间,若在监测时间内结果异常,则工作流监测任务失败

  • 警报规则:可选择多个 Grafana 上预设的警报规则

  • 失败策略:根据不同的监测等级和监测场景选择不同的失败策略

    • 单个监控异常任务立即失败:只要有一个监测器结果异常,工作流监测任务立即失败
    • 所有监控完成后异常时任务失败:所有监测器执行完毕后出现异常结果,工作流监测任务才为失败

# 工作流通知与告警

选择对应的服务和版本执行工作流,当变更过程中发现异常,工作流将迅速提供反馈。此外,利用工作流的通知 (opens new window)能力,可在即时通信(IM)、邮件或自建通知系统上实时接收到错误结果,确保问题能够及时得到关注和解决。

09.png

10.png

11.png

# 总结

Zadig 与 Grafana 的强强联合极大提升了服务监控的自动化与响应速率。这种集成使我们能够实时捕捉服务变更的任何影响,并通过自动化警报机制,确保问题得到及时识别与解决。同时,它增强了对服务性能的持续监管,通过自动化流程和即时警报,增强了服务的稳定性与可靠性,保障了业务的流畅运行,并显著提升了客户满意度。

Background Image

作为一名软件工程师,我们一直给各行各业写软件提升效率,但是软件工程本身却是非常低效,为什么市面上没有一个工具可以让研发团队不这么累,还能更好、更快地满足大客户的交付需求?我们是否能够打造一个面向开发者的交付平台呢?我们开源打造 Zadig 正是去满足这个愿望。

—— Zadig 创始人 Landy