关于监控系统个人总结与思考

网友投稿 257 2022-11-02

关于监控系统个人总结与思考

对于不同企业、不同岗位、不同的人对监控系统的定义、以及需求可能都不太一样。这里分享一下个人对监控系统的一些总结与思考。

个人觉得,监控的核心就是对问题的处理流程,这个应该是不变的,而流程是发现问题->定位问题->发送问题->解决问题->总结问题。

发现问题:当被监控实例超出策略阈值,或接收到该实例上报的故障日志,系统会分别收集到延迟发送消息池和告警消息库。

定位问题:系统对延迟发送消息池进行分析。比如一台主机不可用,那么有可能是CPU、内存、硬盘、网络一个或多个问题引起的,系统需要在消息池里面,对该主机接收的所有消息进行故障原因分析。

发送问题:根据沉默通道规则,系统会对告警实例的内容以及具体原因,进行收敛、聚合。通过不同的途径,发送到不同的接收人。

解决问题:当接收人收到告警后,按照问题解决流程进行对问题的解决。

总结问题:当运维人员解决实例故障后,需要对故障原因进行归纳总结,避免再次发生。

因此,我们应该对问题处理流程上持续优化改进。

1.更快速地发现问题;

2.更全面地定位问题;

3.更好地收敛、降噪、信息聚合;

4.更高效地通知,更有效地确保信息的接收;

5.更好地帮助用户解决问题;

为用户提供更完整,可读性更高,查询性能更快的日志。

而对于不同的使用场景,其实我们要做好、做精的,其实就以下几个点:性能、监控种类、易维护、易部署、易用、易扩容。只要这几点都做好了,对于各种不同使用场景其实都能“通吃”。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:localstack 试用
下一篇:利用线程局部存储技术实现全局变量局部化的多通道数控系统仿真
相关文章

 发表评论

暂时没有评论,来抢沙发吧~