监控 – 第 14 页 – 芜湖站长网

利用Shell脚本完善邮件监控Linux系统的内存

Linux dawei 2021年5月18日

使用Free命令监控系统内存 1、使用free命令查看linux系统内存使用情况：(以M为单位) # free -m （执行结果如下样式） totalused free sharedbufferscached Mem:395234145380168484 -/+buffers/cache:27601191 Swap:8191868105 2、查看截取剩余内存free的数值

监控大规模Hadoop集群，Prometheus大获全胜Zabbix？

大数据 dawei 2021年5月18日

随着公司业务发展，大数据集群规模正在不断扩大，一些大型集群物理机节点甚至已近上千。面对如此规模庞大的集群，一套优秀的监控系统是运维人员发现及处理故障的关键利器。经过多次选型和迭代，笔者选择了Prometheus，这款时下火热而强大的开源监控组件为核

SLI/SLO衡量系统的稳定性的监控展示

教程 dawei 2021年5月16日

SLI，全名Service Level Indicator，是服务等级指标的简称，它是衡定系统稳定性的指标。 SLO，全名Sevice Level Objective，是服务等级目标的简称，也就是我们设定的稳定性目标，比如4个9，5个9等。 SRE通常通过这两个指标来衡量系统的稳定性，其主要思路就

实用分享：实时监控Linux服务器性能的工具

Linux dawei 2021年5月15日

dstat 是一款生成Linux系统资源统计信息的功能强大、灵活和通用的工具，可以替代vmstat，iostat，netstat和ifstat这些命令的多功能产品。dstat克服了这些命令的局限并增加了一些另外的功能，增加了监控项，也变得更灵活了。dstat可以很方便监控系统运行状况

书本上没有的：万台服务器下运维怎样做好监控？

经验 dawei 2021年5月14日

异常检测在运维实践中有着举足轻重的地位，实时、准确的发现异常能够帮助我们及时采取行动，最大限度减少故障的损失。在监控领域中，其实最重要的一点是要能够通过一些监控指标发现问题，当我们的系统越来越大越来越复杂的时候，想从繁杂的指标当中，几百个

运维监控做到什么程度，就达到 BATJ 的水准了？

经验 dawei 2021年5月14日

疑问：为什么需要对上报方案有要求呢？解读：比如腾讯内部的自研日志监控系统CMS，对拥有多种采集方案Agent、SDK、Kafka、ES等，各种不同的采集方案应对不同的场景 Agent：类似filebeat，指定服务器的具体路径，对文件的inode节点进行侦听，发现新增立即

云“战疫”：8天扩容100万核，我们是这样跟踪的

经验 dawei 2021年5月14日

常见的监控手段为阈值监控，对业务形态比较熟练的开发、运维人员在指标上设置一个恰当的阈值，一旦偏离阈值，系统即发送告警到开发人员。然而阈值设置的合理性不易判断。在数千万、上亿用户的场景下，阈值少设或多设 0.01% 都代表数千、上万人的体验受损，

遍布全球数十个国家，千亿级的监控体系是这样炼成的

经验 dawei 2021年5月14日

首先是游戏架构的变迁，从最开始的单机架构，扩展到分布式架构。也就是说，玩家看到一个游戏服，在后面会有十几台机器，有的甚至多达百台机器，取决于玩法不同。后来，很多游戏的开发接触到微服务的概念，开始逐渐的把游戏里面比如大厅、聊天服务从游戏的核

银行监控报警系统性能大幅度变强，用的全是开源组件

经验 dawei 2021年5月14日

报警接入和预处理：对各种不同来源和协议的报警的原始数据解析为统一的报警记录；报警丰富：在报警处理过程中根据cmdb等配置信息库的管理信息，对原始报警的内容进行信息补充和完善的功能；报警维护期：应对日常变更、切换演练以及故障临时处置等场景下

Kubernetns 容器与VM的编排与监控真枪实战

资讯 dawei 2021年5月13日

开始之前我在开发集群中使用Ubuntu 20.04和两个裸机服务器。尽管我在第1步中对如何创建类似的开发集群进行了解释，但是如果您已经选择了其他Kubernetes或OpenShift环境，则可以安全地跳过它。要求：至少一台具有2个CPU，4GB Ram和20GB存储空间的主机 kube