首页  杂七杂八  正文

如何编写运维常用监控脚本？

2025.5.29 33blog 杂七杂八 728

本文详细讲解运维监控脚本的编写方法，包括Bash/Python实现基础监控、关键指标采集、告警逻辑设计以及性能优化技巧，帮助运维工程师构建高效可靠的监控体系。

一、监控脚本的核心设计原则

编写运维监控脚本时需遵循以下原则：

低侵入性：不影响被监控系统正常运行

可扩展性：方便添加新的监控指标

容错机制：异常处理和数据校验必不可少

性能优化：控制资源消耗在合理范围

二、Bash脚本实现基础监控

以下是磁盘空间监控的经典实现：

!/bin/bash 磁盘空间监控脚本 THRESHOLD=90 CURRENT=$(df / | grep / | awk '{ print $5 }' | sed 's/%//g') if [ "$CURRENT" -gt "$THRESHOLD" ]; then echo "警告：根分区使用率 ${CURRENT}% 超过阈值 ${THRESHOLD}%" 可添加邮件/钉钉告警逻辑 exit 1 fi exit 0

三、Python实现高级监控功能

使用psutil库实现多指标监控：

import psutil import smtplib from email.mime.text import MIMEText def check_system(): alerts = [] CPU检查 if psutil.cpu_percent(interval=1) > 80: alerts.append("CPU使用率超过80%") 内存检查 mem = psutil.virtual_memory() if mem.percent > 85: alerts.append(f"内存使用率{mem.percent}%") return alerts def send_alert(alerts): if alerts: msg = MIMEText("n".join(alerts)) msg['Subject'] = '系统监控告警' 配置SMTP发送逻辑 smtp.sendmail(...) if __name__ == '__main__': alerts = check_system() send_alert(alerts)

四、关键监控指标采集

监控类别常用指标采集方法

系统资源 CPU/内存/磁盘/网络 top/vmstat/iostat

服务状态端口/进程/日志 netstat/pgrep/grep

业务指标请求量/成功率/延迟应用日志/埋点

五、告警机制最佳实践

分级告警：区分紧急/重要/提示等级

聚合通知：相同告警合并发送

恢复通知：问题解决后发送恢复确认

静默期：避免短时间重复告警

六、性能优化技巧

使用缓存减少重复查询（如将多次使用的df结果存入变量）

批量执行命令（避免多次SSH连接）

异步处理非关键指标

合理设置执行间隔（关键指标1分钟，次要指标5分钟）

通过以上方法，可以构建出高效可靠的运维监控体系。建议将脚本纳入版本控制，并定期审查优化。

监控类别	常用指标	采集方法
系统资源	CPU/内存/磁盘/网络	top/vmstat/iostat
服务状态	端口/进程/日志	netstat/pgrep/grep
业务指标	请求量/成功率/延迟	应用日志/埋点

上一篇 Linux 文件权限与 chmod/chown 详解

下一篇部署 Redis 高可用方案（主从 + Sentinel）实战指南

相关推荐Python编程/Shell脚本/系统管理/自动化运维/运维监控

网站安全巡检自动脚本配置指南
11个月前121120
使用 Ansible 实现批量主机管理：高效运维的自动化利器
11个月前81935
Shell 脚本中常用运维逻辑模板
11个月前82016
一键部署 Docker 应用环境：高效开发与运维的终极解决方案
11个月前141612
Ansible最佳实践：如何编写可维护、可复用的角色与Playbook
4个月前7529
配置主机名与 DNS 解析的方法
11个月前181358

评论

有人回复时邮件通知我
Δ

取消回复

图文推荐

解决《巫师3》游戏卡顿问题的几种方式
2025-9-11

Linux 下如何优雅地切换多个网络配置文件
2025-7-7

移动宽带公网IP申请方法和注意事项
2025-7-18

使用Rank Math设置TDK模板，让每篇文章更SEO
2025-6-23

网站突然502，PHP进程全挂了，原因竟然是日志暴涨
2025-6-23

换一批

浏览排行点赞排行评论排行

1魔改显卡驱动和安装教程（RTX2060/2080/3060/3070Ti等全覆盖）
2如何让V2Ray节点支持IPv6访问？
3星露谷物语MOD影响联机吗
4V2Ray配置分流规则实现国内外加速完全指南
52025年6月装机配置推荐（2000~10000元全覆盖）
6《我的世界》离线单机模式设置方法
7Switch联机模拟器Ryujinx设置全攻略
8泰拉瑞亚联机延迟高修复经验
9《炉石传说》卡顿的原因及解决方案
10游戏加速器原理与自建方法：从理论到实践指南
1烟草味烟油真的能还原香烟吗？
2水果味烟油为什么这么受欢迎？
3烟油是什么做的？常见成分详解
4YouTube Premium 家庭订阅共享经验
5Luma App Pro 功能解锁教程
6Luma 视频增强效果实测，真有那么清晰？
7Midjourney 画质升级后体验如何？值得继续订阅吗
8Trojan 与 Xray 协议兼容性的实际测试结果
9在群晖 NAS 上部署 V2Ray 服务的安全方案
10Fabric服务端高玩家数量管理
1解决《巫师3》游戏卡顿问题的几种方式
2Linux 下如何优雅地切换多个网络配置文件
3移动宽带公网IP申请方法和注意事项
4使用Rank Math设置TDK模板，让每篇文章更SEO
5网站突然502，PHP进程全挂了，原因竟然是日志暴涨
6宝塔9.6版本安全设置全面解读
7宝塔定时任务不起作用？教你一招快速验证
8如何写出搜索引擎喜欢的文章标题？经验汇总
9路由器开启IPv6后网站局域网访问异常的处理经验
10用服务器搭建我的世界私服，新手也能搞定

标签云

云服务器评测
国内云主机对比
阿里云 vs 腾讯云
华为云性能测试
慢查询分析
云服务商对比
国内云服务器
网络线路评测
阿里云腾讯云华为云
云主机选择指南
邮件警报
异常登录监控
UTF-8编码
白名单设置
运维教程