优秀Linux运维脚本案例推荐
优秀Linux运维脚本案例推荐
实用且高质量的运维脚本案例,涵盖系统监控、自动化维护、日志处理等多个方面。
这些脚本根据实际需求进行调整和组合,建议从简单功能开始,逐步构建自己的运维脚本库。
一、系统监控类脚本
1. 综合系统监控脚本 (Python/Shell混合)
功能:监控CPU、内存、磁盘、网络和关键进程
bash
#!/bin/bash
# 获取系统关键指标并报警
# 配置阈值
CPU_WARN=90
MEM_WARN=90
DISK_WARN=90
# 获取数据
cpu_usage=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}')
mem_usage=$(free | grep Mem | awk '{print $3/$2 * 100.0}')
disk_usage=$(df -h / | awk 'NR==2 {print $5}' | tr -d '%')
# 报警逻辑
[ $(echo "$cpu_usage > $CPU_WARN" | bc) -eq 1 ] && echo "CPU使用率过高: ${cpu_usage}%" | mail -s "CPU警报" admin@example.com
[ $(echo "$mem_usage > $MEM_WARN" | bc) -eq 1 ] && echo "内存使用率过高: ${mem_usage}%" | mail -s "内存警报" admin@example.com
[ $disk_usage -gt $DISK_WARN ] && echo "磁盘使用率过高: ${disk_usage}%" | mail -s "磁盘警报" admin@example.com
2. 进程监控与自动重启 (Shell)
来源:GitHub经典项目monit
bash
#!/bin/bash
# 监控指定进程并在崩溃时自动重启
SERVICE="nginx"
LOG_FILE="/var/log/process_monitor.log"
if (( $(ps -ef | grep -v grep | grep $SERVICE | wc -l) == 0 )); then
echo "$(date): $SERVICE 未运行,尝试重启..." >> $LOG_FILE
systemctl start $SERVICE
fi
二、自动化维护类脚本
3. 自动化日志切割与清理 (Shell)
参考:Linux系统自带的logrotate优化版
bash
#!/bin/bash
# 智能日志切割与清理
LOG_DIR="/var/log/app"
MAX_SIZE="100M" # 单个日志最大大小
KEEP_DAYS=30 # 保留天数
find $LOG_DIR -name "*.log" -size +$MAX_SIZE -exec bash -c '
file="{}"
mv "$file" "$file.$(date +%Y%m%d%H%M%S)"
gzip "$file.$(date +%Y%m%d%H%M%S)"
' \;
find $LOG_DIR -name "*.gz" -mtime +$KEEP_DAYS -delete
4. 批量服务器SSH密钥部署 (Shell)
来源:Ansible简化版实现
bash
#!/bin/bash
# 批量部署SSH密钥到多台服务器
SERVERS=("server1" "server2" "server3")
USER="root"
KEY_FILE="/home/$USER/.ssh/id_rsa.pub"
for server in ${SERVERS[@]}; do
ssh-copy-id -i $KEY_FILE $USER@$server && \
echo "密钥已部署到 $server" || \
echo "部署到 $server 失败"
done
三、安全运维类脚本
5. 异常登录检测脚本 (Shell)
参考:Fail2Ban的简化实现
bash
#!/bin/bash
# 检测异常SSH登录尝试并封锁IP
FAILED_LOG="/var/log/auth.log"
THRESHOLD=5 # 失败次数阈值
BLOCK_TIME="1h" # 封锁时长
# 分析日志获取异常IP
grep "Failed password" $FAILED_LOG | awk '{print $(NF-3)}' | sort | uniq -c | \
awk -v limit=$THRESHOLD '$1 > limit {print $2}' | while read ip; do
iptables -A INPUT -s $ip -j DROP && \
echo "$(date) 封锁IP: $ip" >> /var/log/iptables_block.log
# 定时解锁
(sleep $BLOCK_TIME && iptables -D INPUT -s $ip -j DROP) &
done
6. 系统安全基线检查 (Shell)
参考:CIS安全基准的自动化实现
bash
#!/bin/bash
# 基础系统安全检查
echo "===== 安全检查报告 $(date) =====" > security_report.txt
# 1. 检查空密码账户
awk -F: '($2 == "") {print $1}' /etc/shadow >> security_report.txt
# 2. 检查SUID文件
find / -perm -4000 -type f 2>/dev/null >> security_report.txt
# 3. 检查SSH配置
grep -E "^PermitRootLogin|^PasswordAuthentication" /etc/ssh/sshd_config >> security_report.txt
# 4. 检查防火墙状态
iptables -L -n >> security_report.txt
echo "报告已生成: security_report.txt"
四、高级运维工具类脚本
7. 自动化Docker容器维护 (Shell)
bash
#!/bin/bash
# Docker容器自动化维护
# 清理停止的容器
docker container prune -f
# 清理无用镜像
docker image prune -a -f
# 重启不健康的容器
docker ps --filter "health=unhealthy" --format "{{.Names}}" | xargs -I {} docker restart {}
8. Kubernetes节点维护脚本 (Shell)
bash
#!/bin/bash
# K8s节点安全排水与维护
NODE=$1
if [ -z "$NODE" ]; then
echo "Usage: $0 <node-name>"
exit 1
fi
# 设置节点不可调度
kubectl cordon $NODE
# 驱逐所有Pod(DaemonSet除外)
kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --force
# 维护完成后恢复节点
kubectl uncordon $NODE
五、推荐的开源运维脚本项目
1.Linux Check - 系统健康检查工具
GitHub:
https://github.com/mehdilauters/linuxCheck
2.OSSEC - 开源主机入侵检测系统
官网: https://www.ossec.net/
3.Glances - 高级系统监控工具
GitHub:
https://github.com/nicolargo/glances
4.Mackerel - 服务器监控脚本集合
GitHub:
https://github.com/mackerelio/mackerel-agent
5.DigitalOcean运维脚本集
GitHub:
https://github.com/digitalocean/do_user_scripts
实践建议
1.使用版本控制系统管理脚本(如Git)
2.为脚本添加详细的注释和使用说明
3.实现日志记录和错误处理机制
4.定期审查和更新脚本
5.在生产环境使用前充分测试