当前位置：首页 > 资讯 > 技术文档

运维人员处理服务器故障的方法总结

时间：2022-12-08 00:33 编辑：来源：阅读：
扫一扫，手机访问

摘要：运维人员处理服务器故障的方法总结

我们团队为上一家公司承担运维、优化和扩展工作的时候，我们碰到了各种不同规模的性能很差的系统和基础设备（大型系统居多，比如CNN或者世界银行的系统）。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档，基本上这过程都会惨痛到让我们留下深刻的记忆。遇到服务器故障，问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手： [b]一、尽可能搞清楚问题的前因后果[/b] 不要一下子就扎到服务器前面，你需要先搞明白对这台服务器有多少已知的情况，还有故障的具体情况。不然你很可能就是在无的放矢。必须搞清楚的问题有：故障的表现是什么？无响应？报错？故障是什么时候发现的？故障是否可重现？有没有出现的规律（比如每小时出现一次）最后一次对整个平台进行更新的内容是什么（代码、服务器等）？故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构（物理的、逻辑的）的文档是否能找到? 是否有监控平台可用? （比如Munin、Zabbix、 Nagios、 New Relic… 什么都可以）是否有日志可以查看?. （比如Loggly、Airbrake、 Graylog…）最后两个是最方便的信息来源，不过别抱太大希望，基本上它们都不会有。只能再继续摸索了。 [img]http://files.jb51.net/file_images/article/201401/201401122336352.jpg[/img] [b]二、有谁在?[/b]

[url=http://devo.ps/blog/2013/03/06/troubleshooting-5minutes-on-a-yet-unknown-box.html]First 5 Minutes Troubleshooting A Server[/url]

全部评论(0)

上一篇：基于IntelliJ IDEA运行慢的解决方法
下一篇：spring的IoC和DI详解

资讯排行榜
更多>>

联系客服

客服电话：
400-000-3129

微信版

扫一扫进微信版

返回顶部