源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

运维人员处理服务器故障的方法总结

  • 时间:2022-12-08 00:33 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:运维人员处理服务器故障的方法总结
我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。 遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手: [b]一、尽可能搞清楚问题的前因后果[/b] 不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。 必须搞清楚的问题有: 故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是否可重现? 有没有出现的规律(比如每小时出现一次) 最后一次对整个平台进行更新的内容是什么(代码、服务器等)? 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构(物理的、逻辑的)的文档是否能找到? 是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 New Relic… 什么都可以) 是否有日志可以查看?. (比如Loggly、Airbrake、 Graylog…) 最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。 [img]http://files.jb51.net/file_images/article/201401/201401122336352.jpg[/img] [b]二、有谁在?[/b]
[url=http://devo.ps/blog/2013/03/06/troubleshooting-5minutes-on-a-yet-unknown-box.html]First 5 Minutes Troubleshooting A Server[/url]
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部