源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

Nagios的安装与使用详细教程

  • 时间:2020-12-07 12:17 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:Nagios的安装与使用详细教程
[b]Nagios简介[/b]   Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。   Nagios原名为NetSaint,由Ethan Galstad开发并维护至今。NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒,而"Agios"是"saint"的希腊表示方法。Nagios被开发在Linux下使用,但在Unix下也工作得非常好。 [b]主要功能[/b] 网络服务监控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)主机资源监控(CPU load、disk usage、system logs),也包括Windows主机(使用NSClient++ plugin)可以指定自己编写的Plugin通过网络收集数据来监控任何情况(温度、警告……)可以通过配置Nagios远程执行插件远程执行脚本远程监控支持SSH或SSL加通道方式进行监控简单的plugin设计允许用户很容易的开发自己需要的检查服务,支持很多开发语言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)包含很多图形化数据Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)可并行服务检查能够定义网络主机的层次,允许逐级检查,就是从父主机开始向下检查当服务或主机出现问题时发出通告,可通过email, pager, sms 或任意用户自定义的plugin进行通知能够自定义事件处理机制重新激活出问题的服务或主机自动日志循环支持冗余监控包括Web界面可以查看当前网络状态,通知,问题历史,日志文件等 支持短信,邮件通知 Nagios官网 [url=http://www.nagios.org/]http://www.nagios.org[/url] [b]1. Nagios安装 - 服务端(192.168.0.11)[/b] Centos6默认的yum源里没有nagios相关的rpm包,但是我们可以安装一个epel的扩展源:
[url=http://ip/nagios]http://ip/nagios[/url] vim /etc/n[img]http://img.1sucai.cn/uploads/article/2018010710/20180107100103_0_41246.jpg[/img] agios/nagios.cfg  #暂时先不管 [b]2. Nagios安装 - 客户端(192.168.0.12)[/b] 在客户端机器上
[u]复制代码[/u] 代码如下:
yum install -y epel-release yum install -y nagios-plugins nagios-plugins-allnrpe nagios-plugins-nrpe vim /etc/nagios/nrpe.cfg  找到“allowed_hosts=127.0.0.1” 改为“allowed_hosts=127.0.0.1,192.168.0.11”   #服务器的ip 找到” dont_blame_nrpe=0” 改为  “dont_blame_nrpe=1”
启动客户端 /etc/init.d/nrpe start [b]3. 监控中心(192.168.0.11)添加被监控主机(192.168.0.12)[/b]
[u]复制代码[/u] 代码如下:
vim /etc/nagios/conf.d/192.168.0.12.cfg                  define host{         use                   linux-server                   host_name          192.168.0.12        alias                      0.12        address                192.168.0.12         } define service{         use                   generic-service        host_name              192.168.0.12                      service_description     check_ping        check_command          check_ping!100.0,20%!200.0,50%      #0是ok,20是警告,50是危险         max_check_attempts5                    #单位是秒数        normal_check_interval 1 } define service{         use                   generic-service        host_name              192.168.0.12        service_description     check_ssh        check_command          check_ssh        max_check_attempts      5    ;当nagios检测到问题时,一共尝试检测5次都有问题才会告警,如果该数值为1,那么检测到问题立即告警        normal_check_interval 1   ;重新检测的时间间隔,单位是分钟,默认是3分钟        notification_interval          60 ;在服务出现异常后,故障一直没有解决,nagios再次对使用者发出通知的时间。单位是分钟。如果你认为,所有的事件只需要一次通知就够了,可以把这里的选项设为0。 } define service{         use                   generic-service        host_name              192.168.0.12        service_description     check_http        check_command          check_http         max_check_attempts     5        normal_check_interval 1 }
以上普通服务不依赖于客户端nrpe服务,我们可以想象,我们在自己电脑上可以使用ping或者telnet探测远程任何一台机器是否存活、是否开启某个端口或服务。而当我们想要检测客户端上的某个具体特殊服务的情况时,就需要借助于nrpe了,比如想知道客户端机器的负责或磁盘使用情况。 [img]http://img.1sucai.cn/uploads/article/2018010710/20180107100103_1_66228.jpg[/img] [b]4.  继续添加服务[/b] 增加:
[u]复制代码[/u] 代码如下:
define command{        command_name    check_nrpe    #去对方获得服务状态,可自定义        command_line    $USER1$/check_nrpe -H $HOSTADDRESS$-c $ARG1$         }
继续编辑
[u]复制代码[/u] 代码如下:
vim/etc/nagios/conf.d/192.168.0.12.cfg      
增加如下内容:
[u]复制代码[/u] 代码如下:
define service{         use    generic-service        host_name       192.168.0.12        service_description     check_load        check_command          check_nrpe!check_load        max_check_attempts 5        normal_check_interval 1 } define service{         use    generic-service        host_name       192.168.0.12        service_description     check_disk_hda1        check_command          check_nrpe!check_hda1        max_check_attempts 5        normal_check_interval 1 } define service{         use    generic-service        host_name       192.168.0.12        service_description     check_disk_hda2        check_command          check_nrpe!check_hda2    #这个不要写错,是对应客户端的        max_check_attempts 5        normal_check_interval 1 }
说明:  check_nrpe!check_load:这里的check_nrpe就是在commands.cfg刚刚定义的,check_load是远程主机上的一个检测脚本 在客户端上vim/etc/nagios/nrpe.cfg 搜索check_load,这行就是在服务端上要执行的脚本了,我们可以手动执行这个脚本 把check_hda1更改一下:/dev/hda1 改为 /dev/sda1 再加一行command[check_hda2]=/usr/lib/nagios/plugins/check_disk-w 20% -c 10% -p /dev/sda2  # w = warnning c = critial Crital不能比warning的值大 [img]http://img.1sucai.cn/uploads/article/2018010710/20180107100103_2_82673.jpg[/img] 机制:首先在服务端定义check_nrpe命令,再通过check_nrpe后面跟的command(客户端的nrpe.cfg里) 客户端上重启一下nrpe服务: service nrpe restart 服务端也重启一下nagios服务: service nagios restart [b]5.   配置告警[/b]
[u]复制代码[/u] 代码如下:
vim /etc/nagios/objects/contacts.cfg //增加: define contact{         contact_name                                       use                           generic-contact         alias                         aming         email             @qq.com         } define contact{         contact_name                      use                           generic-contact         alias                          aaa         email             wsw@.com         } define contactgroup{                         #定义联系组         contactgroup_name          common         alias                                common         members                        ,         }
然后在要需要告警的服务里面加上contactgroup
[u]复制代码[/u] 代码如下:
define service{         use    generic-service        host_name       192.168.0.12        service_description     check_load        check_command          check_nrpe!check_load        max_check_attempts 5        normal_check_interval 1         contact_groups       common                  #监控哪个发邮件        notifications_enabled  1    ;是否开启提醒功能。 1为开启,0为禁用。一般,这个选项会在主配置文件(nagios.cfg)中定义,效果相同。         notification_period  24x7   ;发送提醒的时间段。非常重要的主机(服务)我定义为7×24,一般的主机(服务)就定义为上班时间。如果不在定义的时间段内,无论什么问题发生,都不会发送提醒。              notification_options:w,u,c,r   ;这个是service的状态。w为waning, u为unknown, c为critical, r为recover(恢复了),类似的还有一个  host对应的状态:d,u,r   d = 状态为DOWN, u = 状态为UNREACHABLE , r = 状态恢复为OK,需要加入到host的定义配置里。 }
[b]6.   配置图形显示 pnp4nagios [/b] (1)安装
[u]复制代码[/u] 代码如下:
yum install pnp4nagios rrdtool
(2)配置主配置文件
[u]复制代码[/u] 代码如下:
vim /etc/nagios/nagios.cfg  //修改如下配置   process_performance_data=      host_perfdata_command=process-host-perfdata   service_perfdata_command=process-service-perfdata   enable_environment_macros=  
(3)修改commands.cfg vim/etc/nagios/objects/commands.cfg  //注释掉原有对process-host-perfdata和process-service-perfdata,重新定义
[u]复制代码[/u] 代码如下:
  define command {          command_name    process-service-perfdata          command_line    /usr/bin/perl/usr/libexec/pnpnagios/process_perfdata.pl    }        define command {     command_name    process-host-perfdata          command_line    /usr/bin/perl/usr/libexec/pnpnagios/process_perfdata.pl -d HOSTPERFDATA    }
(4)修改配置文件templates.cfg
[u]复制代码[/u] 代码如下:
vim /etc/nagios/objects/templates.cfg definehost {         name      hosts-pnp        register   0         action_url/pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=_HOST_        process_perf_data              1 } define service {         name      srv-pnp        register   0         action_url/pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=$SERVICEDESC$        process_perf_data              1 }
(5)修改host和service配置
[u]复制代码[/u] 代码如下:
vim /etc/nagios/conf.d/192.168.0.12.cfg 把 “define host{         use                   linux-server”
改为:
[u]复制代码[/u] 代码如下:
define host{         use                   linux-server,hosts-pnp
修改对应的service,比如 把
[u]复制代码[/u] 代码如下:
define service{         use    generic-service        host_name       192.168.0.12        service_description     check_disk_hda1        check_command          check_nrpe!check_hda1        max_check_attempts 5        normal_check_interval 1 }
改为:
[u]复制代码[/u] 代码如下:
define service{         use    generic-service,srv-pnp        host_name       192.168.0.12        service_description     check_disk_hda1        check_command          check_nrpe!check_hda1        max_check_attempts 5        normal_check_interval 1 }
(6)重启和启动各个服务:
[u]复制代码[/u] 代码如下:
service nagios restart service httpd restart service npcd start
(7) 访问测试 两种访问方法:
[u]复制代码[/u] 代码如下:
ip/nagios/ ip/pnp4nagios/
以上所述是小编给大家分享的Nagios的安装与使用详细教程,希望对大家有所帮助。
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部