随着项目越来越依赖Erlang,碰到的问题也随之增加。前段时间线上系统碰到内存高消耗问题,记录一下troubleshooting的分析过程。线上系统用的是Erlang R16B02版本。
[b]问题描述[/b]
有几台线上系统,运行一段时间,内存飙升。系统模型很简单,有网络连接,pool中找新的process进行处理。top命令观察,发现内存都被Erlang进程给吃完了,netstat命令查看网络连接数,才区区几K。问题应该是Erlang内存泄漏了。
[b]分析方法[/b]
Erlang系统有个好处,可以直接进入线上系统,在生产现场分析问题。我们系统是通过Rebar管理的,可以用不同方法进入线上系统。
[b]本机登录[/b]
可以直接登录到线上机器,然后通过以下命令attach到Erlang系统里面
[url=http://www.erlang.org/documentation/doc-5.6.1/pdf/appmon-2.1.9.pdf]appmon[/url],[url=http://erlang.org/doc/man/webtool.html]webtool[/url]。但是系统内存严重不足,已经没有办法启动这些工具了,幸好还有Erlang shell。
Erlang shell自带了很多有用的[url=http://www.erlang.org/doc/man/shell.html]命令[/url],可以用help()方法查看
[url=http://www.erlang.org/doc/man/erlang.html#memory-0]memory()[/url]可以看到Erlang emulator分配的内存,有总的内存,atom消耗的内存,process消耗的内存等等。
[b]Erlang process创建数量[/b]
线上系统发现主要内存消耗都在process上面,接下来要分析,是process内存泄漏了,还是process创建数量太多导致。
[url=http://www.erlang.org/doc/man/erlang.html#system_info-1]system_info()[/url]返回当前系统的一些信息,比如系统process,port的数量。执行上面命令,大吃一惊,只有2,3k的网络连接,结果Erlang process已经有10多w了。系统process创建了,但是因为代码或者其它原因,堆积没有释放。
[b]查看单个process的信息[/b]
既然是因为process因为某种原因堆积了,只能从process里找原因了
先要获取堆积process的pid
[url=http://erlang.org/doc/man/erlang.html#process_info-2]erlang:process_info()[/url]方法,它可以获取进程相当丰富的信息。
[url=https://github.com/basho/lager]lager[/url]时,hang住了。
[b]问题原因[/b]
查看lager的文档,发现以下信息
[url=https://groups.google.com/forum/#!searchin/erlang-programming/waiting$20handle_info$20timeout/erlang-programming/JL8HVBjnWy0/nEoBDIhhMFUJ]thread[/url]给我们的分析带来很多帮助,感谢一下。
[b]总结[/b]
Erlang提供了丰富的工具,可以在线进入系统,现场分析问题,这个非常有助于高效、快速的定位问题。同时,强大的Erlang OTP让系统有更稳定的保证。我们还会继续挖掘Erlang,期待有更多的实践分享。
微信版

扫一扫进微信版
返回顶部