当前位置：首页 > 资讯 > 技术文档

Ruby中的Mechanize的使用教程

时间：2020-01-28 22:54 编辑：来源：阅读：
扫一扫，手机访问

摘要：Ruby中的Mechanize的使用教程

Ruby中实现网页抓取，一般用的是mechanize，使用非常简单。 [b]安装 [/b]

sudo gem install mechanize

[b]抓取网页 [/b]

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

[b]模拟点击事件 [/b]

[u]复制代码[/u] 代码如下:

page = agent.page.link_with(:text => 'News').click

[b]模拟表单提交 [/b]

[u]复制代码[/u] 代码如下:

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

[b]分析页面，mechanize用的是nokogiri解析网页的，所以可以参照nokogiri的文档 [/b]

[u]复制代码[/u] 代码如下:

table = page.search('a')

text = table.inner_text

puts text

[b]有几点注意的地方：如果需要先登录的网页，那么可以在网站先登录，登录后记录JSESSIONID，然后赋值给agent [/b]

[u]复制代码[/u] 代码如下:

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

[b]如果需要保存网页，使用.save_as，(或许save也可以，我没试过)例如 [/b]

[u]复制代码[/u] 代码如下:

agent.get("http://google.com").save_as

[b]小技巧[/b] puts Mechanize::AGENT_ALIASES 可以打印出所有可用的user_agent puts Mechanize.instance_methods(false) 输出Mechanize模块的所有方法 puts Mechanize.instance_methods() 输出Mechanize模块的所有方法以及所继承的类的函数

全部评论(0)

上一篇：举例讲解Ruby中require的使用方法
下一篇：ruby 对象的初始化方法

资讯排行榜
更多>>