当前位置：首页 > 资讯 > 技术文档

零基础写Java知乎爬虫之准备工作

时间：2021-11-02 06:29 编辑：来源：阅读：
扫一扫，手机访问

摘要：零基础写Java知乎爬虫之准备工作

开篇我们还是和原来一样，讲一讲做爬虫的思路以及需要准备的知识吧，高手们请直接忽略。首先我们来缕一缕思绪，想想到底要做什么，列个简单的需求。需求如下： 1.模拟访问知乎官网（[url=http://www.zhihu.com/]http://www.zhihu.com/[/url]） 2.下载指定的页面内容，包括：今日最热，本月最热，编辑推荐 3.下载指定分类中的所有问答，比如：投资，编程，挂科 4.下载指定回答者的所有回答 5.最好有个一键点赞的变态功能（这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了！）那么需要解决的技术问题简单罗列如下： 1.模拟浏览器访问网页 2.抓取关键数据并保存到本地 3.解决网页浏览中的动态加载问题 4.使用树状结构海量抓取知乎的所有内容好的，目前就想了这些。接下来就是准备工作了。 1.确定爬虫语言：由于以前写过一系列爬虫教程（点击这里），百度贴吧，糗事百科，山东大学的绩点查询等都是用python写的，所以这次决定使用Java来写（喂完全没有半毛钱联系好吗）。 2.科普爬虫知识：网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请（点击这里）。 3.准备爬虫环境：Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句，一个好用的浏览器对于爬虫来说非常重要，因为首先你需要自己浏览网页知道你需要的东西在哪里，你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器，或者谷歌浏览器，它们的右键审查元素和查看源代码的功能都非常强大。下面我们开始正式的爬虫之旅！~具体讲些什么呢，恩，这是个问题，让我好好想想，别急^_^

全部评论(0)

上一篇：Lua中的递归函数写法实例
下一篇：详解jdbc实现对CLOB和BLOB数据类型的操作

资讯排行榜
更多>>