热点技术:使用CasperJS构建Web爬虫

来源:互联网
责任编辑:李佳
字体:

 

从你的应用中收集数据有时候可能有点困难和艰辛。可能是缺少一个必须的API,或者是有太多的数据需要处理。这时候你就需要借助于web抓取。

不用说了,这可能是个法律雷区,所以要确保你没有逾越法律的边界。

目前有很多工具可以帮助你抓取内容,例如Import.io,但是有时这些工具并不能完全满足你的需要。又或者,像我一样,充满好奇心,希望深入地了解web抓取。

挑战

让我们从一个简单地挑战——网络爬虫开始,让这个爬虫爬取Techmeme,并获得一个当天热门新闻列表!

注意: 在这里我将会使用DZone,但在获取页面时会出现问题。后面会详细说明这个问题。

机器设置

您只需要做很少的工作来完成安装。我假设您已经安装了Node.js(我的意思是谁没有安装呢!)。尽管我们并不直接使用PhantomJS,但是您依然需要安装它。版本2.0.1目前已经可以使用了——您可以从其官网下载或使用homebrew或其他等效的包管理器安装。

如果您使用具有homebrew的Mac,您可以这样安装PhantomJS

brew install phantomjs

下载完成之后,您将需要用相同的方式安装CasperJS。您可以将CasperJS看做PhantomJS的伴侣。它实际上是给您提供相似的网页处理API。尽管它是为网页测试设计的。与PhantomJS相同,它具有丰富的功能使其也非常适合于抓取内容。

CasperJS允许我们编写JavaScript脚本。您可以通过在终端中输入casperjs以测试其是否正确安装并加入到PATH中。

编写脚本

下面我们将编写一个新的JavaScript脚本文件。在我的例子中,我称其为index.js。您需要做的第一件事就是在您的代码中创建一个casper实例。您还需要加入依赖的模块并向其传递一些基本参数。

  1. var casper = require("casper").create({ 
  2. waitTimeout: 10000, 
  3. stepTimeout: 10000, 
  4. verbose: true, 
  5. pageSettings: { 
  6. webSecurityEnabled: false 
  7. }, 
  8.     onWaitTimeout: function() { 
  9.           this.echo('** Wait-TimeOut **'); 
  10.     }, 
  11.     onStepTimeout: function() { 
  12.         this.echo('** Step-TimeOut **'); 
  13.     } 
  14. }); 

当您等待一个元素可见时,上面的onWaitTimeout回调将会被调用。例如,点击一个按钮之后,waitTimeout将被超出。

现在,您可以启动casper实例并将其指向我们希望爬取的页面。

  1. casper.start(); 
  2. casper.open("http://techmeme.com"); 

Casper使用一个可靠地框架来帮助您一步一步地运行所有任务。对于第一步,您将希望使用then函数。

  1. casper.then(function() { 
  2.   //logic here 
  3. }); 
  4. //start your script 
  5. casper.run(); 

为了使Casper打开网页并按您的想法运行,您需要调用run函数。

检查网页以获取想要的元素

当抓取到一个网页,您可以假设它具有特定的结构。在您编写脚本之前,可能已经浏览过了网页的源代码,或者已经使用开发者工具观察了页面对特定行为的变化。

所以,让我们开始于一个简单地逻辑,使用CasperJS维护系统确保一个特定的元素在继续之前处于合适的位置。如果元素不存在,脚本将会停止,但 是至少您将会知道其为何停止。这个维护行为对于观察您之前抓取页面的变化是无价的,但是可能会与您之前见到的页面具有不一样的结构。

如果您检查了Techmeme首页的元素,您将会注意到头条新闻部分在一个id为,topcol1的div中。

让我们使用维护功能确保这个元素存在:

  1. casper.then(function() { 
  2. this.test.assertExists("#topcol1"); 

如果这个元素不存在,测试(例如我们的脚本)将会停止,否则它将继续运行。

您还可以使用waitForSelector函数来获得更为细致的结果:

  1. this.waitForSelector("#topcol1", 
  2.     function pass () { 
  3.        console.log("Continue"); 
  4.     }, 
  5.     function fail () { 
  6.         this.die("Did not load element... something is wrong"); 
  7.     } 
  8. ); 

使用这个函数的优点就是它允许页面加载元素并一直等待到执行。您在初始配置中指定的waitTimeout将会被用于确定失败前等待多久。

注意:有时,使用CasperJS查找元素可能会出问题。使用capture()函数截取一个CasperJS看到的页面的截图。

this.capture(‘screener.png’);

从页面中提取内容

下面,让我们看看怎样从页面中找出标题。首先,找到包含您需要的内容的元素,在我们的例子中,为class=ii的div。

CasperJS自带一个evaluate函数,可以让您在页面中运行JavaScript,并且您还可以让函数返回一个值以供进一步处理。

这个JavaScript写起来并没有什么不同,您可能注意到,在本例中,我使用的是原始的纯DOM方法,而不是jQuery,同样,如果您愿意,您也可以在evaluate函数中使用jQuery;

  1. var links = this.evaluate(function(){ 
  2. var results = [];  
  3. var elts = document.getElementsByClassName("ii"); 
  4. for(var i = 0; i < elts.length; i++){ 
  5. var link = elts[i].getElementsByTagName("a")[0].getAttribute("href"); 
  6. var headline = elts[i].firstChild.textContent; 
  7. results.push({link: link, headline: headline}); 
  8. return results;  
  9. }); 

如果您在evaluate函数中使用console.log语句,它们将会通过remote.message句柄打印到您的控制台,这将会在下一节中详细介绍。

一旦运行结束,结果将会返回给您。您可以将它们写入文件系统,或者将它们打印到屏幕上:

  1. console.log("There were "  + links.length + " stories"); 
  2. for(var i = 0; i < links.length; i++){ 
  3. console.log(links[i].headline); 

输出的结果如:

抓取中的错误处理

有时,您运行的JavaScript中可能存在错误,或者其对您抓取的页面的处理存在问题。这些情况中,您可以捕获错误并使用remote.message和page.error事件将其打印到控制台:

  1. casper.on('remote.message', function(msg) { 
  2. this.echo('remote message caught: ' + msg); 
  3. }); 
  4.  
  5. casper.on('page.error', function(msg, trace) { 
  6. this.echo('Error: ' + msg, 'ERROR'); 
  7. }); 
  8.  
  9. 您同样还能观察到即将请求的资源,这些资源的加载使用的是resource.error和resource.received事件: 
  10.  
  11. casper.on('resource.error', function(msg) { 
  12. this.echo('resource error: ' + msg); 
  13. }); 
  14.  
  15. casper.on('resource.received', function(resource) { 
  16.     console.log(resource.url); 
  17. }); 

了解更多

本文只写了点关于使用CasperJS你所能做到的皮毛的东西。该项目的文档是完美的,所以要确保查看过 API ,看看你还可以用它来做些什么。

在本系列的下一篇文章中,我回来看看如何从网页上下载图片,而且我也会讨论下如何使用构建到CasperJS中的文件系统函数,其使用会受到比Node.js更多的限制。

 

【编辑推荐】

  1. 基于HTML5/WebGL技术的BIM模型轻量化Web浏览解决方案
  2. PHP爬虫:百万级别知乎用户数据爬取与分析
  3. Jooby框架简化Java Web开发流程
  4. HTTP/2正给Web性能最佳实践带来怎样的影响?
  5. Web前端知识杂乱 如何分清主次和学习优先级?
  6. 你了解AJAX吗?TA不是新编程语言而是WEB应用程序技术

根据您访问的内容,您可能还对以下内容感兴趣,希望对您有帮助:

如何用php 编写网络爬虫?

答:pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms,开200个进程,可以实现每秒400个页面的抓龋 curl实现页面抓取,设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理 如果想要模拟浏览器,可以使用ca...

casperjs做爬虫,自动登录要输入验证码,该怎么解决

答:手动输入吗?可以这样: //截验证码图 casper.echo('input code'); casper.wait(10000); //在wait完前看图,输入验证码到指定文件 casper.then(function(){ var code = fs.read("code.txt"); });

casperjs做爬虫,自动登录要输入验证码,该怎么解决

答:手动输入吗?可以这样: //截验证码图 casper.echo('input code'); casper.wait(10000); //在wait完前看图,输入验证码到指定文件 casper.then(function(){ var code = fs.read("code.txt"); });

爬虫怎么爬取js动态生成的数据

答:我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。 1、有些页面元素被隐藏起来了->换selector解决 2、有些数据保存在js/json对象中->截取对应的串,分析解决 3、通过a...

python 爬虫 js渲染用哪个库好

答:无疑是python,爬虫是python最擅长的方面之一,有许多强大的爬虫库如scrapy。 而node.js虽然也能做爬虫,但在处理多线程方面受到限制,这是硬伤。

如果网页内容是由javascript生成的,应该怎么实现爬虫

答:用casperjs,它的底层是pantomjs,一个无界面浏览器,用js来操作页面浏览行为,可以等待想要的元素出现,可以获取页面上的内容。

用scrapy爬虫结合什么第三方解析js动态加载网页比较好

答:打开调试工具研究ajax请求,找到规律后自己仿照着发送 关键字 headless 请参考stackoverflow上的一个提问 Headless Browser and scraping - solutions 你看到PhantomJS的出现频率,应该知道怎么选了吧。 当然,CasperJS的API比较舒服一点

如何设计一个python分布式爬虫系统

答:你都没想明白为什么要分布式 ======================== 我还是认真答一下吧,爬虫这种东西在大批量抓去时主要有下面几个量变引发质变的挑战: 1. 出口IP数量,主要是考虑防止被封禁,带宽反而不是大问题,这个问题可以通过搭建NAT出口集群,或者...

一般公司做爬虫采集的话常用什么语言

答:C# python 工具 phantomjs casperjs


www.xue163.net true http://www.xue163.net/exploit/184/1843269.html report 32656 热点技术:使用CasperJS构建Web爬虫,从你的应用中收集数据有时候可能有点困难和艰辛。可能是缺少一个必须的API,或者是有太多的数据需要处理。这时候你就需要借助于web抓取。不用说了,这可能是个法律雷区,所以要确保你没有逾越法律的边界。目前有很多工具可以帮助你抓取内容,例如Import.i...
网友评论
最新添加资讯
24小时热门资讯
娱乐时尚
科技资讯
历史文化
真视界
旅游美食
精彩图文
我爱我车
母婴健康
关于本站 | 广告服务 | 手机版 | 商务合作 | 免责申明 | 招聘信息 | 联系我们
Copyright © 2004-2018 xue163.net All Rights Reserved. 学网 版权所有
京ICP备10044368号-1 京公网安备11010802011102号
教育考试: 学历财经建筑 医药公考资格外语电脑作文招聘中小学留学 文档 移民 文库专栏23问答中心z资讯z资讯1资讯涨资讯涨资讯1资讯问答图书馆知识IT编程数码信息解决方案信息中心IT科技topzttophottopsctopnew问答新闻中心软件教室设计大全网络相关英语学习开发编程考试中心参考范文管理文库营销中心站长之家IT信息中心商学院数码大全硬件DIY企业服务网吧在线百科硬件知识手机平板汽车游戏家电精彩摄影现代家居IT女人经验健康养生猎奇创业攻略教育学习历史时尚潮流最近更新涨知识