nodejs模块 – phantomjs的简单爬虫应用实例

nodejs模块 – phantomjs的简单爬虫应用实例

PhantomJS是一个可以用JavaScript编写脚本的无头web浏览器。它可以在Windows、macOS、Linux和FreeBSD上运行。
它使用QtWebKit作为后端,为各种web标准(DOM处理、CSS选择器、JSON、Canvas和SVG)提供快速和本机支持。

安装phantomjs

安装Cheerio, Cheerio是一个服务器端基本实现Jquery核心功能的一个库

实例一(这是官方首页给的一个实例):

下面这个用于PhantomJS的简单脚本加载百度主页,稍等片刻,然后将其捕获到一个图像中。

实例二:

使用WebStorm创建一个NodeJS-Express项目,项目创建好以后,修改项目的index.js文件。

目的:获取百度首页上所有能匹配 http[s]?://.* 的a标签,因此有:

运行以上代码后,页面中输出链接集合。

——————————

PhantomJS官网

1、页面自动化

使用标准的DOM API或jQuery等常用库访问web页面并提取信息,玩爬虫的,就好好研究这个了。

2、屏幕截图

以编程方式捕获web内容,包括SVG和Canvas,创建网站截图与缩略图预览。

3、无头网站测试

使用诸如Jasmine、QUnit、Mocha、WebDriver等框架运行功能测试。

4、网络监控

监控页面加载和导出为标准的HAR文件。使用YSlow和Jenkins自动化性能分析。

承接各种网站开发与修改、爬虫、数据采集分析、小程序等任务

Html+Css+JS+PHP+Nodejs+Python

专治网站各种不服

一起探讨,互相学习,共同进步!有事儿您说话。

This entry was posted in NodeJS and tagged , by 织梦先生. Bookmark the permalink.