var request = require('request');
request('http://www.google.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
    console.log(body) // 打印google首页
  }
})

var request = require('request');

request('http://www.google.com', function (error, response, body) {

if (!error && response.statusCode == 200) {

console.log(body) // 打印google首页

}

})

流

任何响应都可以输出到文件流。 Continue reading →

十一 17

HTTP、TCP/IP、UDP、Socket、Socket长连接、Socket连接池

Posted on 2019年11月17日 by 织梦先生

前言

作为一名开发人员我们经常会听到HTTP协议、TCP/IP协议、UDP协议、Socket、Socket长连接、Socket连接池等字眼，然而它们之间的关系、区别及原理并不是所有人都能理解清楚，这篇文章就从网络协议基础开始到Socket连接池，一步一步解释他们之间的关系。

七层网络模型

首先从网络通信的分层模型讲起：七层模型，亦称OSI(Open System Interconnection)模型。自下往上分为：物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。所有有关通信的都离不开它，下面这张图片介绍了各层所对应的一些协议和硬件

通过上图，我知道IP协议对应于网络层，TCP、UDP协议对应于传输层，而HTTP协议对应于应用层，OSI并没有Socket，那什么是Socket，后面我们将结合代码具体详细介绍。 Continue reading →

十一 15

使用webstorm时对文件.eslintrc的配置方法

Posted on 2019年11月15日 by 织梦先生

配置eslint

ESLint 的配置分为六大块，分别是： Continue reading →

十一 15

ThinkJS 3.0的安装及thinkjs命令的简单使用

Posted on 2019年11月15日 by 织梦先生

ThinkJS 3.0

安装 ThinkJS 命令

$ npm install -g think-cli

0	$ npm install -g think-cli

如果安装很慢的话，可以尝试使用 taobao 的源进行安装。具体如下：

npm install -g think-cli --registry=https://registry.npm.taobao.org --verbose

0	npm install -g think-cli --registry=https://registry.npm.taobao.org --verbose

卸载旧版本命令

$ npm uninstall -g thinkjs

0	$ npm uninstall -g thinkjs

创建项目

执行 thinkjs new [project_name] 来创建项目(单模块)，如： Continue reading →

十一 11

NodeJS插件Crawler参数手册

Posted on 2019年11月11日 by 织梦先生

Crawler参数手册

如果你想修改一些默认值，可以在构造 Crawler() 的时候配置相关的参数，此时的参数将在全局范围内生效。如果你只想对单个请求配置独立的参数，你可以在调用 queue() 函数时覆盖参数。

Crawler 使用了 request 库，所以 Crawler 可供配置的参数列表是 request 库的参数列表的超集，即 request 库中所有的配置在 Crawler 中均适用。

以下为所有参数： Continue reading →

十一 10

从Github上淘来的爬虫框架

Posted on 2019年11月10日 by 织梦先生

Python

python自然不用多说，拥有的爬虫框架数不胜数。

scrapy，大名鼎鼎的爬虫框架，功能强大，乃入门学习的必备良药。支持多种多样的配置特性，唯一可惜不支持分布式的特性，于是就诞生了scrapy-redis这个以redis为队列的分布式爬虫框架。
pyspider，应该是个华人写的爬虫框架，可支持的配置非常多，同时也支持分布式，只需要配置中间的消息队列就可以。
portia，可视化的爬虫框架，对于编程经验少的人来说相当适合学习。
xcrawler，轻量级的爬虫框架。个人很简易从读轻量级的爬虫框架的源代码入手，这样能够由浅入深，学地更有意思。
cola，也是很强大的分布式爬虫框架，只是可惜不支持python 3以上。
fetchman, 国人写的爬虫框架，采用grequests来并发请求。看过源代码，写的容易理解，所以对于新手来说很实用。
gain, 使用asyncio`来异步爬取的轻量级爬虫框架。代码很容易理解，利于学习。

Java

Java接触的不是很多，所以知道的爬虫框架不多。

webmagic，这个是国人写的爬虫框架，很好用，也很强大。源代码的阅读体验也不错，推荐写java的可以去熟悉熟悉。
crawler4j，比较好的爬虫架构，对于学习和理解爬虫框架很有用。
SeimiCrawler，分布式爬虫框架，也是受到scrapy启发。支持动态渲染的页面爬虫。
elves, 轻量级的爬虫框架，国人写的。易于学习和理解。

Node

node接触的更加不多，但是也淘到了不错的几个框架。

node-crawler,强大且流行。采用Cheerio这个包解析网页结构。
webster,高性能的NodeJs爬虫框架，可爬取动态渲染的内容（通过headless Chrome）。

C#

C#作为笔者除了Python以外比较熟悉的语言了。但是发现其爬虫框架少的可怜。哎，不禁叹息。

DotnetSpider，整体架构参照了WebMagic和Scrapy，是C#中比较强大的存在。目前已经支持.net core 2.0，所以，喜欢C#的可以去玩玩。还是比较不错的支持Entity Framework。
WebCrawler，国人写的轻量级的爬虫框架。可以去学习学习~~~

Continue reading →

十一 09

什么是Socks代理？

Posted on 2019年11月9日 by 织梦先生

什么是Socks代理？

1.SOCKS：防火墙安全会话转换协议，SOCKS 协议提供一个框架，为在 TCP 和 UDP 域中的客户机/服务器应用程序能更方便安全地使用网络防火墙所提供的服务；

2.socks代理是一种全能代理，就像有很多跳线的转接板，只是简单地将一端的系统连接到另外一端，支持多种协议，包括http、ftp请求及其它类型的请求；

3.socks代理分socks 4 和socks 5两种类型，socks 4只支持TCP协议而socks 5支持TCP/UDP协议，还支持各种身份验证机制等协议，其标准端口为1080。

十一 09

什么是connect代理？

Posted on 2019年11月9日 by 织梦先生

什么是connect代理？

对于HTTP代理，不少人有认识上的误区，有必要说明一下，不是所有的HTTP代理都只能代理HTTP的，vice versa！

HTTP CONNECT代理服务器是一种能够允许用户建立TCP连接到任何端口的代理服务器，这意味着这种代理不仅可用于HTTP，还包括FTP、IRC、RM流服务等，甚至扫描、攻击。

十一 09

什么是高匿名、匿名和透明代理？它们有什么区别？

Posted on 2019年11月9日 by 织梦先生

什么是高匿名、匿名和透明代理？它们有什么区别？

HTTP代理按匿名度可分为透明代理、匿名代理和高度匿名代理。

透明代理

使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。

透明代理访问对方服务器所带的HTTP头信息如下：
REMOTE_ADDR = 代理服务器IP
HTTP_VIA = 代理服务器IP
HTTP_X_FORWARDED_FOR = 你的真实IP
透明代理还是将你的真实IP发送给了对方服务器，因此无法达到隐藏身份的目的。

匿名代理

使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。

匿名代理访问对方服务器所带的HTTP头信息如下：
REMOTE_ADDR = 代理服务器IP
HTTP_VIA = 代理服务器IP
HTTP_X_FORWARDED_FOR = 代理服务器IP
匿名代理隐藏了你的真实IP，但是向访问对象透露了你是使用代理服务器访问他们的。

高匿名代理

使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP。

高匿名代理访问对方服务器所带的HTTP头信息如下：
REMOTE_ADDR = 代理服务器IP
HTTP_VIA 不显示
HTTP_X_FORWARDED_FOR 不显示
高匿名代理隐藏了你的真实IP，同时访问对象也不知道你使用了代理，因此隐蔽度最高。

Page 16 of 53« First ‹ Previous 13 14 151617 18 19 Next ›Last »

织梦先生

一个从零开始并且为了自己心底的理想不断奋斗中的人

Category Archives: 程序开发

nodejs模块 – phantomjs的简单爬虫应用实例

Continue reading →

Request模块让 Node.js http请求变得简单

使用超简单

流

HTTP、TCP/IP、UDP、Socket、Socket长连接、Socket连接池

前言

七层网络模型

使用webstorm时对文件.eslintrc的配置方法

ThinkJS 3.0的安装及thinkjs命令的简单使用

安装 ThinkJS 命令

卸载旧版本命令

创建项目

NodeJS插件Crawler参数手册

从Github上淘来的爬虫框架

Python

Java

Node

C#

什么是Socks代理？

什么是connect代理？

什么是高匿名、匿名和透明代理？它们有什么区别？

透明代理

匿名代理

高匿名代理