node.js实现博客小爬虫的实例代码

网络编程 2025/3/4 佚名

3 2 1

幽灵资源网 Design By www.bzswh.com

前言

爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

这篇文章介绍的是利用node.js实现博客小爬虫，核心的注释我都标注好了，可以自行理解，只需修改url和按照要趴的博客内部dom构造改一下filterchapters和filterchapters1就行了！

下面话不多说，直接来看实例代码

var http=require('http');
var Promise=require('Bluebird');
var cheerio = require('cheerio');
var url='http://www.immaster.cn';//博客地址
function filterchapters1(html) {//解析文章链接
 var $ =cheerio.load(html);
 var post=$('.post');
 
 var content=[];
 post.each(function (item) {
 
 var postid=$(this).find('.tit').find('a').attr('href');
 
 content.push(postid);
 })
 return content;
}
function filterchapters(html) {//解析每个文章内的内容
 var $ =cheerio.load(html);
 var tit=$('.post .tit').find('a').text();
 var postid=$('.tit').find('a').attr('href');
 var commentnum=$('.comments-title').text();
 commentnum=commentnum.trim();
 // commentnum=commentnum.replace('\n','');
 var content={tit:tit,url:postid,commentnum:commentnum};
 return content;
}
function getid(url){//爬取首页文章链接
 return new Promise(function (resolve,reject) {
 http.get(url,function (res) {
 var html = '';
 res.on('data',function(data) {
 html+=data;
 });
 res.on('end',function () {
 var content=filterchapters1(html)
 resolve(content);
 
 })
}).on('error',function () {
 reject(e);
 console.log('抓取出错！')
 })
})
}
function getpageAsync(url) {//爬取单个页面内容
 return new Promise(function (resolve,reject) {
 console.log('正在爬取……'+url)
 http.get(url,function (res) {
 var html = '';
 res.on('data',function(data) {
 html+=data;
 });
 res.on('end',function () {
 resolve(html);
 
 })
 }).on('error',function () {
 reject(e);
 console.log('抓取出错！')
 })
 })
}
getid(url)
 .then(function(postid){
 return new Promise(function (resolve,reject) {
 var pageurls=[];
 postid.forEach(function (id) {
 pageurls.push(getpageAsync(id));
 })
 resolve(pageurls);
 })
 })
 .then(function(pageurls){
 return new Promise.all(pageurls);//让promise对象同时开始运行
 })
 .then(function (pages) {
 var coursesData=[];
 pages.forEach(function (html) {
 var courses=filterchapters(html);
 coursesData.push(courses);
 })
coursesData.forEach(function(v){
 console.log('标题：'+v.tit+"\n地址："+v.url+"\n评论："+v.commentnum)
 })
 })

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用node.js实现爬虫能有所帮助，如果有疑问大家可以留言交流。

nodejs,爬虫,nodejs,爬虫框架,nodejs爬虫教程

标签：

nodejs,爬虫,nodejs,爬虫框架,nodejs爬虫教程

幽灵资源网 Design By www.bzswh.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

幽灵资源网 Design By www.bzswh.com

评论“node.js实现博客小爬虫的实例代码”

暂无评论...

www.bzswh.com 幽灵资源网

143,552互联网资源

29,117高清电影

46,608技术教程

224,608站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2025/3/4

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/3/4

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/3/4

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2025/3/4

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2025/3/4

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2025/3/4

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

node.js实现博客小爬虫的实例代码

nodejs,爬虫,nodejs,爬虫框架,nodejs爬虫教程

微信小程序实战小程序实例

阿里云ecs服务器中安装部署node.js的步骤

评论“node.js实现博客小爬虫的实例代码”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

友情链接

node.js实现博客小爬虫的实例代码

nodejs,爬虫,nodejs,爬虫框架,nodejs爬虫教程

微信小程序 实战小程序实例

阿里云ecs服务器中安装部署node.js的步骤

评论“node.js实现博客小爬虫的实例代码”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

友情链接

微信小程序实战小程序实例