写在前面:
新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。
安装node_modules:
所需的node_modules:①puppeteer;②cheerio;③fs;④cron。
需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的"htmlcode">
npm config set registry http://registry.npm.taobao.org/ npm install -g cheerio npm i -g puppeteer npm i -g fs npm i -g cron
二、用cnpm进行安装:
npm install cnpm -g --registry=https://registry.npm.taobao.org/ cnpm install -g cheerio cnpm i -g puppeteer cnpm i -g fs cnpm i -g cron
具体操作:
用puppeteer爬取:
puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载动态网页。
先来一个简单的例子,用puppeteer截图:
const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']}); //启动浏览器实例 /* puppeteer.launch()的可选参数如下: headless: 是否打开浏览器,默认为true ignoreHTTPSErrors: 是否忽略https错误,默认为true executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium slowMo:指定的毫秒延缓Puppeteer的操作 args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”, */ const page = await browser.newPage(); //新建页面 await page.goto('https://ncov.dxy.cn/'); //访问目标网页:丁香医生 await page.screenshot({ //进行截图 path: 'p1.png', type: 'png', // quality: 100, 只对jpg有效 // 指定区域截图,clip和fullPage两者只能设置一个 // fullPage: true, clip: { x: 0, y: 0, width: 1000, height: 1000 } }); browser.close(); //关闭浏览器 })();
用puppeteer获取网页源代码:
const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://ncov.dxy.cn/'); //page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe const frame = await page.mainFrame(); const bodyHandle = await frame.$('html'); //获取所有的html //frame.evaluate()在浏览器中执行函数,相当于在控制台中执行函数,返回一个Promise const html = await frame.evaluate(body=>body.innerHTML,bodyHandle); await bodyHandle.dispose(); browser.close(); console.log(html); })();
用cheerio解析html:
// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象 // 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码 var $ = cheerio.load(html); var $menu_box = $(".statistics___1cFUQ"); console.log($menu_box.html());
用fs写入到文件中:
/* fs.wirteFile有三个参数 * 1,第一个参数是要写入的文件路径 * 2,第二个参数是要写入得内容 * 3,第三个参数是可选参数,表示要写入的文件编码格式,一般就不写,默认就行 * 4,第四个参数是个回调函数 只有一个参数error,来判断是否写入成功 */ fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{ if(error) return console.log("写入文件失败,原因是:"+error.message); console.log('写入成功'); });
引入到网站中:
我是直接把它放在头部,局部代码如下:
<div id="header-bg"> <style type="text/css"> .title___2d1_B img { width: 18px; height: 18px; cursor:pointer; } #novel_coronavirus { text-align: center; position:relative; top:50px; background-color:rgba(255,255,255,0.7); } #novel_coronavirus li { margin: 10px; padding:2px; border:1px slide #000; } #novel_coronavirus ul li { list-style:none; display: inline-block; } .count___3GCdh p{ font-size:12px; } .count___3GCdh span{ font-size:20px; } </style> <div id="novel_coronavirus" > <strong><p style="font-size:23px">新型冠状病毒疫情实时动态</p></strong> <"./test/coronavirus.php");"htmlcode">const cheerio = require('cheerio'); const puppeteer = require('puppeteer'); const fs = require('fs'); var cronJob = require('cron').CronJob; new cronJob('0 */1 * * * *',function(){ update(); },null,true); //每分钟执行一次 //爬取全国新型肺炎疫情实时动态并写入到指定的.php文件 function update() { (async () => { const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']}); const page = await browser.newPage(); await page.goto('https://ncov.dxy.cn/'); const frame = await page.mainFrame(); const bodyHandle = await frame.$('html'); const html = await frame.evaluate(body=>body.innerHTML,bodyHandle); await bodyHandle.dispose(); browser.close(); var $ = cheerio.load(html); var $menu_box = $(".statistics___1cFUQ"); fs.writeFile("coronavirus.php",$menu_box.html(),error=>{ if(error) { console.log("写入文件失败,原因是:"+error.message); } else { console.log('更新成功'); } }); })(); }查看我的网站
总结
以上所述是小编给大家介绍的node爬取新型冠状病毒的疫情实时动态,希望对大家有所帮助!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]