DDR爱好者之家 Design By 杰米
按F12打开开发者工具抓包,可以定位到招聘信息的接口
在请求中可以获取到接口的url和formdata,表单中pn
为请求的页数,kd
为关请求职位的关键字
使用python构建post请求
data = { 'first': 'true', 'pn': '1', 'kd': 'python' } headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"https://www.lagou.com/jobs/positionAjax.json", data=data,headers=headers) print(res.text)
发现没有从接口获取到数据
换了个网络后接口还是会返回操作频繁的错误信息,仔细检查后发现这个接口需要一个动态的cookies不然会一值返回错误频繁
data = { 'first': 'true', 'pn': '1', 'kd': 'python' } #头部中必须有user-agent和referer不然不会返回cookies headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"https://www.lagou.com/jobs/list_python/p-city_0",headers=headers) #再post请求中传入cookies r2 = requests.post("https://www.lagou.com/jobs/positionAjax.json", data=data,headers=headers, cookies=r2.cookies) print(r2.text)
注意!每请求十次接口cookies也会刷新一次,下面贴上完整爬虫代码
import json import logging import requests #获取cookie def getCookie(): res = requests.get("https://www.lagou.com/jobs/list_python/p-city_0", headers=headers) return res.cookies #获取json数据 def getPage(i, cookies, kw): data = { 'first': 'true', 'pn': i, 'kd': kw } res = requests.post("https://www.lagou.com/jobs/positionAjax.json", data=data, headers=headers, cookies=cookies) return json.loads(res.text) #合并列表 def reduceList(l): text = "" for i in l: text += i + " " return text.strip() #提取字段并保存到文件中 def saveInCsv(f, data): js = data["content"]["positionResult"]["result"] for node in js: # 对空值进行处理 district = node["district"] if district != None: district = "-" + district else: district = "" f.write( node["positionName"] + "·" + node["city"] + district + "·" + node[ "salary"] + "·" + node["workYear"] + "·" + node["education"] + "·" + reduceList(node["skillLables"]) + "·" + node["companyShortName"] + "·" + node["companySize"] + "·" + node["positionAdvantage"] + "\n") if __name__ == '__main__': #定义头部 headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"file.csv", "w", encoding="utf-8") as f: for i in range(1, 31): #每十个请求重新获取cookie if (i % 10 == 0): cookies = getCookie() #解析字段并存储 data = getPage(i, cookies, "python") saveInCsv(f, data)
DDR爱好者之家 Design By 杰米
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
DDR爱好者之家 Design By 杰米
暂无评论...
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
2024年11月26日
2024年11月26日
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]