python正则爬取某段子网站前20页段子(request库)过程解析

站长资源 2026/7/27 佚名

56 1538 56

DDR爱好者之家 Design By 杰米

首先还是谷歌浏览器抓包对该网站数据进行分析，结果如下：

该网站地址：http://www.budejie.com/text

该网站数据都是通过html页面进行展示，网站url默认为第一页，http://www.budejie.com/text/2为第二页，以此类推

对网站的内容段子所处位置进行分析，发现段子内容都是在一个 a 标签中

坑还是有的，这是我第一次写的正则：

content_list = re.findall(r'<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"htmlcode">


import requests
import re
import json

class NeihanSpider(object):
  """内涵段子，百思不得其姐，正则爬取一页的数据"""
  def __init__(self):
    self.temp_url = 'http://www.budejie.com/text/{}' # 网站地址，给页码留个可替换的{}
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_first_page_content_list(self, html_str): # 提取第一页的数据
    content_list = re.findall(r'<div class="j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+?)</a>', html_str) # 非贪婪匹配
    return content_list

  def save_content_list(self, content_list):
    with open('neihan.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False))
        f.write('\n') # 换行
      print('成功保存一页！')

  def run(self): # 实现主要逻辑
    for i in range(20): # 只爬取前20页数据
      # 1. 构造url
      # 2. 发送请求，获取响应
      html_str = self.pass_url(self.temp_url.format(i+1))
      # 3. 提取数据
      content_list = self.get_first_page_content_list(html_str)
      # 4. 保存
      self.save_content_list(content_list)

if __name__ == '__main__':
  neihan = NeihanSpider()
  neihan.run()



以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。


                                
                                    python,正则,爬取,request库 
                                DDR爱好者之家 Design By 杰米


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    django drf框架中的user验证以及JWT拓展的介绍
                                
                            
                            
                                
                                    下一篇
                                    python中eval与int的区别浅析
                                
                            
                        
                        
                        DDR爱好者之家 Design By 杰米
                        
                            
                                
                                
                                    评论“python正则爬取某段子网站前20页段子(request库)过程解析”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    ddrfans.com
                                            
                                                DDR爱好者之家 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            8,675无损音乐
                                        
                                        
                                            1,324高清电影
                                        
                                        
                                            213破解软件
                                        
                                        
                                            70,141收录资讯
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奔赴！万人现场 第2期》[FLAC/分轨][5
                                                
                                                
                                                    
                                                        2026/7/27
                                                        
                                                         43
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奇妙浪一夏 (上海迪士尼度假区音乐)》
                                                
                                                
                                                    
                                                        2026/7/27
                                                        
                                                         32
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《奇妙浪一夏 (上海迪士尼度假区音乐)》
                                                
                                                
                                                    
                                                        2026/7/27
                                                        
                                                         61
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    【古典音乐】詹姆斯·高威《季节》1993[WAV+
                                                
                                                
                                                    
                                                        2026/7/27
                                                        
                                                         24
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]
                                                
                                                
                                                    
                                                        2026/7/27
                                                        
                                                         74
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            
                                站点导航
                                
                                    
                                        抖音极速版
                                        河马剧场
                                        京东
                                        小红书
                                        微信
                                        高德地图
                                        红果短剧
                                        夸克
                                        美团
                                        剪映
                                        拼多多
                                        支付宝
                                        淘宝
                                        快手
                                        QQ
                                        哔哩哔哩
                                        番茄小说
                                        得物
                                        阿里巴巴
                                        王者荣耀
                                        和平精英
                                        腾讯视频
                                        爱奇艺
                                        QQ音乐
                                        咸鱼之王
                                        逆水寒
                                        三国志战略版
                                        梦幻西游
                                        金铲铲之战
                                        捕鱼大作战
                                        原神
                                        英雄联盟手游
                                        网易云音乐
                                        崩坏星穹铁道
                                        优酷视屏
                                        酷狗音乐
                                        蛋仔派对

python正则爬取某段子网站前20页段子(request库)过程解析

django drf框架中的user验证以及JWT拓展的介绍

python中eval与int的区别浅析

评论“python正则爬取某段子网站前20页段子(request库)过程解析”

更新日志

友情链接