Python爬虫运用正则表达式的方法和优缺点

站长资源 2026/7/25 佚名

50 1538 50

DDR爱好者之家 Design By 杰米

前言

我看到最近几部电影很火，查了一下猫眼电影上的数据，发现还有个榜单，里面有各种经典和热映电影的排行榜，然后我觉得电影封面图还挺好看的，想着一张一张下载真是费时费力，于是突发奇想，好像可以用一下最近学的东西实现我的需求，学习了正则表达式之后，想着要感受一下它在爬虫里面的效果和优缺点。

目标：爬取Top100榜单上电影的封面图

Top100榜单规则：将猫眼电影库中的经典影片，按照评分和评分人数从高到低综合排序取前100名，每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤：

（1）查看页面元素，找到包含图片的路径的代码段落

（2）分析图片在web上面的唯一属性，便于之后获取正确图片位置信息

（3）因为需要翻页，观察多个页面的URL变化

（4）综合以上几个点，编写合适的正则表达式

1、python 标准库中re模块提供了正则表达式的全部功能，直接引入；requests模块是http库，爬虫常用库，而urllib.requests 则是最后用到写入文件的函数

import re
import requests
import urllib.request

2、先接收URL地址的HTML页面，然后转化为str形式（正则表达式是匹配字符串），第一个pattern1缩小范围，抓取目标部分，result1接收匹配的结果，这时候所有封面图地址就在里面了

response = requests.get(url)
response = str(response.content)
patttern1 = '<dl class="board-wrapper">.+"pager-main">'
result1 = re.compile(pat).findall(response)

3、第二个正则，匹配图片的地址信息

pat2 = '<img data-src="/UploadFiles/2021-04-08/(.+">
 4、继续下一步，把每张图片命名好，需要正确的图片地址，避免重复 


x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1


 5、最后一步了，因为需要翻页爬取，所以加了一个循环，10页内容爬取下来


for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4"color: #ff0000">总结
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

python正则表达式,python正则表达式匹配,python正则表达式爬虫

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“Python爬虫运用正则表达式的方法和优缺点”

暂无评论...

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2026年07月25日

Python爬虫运用正则表达式的方法和优缺点

Python封装成可带参数的EXE安装包实例

python识别文字(基于tesseract)代码实例

评论“Python爬虫运用正则表达式的方法和优缺点”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python爬虫运用正则表达式的方法和优缺点

Python封装成可带参数的EXE安装包实例

python识别文字(基于tesseract)代码实例

评论“Python爬虫运用正则表达式的方法和优缺点”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存