Python解析、提取url关键字的实例详解

站长资源 2026/2/10 佚名

12 1538 12

DDR爱好者之家 Design By 杰米

解析url用的类库:

python2版本：

from urlparse import urlparse
import urllib

python3版本：

from urllib.parse import urlparse
import urllib.request

研究了不同的url规则发现：只要在搜索关键字是用=嫁接的，查询的关键在解析后的query里

如果不是用=嫁接，查询的关键在解析后的path里。

解析的规则都是一样的，正则如下：（6中不同情况的组合）

另外host为‘s.weibo.com'的url编码与其他不同要另做处理。

代码如下：有些网站的规则还不是很清楚，需要花大量时间找规则，规则越清晰，关键字就越清楚，如下规则已适合绝大部分网站，酌情参考。

# -*- coding:utf-8 -*-
 
from urlparse import urlparse
import urllib
import re
 
# url
source_txt = "E:\\python_Anaconda_code\\url.txt"
# 规则
regular = r'(\w+(%\w\w)+\w+|(%\w\w)+\w+(%\w\w)+|\w+(%\w\w)+|(%\w\w)+\w+|(%\w\w)+|\w+)'
 
# 存放关键字
kw_list = list()
 
# key为要研究网站的host，value为关键字的嫁接标识符
dict = {
 "www.baidu.com": "wd=",
 "news.baidu.com": "word=",
 "www.sogou.com": "query=",
 "tieba.baidu.com": "kw=",
 "wenku.baidu.com": "word=",
 "music.sina.com.cn": "k=",
 "www.haosou.com": "q=",
 "www.lagou.com": "list_",
 "www.chunyuyisheng.com": "query=",
 "s.weibo.com": "weibo/"
}
 
def Main():
 with open(source_txt, 'r') as f_source_txt:
  for url in f_source_txt:
   host = url.split("//")[1].split("/")[0]
   if host in dict:
    flag = dict[host]
    if flag.find("=") != -1:
     query = urlparse(url).query.replace('+', '')
     kw = re.search(flag + regular, query, re.I) # .group(0)
     if kw:
      kw = urllib.unquote(kw.group(0).split(flag)[1])
      print(kw)
    else:
     path = urlparse(url).path.replace('+', '')
     kw = re.search(flag + regular, path.replace("%25", "%"), re.I)
     if kw:
      kw = urllib.unquote(kw.group(0).split(flag)[1])
      print(kw)
if __name__ == '__main__':
 Main()

url.txt的内容如下：

https://www.baidu.com/s"text-align: center">

如果要研究其他host，可以加到字典dict里。

备注：以上代码和思路仅供参考，如有更好的方法敬请留言！

以上这篇Python解析、提取url关键字的实例详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Python,url,关键字

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“Python解析、提取url关键字的实例详解”

暂无评论...

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2026年02月10日

Python解析、提取url关键字的实例详解

python判断计算机是否有网络连接的实例

Django model反向关联名称的方法

评论“Python解析、提取url关键字的实例详解”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接