python-xpath获取html文档的部分内容

站长资源 2026/8/2 佚名

71 1538 71

DDR爱好者之家 Design By 杰米

有些时候我在们需要的用正则提取出html中某一个部分的文字内容，如图:

获取dd部分的html文档，我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class='row clearfix '，然后用xpath去获取到这部分:

name = tree.xpath("//dd[@class='row clearfix ']")
from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList"//dd[@class='row clearfix ']")
print(name)

如果直接打印他是不能够出来的，

我们需要对Element进行处理，用到name1 = html.tostring(name[0])，代码如下:

from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList"//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
print(name1)

打印截图:

但是大家可以看到里面的等内容并不是中文，原因是我们使用tostring方法输出的是修正后的HTML代码，但是结果是bytes类型，在python中bytes类型是不可以进行编码的，需要转换成字符串，使用代码name1.decode()，此时我们将bytes类型转换为str（字符串）类型。

那么此时我们关键是如何将$#26080;此类的符号转换成汉字！！！那么首先要搞清楚这是什么编码？这类符号是HTML、XML 等 SGML 类语言的转义序列。它们不是”编码“，也就是说我们不能使用utf-8、gbk等编码进行处理，需要使用HTMLParse进行处理，完整代码如下：

from lxml import html
import requests
from html.parser import HTMLParser #导入html解析库
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList"//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
name2 = HTMLParser().unescape(name1.decode())
print(name2)

此时运行结果如下：

那么此时就已经大功告成了！！！

以上这篇python-xpath获取html文档的部分内容就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,xpath,html文档

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“python-xpath获取html文档的部分内容”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2026年08月02日

python-xpath获取html文档的部分内容

python 装饰器功能与用法案例详解

python GUI库图形界面开发之PyQt5布局控件QVBoxLayout详细使用方法与实例

评论“python-xpath获取html文档的部分内容”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接