Python实现全角半角字符互转的方法

站长资源 2025/2/25 佚名

31 1538 31

DDR爱好者之家 Design By 杰米

前言

相信对于每一个编程人员来说，在文本处理的时候，经常会遇到全角半角不一致的问题。于是需要程序能够快速的在两者之间互转。由于全角半角本身存在着映射关系，所以处理起来并不复杂。

具体规则为：

全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）

半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

而且除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 65248 = 全角）

所以可以直接通过用+-法来处理非空格数据，对空格单独处理。

用到的一些函数

chr()函数用一个范围在range（256）内的（就是0～255）整数作参数，返回一个对应的字符。

unichr()跟它一样，只不过返回的是Unicode字符。

ord()函数是chr()函数或unichr()函数的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值。

先来打印下映射关系：

for i in xrange(33,127):
 print i,chr(i),i+65248,unichr(i+65248)

返回结果

33 ! 65281 ！
34 " 65282 ＂
35 # 65283 ＃
36 $ 65284 ＄
37 % 65285 ％
38 & 65286 ＆
39 ' 65287 ＇
40 ( 65288 （
41 ) 65289 ）
42 * 65290 ＊
43 + 65291 ＋
44 , 65292 ，
45 - 65293 －
46 . 65294 ．
47 / 65295 ／
48 0 65296 ０
49 1 65297 １
50 2 65298 ２
51 3 65299 ３
52 4 65300 ４
53 5 65301 ５
54 6 65302 ６
55 7 65303 ７
56 8 65304 ８
57 9 65305 ９
58 : 65306 ：
59 ; 65307 ；
60 < 65308 ＜
61 = 65309 ＝
62 > 65310 ＞
63 "color: #ff0000">把全角转成半角：


def full2half(s):
 n = []
 s = s.decode('utf-8')
 for char in s:
 num = ord(char)
 if num == 0x3000:
  num = 32
 elif 0xFF01 <= num <= 0xFF5E:
  num -= 0xfee0
 num = unichr(num)
 n.append(num)
return ''.join(n)


把半角转成全角：


def half2full(s):
 n = []
 s = s.decode('utf-8')
 for char in s:
 num = char(char)
 if num == 320:
  num = 0x3000
 elif 0x21 <= num <= 0x7E:
  num += 0xfee0
 num = unichr(num)
 n.append(num)
return ''.join(n)


上面的实现方式非常的简单，但是现实情况下可能并不会把所以的字符统一进行转换，比如中文文章中我们期望将所有出现的字母和数字全部转化成半角，而常见标点符号统一使用全角，上面的转化就不适合了。
解决方案，是自定义词典。


#!/usr/bin/env python
# -*- coding: utf-8 -*-
 
FH_SPACE = FHS = ((u"　", u" "),)
FH_NUM = FHN = (
 (u"０", u"0"), (u"１", u"1"), (u"２", u"2"), (u"３", u"3"), (u"４", u"4"),
 (u"５", u"5"), (u"６", u"6"), (u"７", u"7"), (u"８", u"8"), (u"９", u"9"),
)
FH_ALPHA = FHA = (
 (u"ａ", u"a"), (u"ｂ", u"b"), (u"ｃ", u"c"), (u"ｄ", u"d"), (u"ｅ", u"e"),
 (u"ｆ", u"f"), (u"ｇ", u"g"), (u"ｈ", u"h"), (u"ｉ", u"i"), (u"ｊ", u"j"),
 (u"ｋ", u"k"), (u"ｌ", u"l"), (u"ｍ", u"m"), (u"ｎ", u"n"), (u"ｏ", u"o"),
 (u"ｐ", u"p"), (u"ｑ", u"q"), (u"ｒ", u"r"), (u"ｓ", u"s"), (u"ｔ", u"t"),
 (u"ｕ", u"u"), (u"ｖ", u"v"), (u"ｗ", u"w"), (u"ｘ", u"x"), (u"ｙ", u"y"), (u"ｚ", u"z"),
 (u"Ａ", u"A"), (u"Ｂ", u"B"), (u"Ｃ", u"C"), (u"Ｄ", u"D"), (u"Ｅ", u"E"),
 (u"Ｆ", u"F"), (u"Ｇ", u"G"), (u"Ｈ", u"H"), (u"Ｉ", u"I"), (u"Ｊ", u"J"),
 (u"Ｋ", u"K"), (u"Ｌ", u"L"), (u"Ｍ", u"M"), (u"Ｎ", u"N"), (u"Ｏ", u"O"),
 (u"Ｐ", u"P"), (u"Ｑ", u"Q"), (u"Ｒ", u"R"), (u"Ｓ", u"S"), (u"Ｔ", u"T"),
 (u"Ｕ", u"U"), (u"Ｖ", u"V"), (u"Ｗ", u"W"), (u"Ｘ", u"X"), (u"Ｙ", u"Y"), (u"Ｚ", u"Z"),
)
FH_PUNCTUATION = FHP = (
 (u"．", u"."), (u"，", u","), (u"！", u"!"), (u"？", u""), (u"”", u'"'),
 (u"'", u"'"), (u"‘", u"`"), (u"＠", u"@"), (u"＿", u"_"), (u"：", u":"),
 (u"；", u";"), (u"＃", u"#"), (u"＄", u"$"), (u"％", u"%"), (u"＆", u"&"),
 (u"（", u"("), (u"）", u")"), (u"‐", u"-"), (u"＝", u"="), (u"＊", u"*"),
 (u"＋", u"+"), (u"－", u"-"), (u"／", u"/"), (u"＜", u"<"), (u"＞", u">"),
 (u"［", u"["), (u"￥", u"\\"), (u"］", u"]"), (u"＾", u"^"), (u"｛", u"{"),
 (u"｜", u"|"), (u"｝", u"}"), (u"～", u"~"),
)
FH_ASCII = HAC = lambda: ((fr, to) for m in (FH_ALPHA, FH_NUM, FH_PUNCTUATION) for fr, to in m)
 
HF_SPACE = HFS = ((u" ", u"　"),)
HF_NUM = HFN = lambda: ((h, z) for z, h in FH_NUM)
HF_ALPHA = HFA = lambda: ((h, z) for z, h in FH_ALPHA)
HF_PUNCTUATION = HFP = lambda: ((h, z) for z, h in FH_PUNCTUATION)
HF_ASCII = ZAC = lambda: ((h, z) for z, h in FH_ASCII())
 
 
def convert(text, *maps, **ops):
 """ 全角/半角转换
 args:
 text: unicode string need to convert
 maps: conversion maps
 skip: skip out of character. In a tuple or string
 return: converted unicode string
 """
 
 if "skip" in ops:
 skip = ops["skip"]
 if isinstance(skip, basestring):
  skip = tuple(skip)
 
 def replace(text, fr, to):
  return text if fr in skip else text.replace(fr, to)
 else:
 def replace(text, fr, to):
  return text.replace(fr, to)
 
 for m in maps:
 if callable(m):
  m = m()
 elif isinstance(m, dict):
  m = m.items()
 for fr, to in m:
  text = replace(text, fr, to)
 return text
 
 
if __name__ == '__main__':
 text = u"成田空港—【ＪＲ特急成田エクスプレス号"
print convert(text, FH_ASCII, {u"【": u"[", u"】": u"]", u",": u"，", u".": u"。", u"": u"？", u"!": u"！"}, spit="，。？！“”")


特别注意：引号在英语体系中引号是不区分前引号和后引号。
总结
以上就是关于Python实现全角半角字符互转的方法，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

python全角转半角,python,全角半角转换,python,全角字符

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“Python实现全角半角字符互转的方法”

暂无评论...

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2025年02月25日

Python实现全角半角字符互转的方法

Python文本相似性计算之编辑距离详解

python制作websocket服务器实例分享

评论“Python实现全角半角字符互转的方法”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接