请教一个 Python 爬 bing 词典遇到的音标乱码的问题。

用 HTMLParser 解析页面代码，其它部分都没问题，但是个别音标会出错。
比如 abdication, 音标为: "美 [ˌæbdɪ'keɪʃ(ə)n] "，会被解析成"美[ˌbdɪ'ke�", 查看页面编码是 utf-8 没问题，音标行代码为：
<div class="hd_prUS">美 [ˌæbdɪ'keɪʃ(ə)n] </div>。

Python 版本 2.7, 请问我是哪里出了问题？

ɪʃ

音标

Python

div

6 replies • 2018-02-01 15:22:41 +08:00

rabbbit

Jan 30, 2018

把所有代码贴上来

TimePPT

PRO

Jan 30, 2018

<div class="hd_prUS">美 [ˌæbdɪ'keɪʃ(ə)n] </div>
直接看页面源码，这个 div 的内容是这样的，部分字符被转义了。
看看是不是这个原因导致的编码问题。
记得 HTMLParser 有专门的处理方法。
好像是这个 https://docs.python.org/2/library/htmlparser.html#HTMLParser.HTMLParser.handle_charref
你看下。

以及，貌似页面 head 的 meta 里也有同样信息，还好解一些，可以试试拿到。
我用 BeautifulSoup 直接解析的，没问题（解析器用的 lxml ）

est

Jan 30, 2018 via Android

requests 爬的？这玩意坑

winglight2016

Jan 31, 2018

这种音标需要字体支持吧？

weeevv

Feb 1, 2018

谢谢楼上几倍，本科时写的代码直接拿来用了，没注意对音标部分作了长度限制导致 UTF8 编码直接被截断了----我原本想限制的是音标字符串的长度，所以产生了乱码。
另外转义字符也没处理，导致æ在音标没有显示。

weeevv

Feb 1, 2018

@weeevv 几倍-->几位