Python爬虫之xpath使用

京漂大叔 2019-09-16 PM 157℃ 0条

xpath获取文本比较方便
但是获取带html标签的内容,比如,获取某个文章内容,里面有大量的html标签的时候,就需要选进行字符串转化,然后再对字符串解密获取内容。

content = selector.xpath('//*[@id="article_content"]')[0]
content2 = etree.tostring(content, encoding='utf-8',pretty_print=True)
res = content2.decode('utf-8')

content是获取内容,content2是对获取的内容进行utf-8编码转换成字符串,res进行解密,这样带html标签的内容就获取到了

标签: Python, xpath

非特殊说明,文章均为原创。

评论啦~