Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。
Python标准库
BeautifulSoup(markup, “html.parser”)
- Python的内置标准库
- 执行速度适中
- 文档容错能力强
- Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器
BeautifulSoup(markup, “lxml”)
- 速度快
- 文档容错能力强
- 需要安装C语言库
lxml XML 解析器
BeautifulSoup(markup, “xml”)
- 速度快
- 唯一支持XML的解析器
- 需要安装C语言库
html5lib
BeautifulSoup(markup, “html5lib”)
- 最好的容错性
- 以浏览器的方式解析文档
- 生成HTML5格式的文档
- 速度慢