所在的位置： html >> html介绍 >> Python高效提取HTML文本的

Python高效提取HTML文本的

在解决自然语言处理问题时，有时你需要获得大量的文本集。互联网是文本的最大来源，但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！这是一个简单的基准测试，可分析

转载请注明：http://www.aierlanlan.com/rzfs/262.html

上一篇文章：看来,最后只有html程序员活了下来

下一篇文章：第期HTML不同空格的特性与