Python爬取新闻语料并用bs4库解析DOM树

背景在做推荐系统的时候需要训练集,所以就自己写了一个爬虫,然后用 bs4 库对爬取的 html 数据处理得到新闻的 URL 链接。get_url() 函数是用来爬取数据并处理 html 内容的,其余的函数是针对特定类别的新闻数据而写的。以下是源代码:# coding=utf-8from urllib
python 2018年05月01日 124次浏览