搜索引擎 - 深蓝资源网

介绍

目前而言，已经用python编写了一个网络爬虫抓取页面，和一个简单的前端

网络爬虫，已经有很多高手写过，我基本上奉行了拿来主义，
得益于python完善的lib，这个网络爬虫实现起来非常的简单:

使用urllib2从对应的url地址抓取html

一个需要注意的地方是/，有部分网站会限制爬虫访问，所以我加入了headers用于模拟浏览器访问。
这个方法差强人意，但是/我也没有找到一个更完善的办法。

抓取到页面后，基于HTMLParser做了html的解析:

基本上，要说的就是/HTMLParser使用方法见文档，HTMLParser预先了定义了一组虚接口handle_starttag，handle_data和handle_endtag，使用者通过重载这三个接口，来实现对html中的tag进行处理，进而完整的解析抓取到的html。

然后基于抓取到的页面做了前端的搜索功能。

下载地址

分享海报分享链接

作者：莫妮莫妮

Ta的主页与Ta联系

Ta的投稿

Ta的文章