这是一些爬虫项目,欢迎大家clone学习,交流分享。
- common:一些从0开始写,没有用框架和其他工具的项目
- selenium:一些基于selenium工具进行编写的爬虫项目
- scrapy:基于scrapy框架进行编写的爬虫项目
这篇文章介绍了爬虫的一些基础知识爬虫基础知识_冰山一树Sankey的博客-CSDN博客
爬取百度图片,网址:百度图片-发现多彩世界 (baidu.com)
爬取腾讯招聘的,网址:腾讯招聘 (tencent.com)
爬取豆瓣电影的榜单,网址:豆瓣电影排行榜 (douban.com)
爬取古诗文网的古诗,包括诗名,作者,诗词,网址:唐诗三百首全集_古诗文网 (gushiwen.cn)
爬取2345影院的电影,包括电影名字,演员,以及评分,网址:VIP电影大全,好看的VIP电影高清在线观看 - 2345影视
爬取北京的链家二手房的,其网址:北京二手房房源_北京二手房出售|买卖|交易信息(北京链家) (lianjia.com)
爬取民政部,目标:
1、抓取最新中华人民共和国县以上行政区划代码 2、建立增量爬虫 - 网站有更新时抓取,否则不抓 3、所抓数据存到数据库,按照层级关系分表存储 - 省、市、县表
爬取百度贴吧的各种图片和视频,文章爬取爬取相对简单点,这里就没有爬了
网址:百度贴吧——全球领先的中文社区 (baidu.com)
爬取了86代理网的免费IP并进行测试可用性,存到自己的代理IP池
具体可去我写的这篇文章如何建立自己的代理IP池,减少爬虫被封的几率
这篇文章讲了一些selenium的一些概念和使用方法 selenium在爬虫中的使用_冰山一树Sankey的博客-CSDN博客
爬取斗鱼网的各个直播间的房间名,直播类型,主播,人气以及直播间首页图
网址:游戏直播_全部游戏直播_斗鱼直播 (douyu.com)
这里呢,不属于爬虫,介绍了如何通过selenium去截取网页上的验证码,后续可通过机器学习破解
猫眼top100榜单加上了一些反爬策略,使用一般方式去爬取需要先破解反爬,而使用selenium则不用,selenium的优势就再这个例子中体现出来。
网址:TOP100榜 - 猫眼电影 - 一网打尽好电影 (maoyan.com)
运用selenium模拟登录QQ空间
这篇文章介绍了爬虫框架的基本使用,参数配置等爬虫框架Scrapy_冰山一树Sankey的博客-CSDN博客
盗墓笔记的爬虫,爬取了所有的盗墓笔记的小说
网址:盗墓笔记-盗墓笔记小说全集-盗墓笔记电影电视剧-南派三叔作品 (daomubiji.com)
包括: 盗墓笔记1:七星鲁王 盗墓笔记2:秦岭神树 盗墓笔记3:云顶天宫 盗墓笔记4:蛇沼鬼城 盗墓笔记5:迷海归巢 盗墓笔记6:阴山古楼 盗墓笔记7:邛笼石影 盗墓笔记8:大结局 盗墓笔记2015年更新
爬取豆瓣电影榜单Top250
爬取了链家二手房,不过是基于scrapy框架的,可与lianjia.py进行对比学习
爬取360图片中的美女图片,喜欢美女的,可取运行体验
爬取腾讯招聘,内容和#careers_tencent.py一样,网址:腾讯招聘 (tencent.com)
破解网易翻译的,破解后可基于本地直接翻译文本