超污网站(网上动态图有多污)

写在前面的话夜凉如水,苍穹下,秋叶舞。天桥下川流不息的斑斓车灯,人来人往的十字街角,喧嚣与繁华的城。我需要看看小姐姐的图片,好好感受下这世界的温柔以待。私信小编007或者01即可获取数十套PDF或者零基础入门资料一套哦!一.思路分析按照爬虫的基本规律:1.找到目标2.抓取目标3.处理目标内容,获取有用的信息行动1.我们的目标是: http://gifcc.com/forum.php 这个网站呢,是一个论坛式网站,里面分了几大类,反正试试各种动图。我们的目标呢,就是找到这(收)些(藏)动(到)图(自)的(己)地(电)址(脑).2.看看各个模块的网址,有什么规律对,没错,如果以游客的身份进行访问,那么各个模块的网址就是这样的形式:http://gifcc.com/forum-XX-1.html开工动手1.获取入口页面内容即根据传入的URL,获取整个页面的源码这里我们使用了webdriver以及PhantomJS这些模块,为什么呢?因为网页是动态加载的,这样可以抓取的数据全一点。2.获取页码数这里的页码处理用到了一个模板pq,采用PyQuery的方式查找我们需要的元素,感觉更好处理一点,挺方便的同时这里的处理稍微有点意思,如果观察这个页面的话,会发现,每个模板的页码,在上面和下面都有一个,然后我这里截取的一下,因为我们只需要一个页码数字即可3-6 第三步到第六步一起来说其实就是根据页码数,来进行遍历,获取到每一页的内容然后得到每一页中的所有图片地址在进行获取每一页的内容的时候,需要重新组装页面地址。有了新的地址,就可以获取当前页面的内容,并进行数据处理,得到每一张图片的地址列表在获取到图片列表后,再次解析,获取每一张图片的URL将图片存到本地,以及将数据写入数据库到这里其实大体的内容已经完成了,我们能够将这个论坛的各个模块的动图保存在本地,同时,也将数据放入数据库中.数据库的筛选在完成了将数据放入到数据库的之后, 我想着可以直接通过调用数据库,将图片保存(为什么有这个想法呢,因为我发现如果直接在主程序中存贮图片,它跑的太慢了,不如将数据都放到数据库中,之后专门调用数据库来贮存图片)但是这里发现一个问题,数据中的内容挺多的,然后发现了好多内容是重复的,因此我们需要对数据库进行去重关于数据去重的内容,其实我之前的文章已经写过了(写那篇文章的时候,这个爬虫已经完成了呢~)主要思路是针对某一个元素的数量进行操作,pymongo里面有一个方法是可以统计指定元素的数量的,如果当前元素只有一个,就不管,不是一个元素,就删除核心代码如下:读取数据库中的内容,存储图片数据去重之后,再次进行图片的存储,就方便多了之后图片删除了也不用重新跑一遍,核心代码如下:完整代码01_get_gif_url.py02_delete_repeat_url_in_mongodb.py谢谢阅读!!!

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/37487.html

kuaisubeian