成语网站(Python)

本文主要分享一下如何使用Python的正则表达式提取想要的信息,因最近要做一个成语接龙的小游戏,翻了很多成语大全网页,”成语大全网”网站里的成语还算比较齐全。因此爬取下来,做一个成语词库。一、分析网页,找出提取成语的规律1. 分析分页规律使用 Chrome浏览器 打网页 http://www.chengyudaquan.net在网页中,点击页号,转到其它页,观察地址栏的变化,便知其中的数字就是页号。http://www.chengyudaquan.net/feisizichengyu/list_1.htmlhttp://www.chengyudaquan.net/feisizichengyu/list_2.htmlhttp://www.chengyudaquan.net/feisizichengyu/list_3.html2. 分析成语所在标签位置,及其规律打开”Chrome开发者工具”,按 F5 键刷新一下,找到链接 http://www.chengyudaquan.net/feisizichengyu/list_1.html 的请求,如下图:观察响应的内容,成语所在的a标签包含在span标签中,title属性的值就是我们需要提取的内容。<span class=”mainlia1 wzbtlist”><a title=”下不了台”二、编写代码1. 安装依赖模块本程序使用了 requests 模块下载 web 页面,需要安装 requests 。pip install requests2. 编写代码提取成语的正则表达如下:'<span\sclass=”mainlia1\swzbtlist”><a\stitle=”([^”]+)”‘完整代码如下:

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/37105.html

kuaisubeian