成语网站（Python）-快速备案

本文主要分享一下如何使用Python的正则表达式提取想要的信息，因最近要做一个成语接龙的小游戏，翻了很多成语大全网页，”成语大全网”网站里的成语还算比较齐全。因此爬取下来，做一个成语词库。一、分析网页，找出提取成语的规律1. 分析分页规律使用 Chrome浏览器打网页 http://www.chengyudaquan.net在网页中，点击页号，转到其它页，观察地址栏的变化，便知其中的数字就是页号。http://www.chengyudaquan.net/feisizichengyu/list_1.htmlhttp://www.chengyudaquan.net/feisizichengyu/list_2.htmlhttp://www.chengyudaquan.net/feisizichengyu/list_3.html2. 分析成语所在标签位置，及其规律打开”Chrome开发者工具”，按 F5 键刷新一下，找到链接 http://www.chengyudaquan.net/feisizichengyu/list_1.html 的请求，如下图：观察响应的内容，成语所在的a标签包含在span标签中，title属性的值就是我们需要提取的内容。<span class=”mainlia1 wzbtlist”><a title=”下不了台”二、编写代码1. 安装依赖模块本程序使用了 requests 模块下载 web 页面，需要安装 requests 。pip install requests2. 编写代码提取成语的正则表达如下：'<span\sclass=”mainlia1\swzbtlist”><a\stitle=”([^”]+)”‘完整代码如下：

本文出自快速备案，转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/37105.html

相关文章

kuaisubeian