Python爬虫（一）抓取指定的页面

Python爬虫（一）抓取指定的页面

2024-11-01 23:34

(以下是在windows环境下的操作，python版本为3)

Python爬虫（一）抓取指定的页面

官方文档上的解释是：

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的，它包含以下几个模块：

urllib.request

urllib.request，打开并且读取url

urllib.error，包含了一些urllib.request引起的异常

urllib.parse，解析url

urllib.robotparser，解析robots.txt文件

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

这里，只需用到urllib.request模块，request模块包含了一些函数，用来处理打开的url。

urlopen()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要的参数就是url，可以是一个字符串也可以是一个request对象。
函数返回一个可以作为文本管理器的对象，有如下方法：

geturl()，返回检索到的url资源，通常用于确定是否允许重定向

info()，返回页面的元信息，例如headers

getcode()，返回响应的http状态码

为了清楚这些函数的作用是什么，我们运行如下python代码：

运行结果：

首先我们需要知道百度搜索的url，打开百度随便搜索一个词，就能在地址栏看到url

得到url之后，剩下的就是对url进行爬取了，代码如下：

urllib.parse.urlencode()可以将字符串转换为url格式的字符串，这里data进行转换后，我们可以得到的字符串。
要是只想对一个字符串进行urlencode转换，可以使用urllib.parse.quote()，例如：

上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码，之后要做的事，就是对爬取到的东西进行处理，来获取我们想要的数据

以上就是本篇文章【Python爬虫（一）抓取指定的页面】的全部内容了，欢迎阅览！文章地址：http://motor168.cxdr.cn/news/1.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页珂云塔资讯移动 http://ch168.cxdr.cn/ , 查看更多

最新新闻

为什么女生坐摩托车爱侧身露腿？老司机秒懂！

小编作为女生站在女生的角度分析了一下，主要有4个原因：01保持仪态端庄 02谨防走光 03避免男女间的尴尬侧身乘坐摩托车的坏

厦门旅游攻略最佳时间，厦门五日游多少钱，千万别错过！

　　厦门，这座被誉为“海上花园”的城市，以其独特的自然风光、丰富的历史文化、以及诱人的美食，吸引着来自世界各地的游客。选

增脂增肌做什么运动

　　增脂增肌可以选择一些有氧运动，例如俯卧撑、仰卧起坐、高位下拉、哑铃深蹲等，也可以配合增肌营养餐，以及增肌运动等方式达

江西5天4晚旅游行程路线，去江西庐山五日旅游几月份最适合？

　　江西5天4晚旅游行程路线，去江西庐山五日旅游几月份最适合　　江西庐山是一个风景优美、文化底蕴深厚的自然风景名胜区。至于

21年度抖音土豪名单，蜗蜗品牌创始人上榜

　　在闲暇时很多人都会拿着手机刷小视频打发时间吧，在抖音这个平台上经常会刷到很多炫富的土豪，文中为大家盘点了21年度抖音土

中国网小记者地方服务中心正在启动，快来看看……

近期“双减政策”一出台，全国各地的教培行业被念起了“政策紧箍咒”，各地不再审批新的面向义务教育阶段学生的学科类校外培训机

小红书话题排行榜在哪里看？话题排行怎么规定的？

小红书作为一个集生活、娱乐、购物于一体的社交电商平台，吸引了大量的用户关注。那么，你是否想过了解小红书上的热门话题呢？今

抖音上10大最火的美食博主，李子柒第二，密子君榜首，你喜欢谁？

1、密子君：可不能在晚上看这位博主的视频哦，不然你会不自觉的起床找东西吃的。她经常做的是美食测评，为大家推荐各个城市好吃

国家医疗保障局医保动态经个人授权，您的医保信息还能这样用！

医保信息具有显著的个人属性，如何在法律法规的框架下，既能安全高效地让“数据替人多跑路”，又能切实保护好每个人的个人隐私，

AI智能抖音标题文案生成器：一键解决热门话题、创意内容与关键词优化难题

随着互联网的快速发展短视频平台抖音成为了新一代年轻人表达自我、分享生活的要紧舞台。在抖音上一个吸引人的标题文案往往能决定

本企业新闻

推荐企业新闻