博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spider_使用parse,urlencode,爬取豆瓣电影(get请求拼接url)
阅读量:4942 次
发布时间:2019-06-11

本文共 878 字,大约阅读时间需要 2 分钟。

""" 使用urllib库 爬取豆瓣电影 ajax(异步刷新) """ from urllib import request,parse import chardet import json # 定义豆瓣的url url = "https://movie.douban.com/j/chart/top_list?" headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"} # 定义一个参数字典 patamter ={ # 电影类型 "type":"24", # 好评率 "interval_id":"100:90", # 开始 "start":"0", # 总共加载多少部 "limit":"20" } # 将参数转化为可拼接到url中的字符串格式 得到完整的url url = url+parse.urlencode(patamter) # 将user-agent 注入到请求中 req=request.Request(url,headers=headers) # 获取网页,进行指定的编码格式 去解码 得到json格式 字符串文件 res = request.urlopen(req).read().decode("utf-8") # print(res) # print(type(res)) # 将字符串转为json格式文件 返回的是一个列表, 列表里面包含的都是字典 jsonObj=json.loads(res) print(jsonObj) print(type(jsonObj)) # 提取需求信息 for data in jsonObj: print(data) # 字典 print(type(data)) # 提取电影名 print(data['title'])

转载于:https://www.cnblogs.com/YangQingHong/p/10978160.html

你可能感兴趣的文章
启动项目时出现java.io.EOFException异常。
查看>>
php 数据处理--合并,拆分,追加,去重
查看>>
AX2012 学习自动生成编码
查看>>
JAVA获取服务器路径的方法
查看>>
安装Jaspersoft Studio
查看>>
友盟消息推送UPush
查看>>
关于kinect的一些想法
查看>>
工作的时候 用到了 获取时间 DateTime 整理了一下
查看>>
微信公众号开发 [04] 模板消息功能的开发
查看>>
第七章 consul docker集群
查看>>
数据库分库分表
查看>>
一个可以参考的JVM内存分配
查看>>
解决页面<textarea>初始焦点显示位置不正确的问题
查看>>
Caffe2的安装
查看>>
山东济南站见面会完美收官
查看>>
[LeetCode] 33. Search in Rotated Sorted Array
查看>>
LightOJ - 1032 数位DP
查看>>
np.array()和np.mat()区别
查看>>
用汉堡包的方式评价一下自己的合作伙伴
查看>>
P1550 [USACO08OCT]打井Watering Hole
查看>>