#windows会存在乱码问题,需要使用gbk解码,并使用ignore忽略不能处理的字节
"{}-{}页.html"
#实例化一个对象spider
"User-Agent"
#查看程序执行时间
"输入起始页:"
"pn"
#linux不会存在上述问题,可以直接使用decode解码
#拼接URL地址
#发请求
#初始化url属性
#+1操作保证能够取到整数
#提示
#以脚本的形式启动爬虫
#定义一个爬虫类
#入口函数
"w"
"输入终止页:"
#请求函数,得到页面,传统三步
"第%d页抓取成功"
"kw"
#定义路径
"__main__"
"ignore"
"gbk"
"输入贴吧名:"
#每爬取一个页面随机休眠1-2秒钟的时间
#爬虫执行时间
#保存文件函数
#调用入口函数
文章为作者独立观点,不代表观点