python可以提取公众号的资料吗(python爬虫公众号所有信息)
python可以提取公众号的资料吗(python爬虫公众号所有信息)
2024-11-22 03:21:53  作者:花亦卜弃  网址:https://m.xinb2b.cn/sport/con475220.html

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

主要功能

如何简单爬虫微信公众号获取信息:标题、摘要、封面、文章地址自动批量下载公众号内的视频

一、获取公众号信息:标题、摘要、封面、文章URL

操作步骤:

1、先自己申请一个公众号 2、登录自己的账号,新建文章图文,点击超链接

代码

1 import re 2 ​ 3 import requests 4 import jsonpath 5 import json 6 ​ 7 headers = { 8 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/67.0.3396.99 Safari/537.36", 9 "Host": "mp.weixin.qq.com",10 "Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&isMul=1&isNew=1&lang=zh_CN&token=1862390040",11 "Cookie": "自己获取信息时的cookie"12 }13 ​14 def getInfo():15 for i in range(80):16 # token random 需要要自己的 begin:参数传入17 url = "https://mp.weixin.qq.com/cgi-bin/appmsg?token=1904193044&lang=zh_CN&f=json&ajax=1&random=0.9468236563826882&action=list_ex&begin={}&count=5&query=&fakeid=MzI4MzkzMTc3OA==&type=9".format(str(i * 5))18 ​19 response = requests.get(url, headers = headers)20 ​21 jsonRes = response.json()22 ​23 ​24 titleList = jsonpath.jsonpath(jsonRes, "$..title")25 coverList = jsonpath.jsonpath(jsonRes, "$..cover")26 urlList = jsonpath.jsonpath(jsonRes, "$..link")27 ​28 # 遍历 构造可存储字符串29 for index in range(len(titleList)):30 title = titleList[index]31 cover = coverList[index]32 url = urlList[index]33 ​34 scvStr = "%s,%s, %s,\n" % (title, cover, url)35 with open("info.csv", "a ", encoding="gbk", newline='') as f:36 f.write(scvStr)

获取结果(成功):


二、获取文章内视频:实现批量下载

通过对单篇视频文章分析,我找到了这个链接:


通过网页打开发现,是视频的网页下载链接:


哎,好像有点意思了,找到了视频的网页纯下载链接,那就开始吧。

发现链接里的有一个关键参数vid 不知道哪来的? 和获取到的其他信息也没有关系,那就只能硬来了。

通过对单文章的url请求信息里发现了这个参数,然后进行获取。

1 response = requests.get(url_wxv, headers=headers)2 ​3 # 我用的是正则,也可以使用xpath4 jsonRes = response.text # 匹配:wxv_11051797507435560965 dirRe = r"wxv_.{19}"6 result = re.search(dirRe, jsonRes)7 ​8 wxv = result.group(0)9 print(wxv)

视频下载:

1 def getVideo(video_title, url_wxv): 2 video_path = './videoFiles/' video_title ".mp4" 3 ​ 4 # 页面可下载形式 5 video_url_temp = "https://mp.weixin.qq.com/mp/videoplayer?action=get_mp_video_play_url&preview=0&__biz=MzI4MzkzMTc3OA==&mid=2247488495&idx=4&vid=" wxv 6 response = requests.get(video_url_temp, headers=headers) 7 content = response.content.decode() 8 content = json.loads(content) 9 url_info = content.get("url_info")10 video_url2 = url_info[0].get("url")11 print(video_url2)12 ​13 # 请求要下载的url地址14 html = requests.get(video_url2)15 # content返回的是bytes型也就是二进制的数据。16 html = html.content17 with open(video_path, 'wb') as f:18 f.write(html)

那么所有信息就都完成了,进行code组装。

a、获取公众号信息

b、筛选单篇文章信息

c、获取vid信息

d、拼接视频页面下载URL

e、下载视频,保存

代码实验结果:



.最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。

  • 别知己是最近很火的歌(唱别知己这首歌)
  • 2024-11-22唱别知己这首歌新市镇,历史那么悠久幽远,人来人往,终年熙攘,人世间离情别绪那么浓郁,都浸润在新市每条河流、每条街巷、每座桥梁、每一座大小宅院的木屋里在新市,唱《别知己》这首歌,无非就是泪流满面每年四季的风雨吹打着古。
  • 潘基文博鳌会(改革开放在世界历史上具有重大意义)
  • 2024-11-22改革开放在世界历史上具有重大意义今年年初,潘基文担任了博鳌论坛理事长一职,并在海南省首次参加了博鳌论坛当时,主席通过演讲介绍了改革开放40年的历史意义和取得的成果,以及今后的发展计划12月12日,主席在人民大会堂会见潘基文,再次强调。
  • 经期洗头的危害和隐患(不仅伤身还会致癌)
  • 2024-11-22不仅伤身还会致癌“你不打热水洗澡吗?”“不用了,我这几天来大姨妈,不能洗头洗澡”小丽愣了一下,随即大声笑道:“我活了二十多年,从来没听过这种说法,不洗的话得多脏啊”网上一度有着传言,说女性经期时不能洗头洗澡,不是冷不。
  • 村民族团结进步创建工作总结 民族团结进步下庄镇
  • 2024-11-22村民族团结进步创建工作总结 民族团结进步下庄镇驶出杭瑞高速,进入下庄镇,集镇街道干净整洁,商户外立面整齐划一,鲜红的中国结让人眼前一亮,各民族紧跟时代步伐,共同团结奋斗、共同繁荣发展“现在街上划了停车位,放了隔离墩,车子不会再乱停乱放,我们进出都。
  • 宝山区项目环境清洁管理系统(创优美环境保安全运营)
  • 2024-11-22创优美环境保安全运营——东直门医院党委书记赵百孝、院长王显带队开展环境、安全大检查7月21日下午,北京中医药大学东直门医院党委书记赵百孝、院长王显带领党院办、医务处、护理部、门诊办、保卫处、后勤保障处、挂号收费处、感染办。
  • 大秦帝国之秦国崛起大结局(国命纵横)
  • 2024-11-22国命纵横《大秦帝国》第二部国命纵横两卷,读完心情并没有象读第一部《黑色裂变》那样激动的跌宕起伏小小张仪苏秦,怎能和商鞅那样的磐磐大材相比,更别说秦惠王嬴驷小儿,虽有一点孝公遗风,还算是一个有为明君,但又怎能同。
  • 红茶和工夫红茶的区别(小种红茶与工夫红茶)
  • 2024-11-22小种红茶与工夫红茶懂茶帝,邀请专业人士为茶友答疑解惑我们的原则是:不忽悠,不卖弄,不恶意攻击,不刻意美化,只是客观、中立地回答您的问题即使是一些没有标准答案的问题,我们也会尽量做到客观今天茶友“还我喵喵权”问了一个关于。
  • 怀孕初期可以吃燕窝吗(怀孕初期吃什么好)
  • 2024-11-22怀孕初期吃什么好怀孕初期吃什么好?怀孕初期吃什么保胎?怀孕一个月时,很多准妈妈尚不知道自己已经有喜的消息,所以也没那么多的顾忌,如果出现了先兆流产的表现,心里自然非常担忧那么,怀孕一个月时能够吃安胎药物吗?怀孕一个月。
  • 国学名言15句(经典国学十字名言)
  • 2024-11-22经典国学十字名言#青春不一样#国学经典名句,做人做事必看!01、燕雀安知鸿鹄之志哉——《史记》02、亡羊而补牢,未为迟也——《战国策》03、士别三日,当刮目相待——《三国志》04、凡事预则立,不预则废——《礼记》05。
  • 一年四季喝什么茶叶比较好(这五种大多数人心中的高档茶叶)
  • 2024-11-22这五种大多数人心中的高档茶叶平时喜欢喝茶得朋友经常问,哪些属于高档普洱茶,听起来这个问题非常的模糊广泛,那么今天就列举五种大多数人心中的高档茶叶给大家认识一番喜欢茶的朋友一定要看看这几种高档茶叶,这五种茶叶无论是送礼还是自己收藏。
  • 3.22是什么节日(它是什么时候确定的节日)
  • 2024-11-22它是什么时候确定的节日3.22是世界水日世界水日宗旨是唤起公众的节水意识,加强水资源保护为满足人们日常生活、商业和农业对水资源的需求,联合国长期以来致力于解决因水资源需求上升而引起的全球性水危机1977年召开的“联合国水事。
  • 保定白石山需要爬山的地方多吗(保定白石山游览攻略)
  • 2024-11-22保定白石山游览攻略网页搜索会有几个不同的白石山介绍本文介绍的白石山位于保定市涞源县白石山景区现已升级为5A景区,也是国家地质公园近日白石山景区公众号推送文章,只要提前一天转发文章《白石山的春天等你入画》,即可免首道门票。