高颜值恋爱动漫泡面番(热血动漫番太好看了)
高颜值恋爱动漫泡面番(热血动漫番太好看了)
2024-11-25 12:50:39  作者:炫耀慯  网址:https://m.xinb2b.cn/life/jfs110774.html

大家好,我是辣条。


最近被室友安利热血动漫番《终末的女武神》和《拳愿阿修罗》,太上头了周末休息熬夜看完了。不过资源不太好找,辣条一怒爬取了资源,这下可以看个够了。室友崇拜连连,想起了我的班花,快点开学啊,阿西吧...

Python爬虫-vip动漫采集效果展示


爬取目标

网站目标:樱花动漫


工具使用

开发工具:pycharm

开发环境:Python3.7, Windows10

使用工具包:requests,lxml, re,tqdm

重点学习内容

正则的使用 tqdm的使用 各种音频数据的处理

项目思路解析

搜索你需要的动漫数据,根据自己需要的视频不同解析视频的方法也是不一样的(会挑选两种视频进行解析)


在当前页面需要提取出对应的章节信息,获取到章节信息的a标签的跳转内容,提取出每个章节的名字,提取章节的方法我使用的xpath的方法(各位大佬可自行尝试其他的方法)


headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36', 'Referer': 'imomoe.la/search.asp'}​url = 'imomoe.la/view/8024.html'response = requests.get(url, headers=headers)# print(response.content.decode('gbk'))html_data = etree.HTML(response.content.decode('gbk'))chapter_list = html_data.xpath('//div[@class="movurl"]/ul/li/a/text()')chapter_url_list = html_data.xpath('//div[@class="movurl"]/ul/li/a/@href')[0]


url的数据需要自行拼接,根据新的url获取详情页面的数据


按照正常思路首先应该查看播放地址是否为静态数据


明显看出数据并不是静态数据,在区分是否为动态数据,通过抓包工具进行获取。


也并不是动态数据,媒体数据也不知道怎么形成的。


从头再来从前端页面在进行解析,找视频页面的事件。


并没有发现有效数据,但是在iframe下面的Script标签有js跳转地址 ,解析的数据网址和视频的播放地址是一样的域名, 点击查看, 这不是就是我们找的视频播放地址嘛 ,终于找到了,开始实现 在当前页面通过xpath方式提取出script里的js跳转地址, 拼接出新的视频链接播放地址,发送请求,通过正则表达式提取出所有MP4播放地址。


new_url = 'imomoe.la' chapter_url_listresponse = requests.get(new_url, headers=headers)html = etree.HTML(response.content.decode('gbk'))​data_url = 'imomoe.la' html.xpath('//div[@class="player"]/script[1]/@src')[0]res = requests.get(data_url, headers=headers).text# print(res)play_url_list = re.findall('\$(.*?)\$flv', res)print(play_url_list)

保存对视频数据发送请求,保存数据到mp4 ,通过tqdm工具能查看对应下载的速度以及下载的进度

for chapter, play_url in tqdm(zip(chapter_list, play_url_list)): result = requests.get(play_url, headers=headers).content f = open('终末的女武神/' chapter '.mp4', "wb") f.write(result)

​到这大功告成 但是当我把网址修改成斗破苍穹这个动漫时,却返回的数据为空



这个视频的加载数据的规则是不一样的加载的数据为m3u8的格式, 其他的音频的数据加载可能也不一样, 处理m3u8的数据稍稍的有丢丢复杂,它的m3u8的文件内部有嵌套了m3u8链接地址, 需要转换对应的数据接口,进行链接地址拼接, 取出ts文件进行下载,拼接成视频。

m3u8_url_list = re.findall('\$(.*?)\$bdhd', res)for m3u8_url, chapter in zip(m3u8_url_list, chapter_list): data = requests.get(m3u8_url, headers=headers) # print(data.text) new_m3u8_url = 'cdn.605-zy/' re.findall('/(.*?m3u8)', data.text)[0] # print(new_m3u8_url) ts_data = requests.get(new_m3u8_url, headers=headers) ts_url_list = re.findall('/(.*?ts)', ts_data.text) print("正在下载:", chapter) for ts_url in tqdm(ts_url_list): result = requests.get('cdn.605-zy/' ts_url).content f = open('斗破苍穹/' chapter '.mp4', "ab") f.write(result)

项目思路总结获取到想要动漫的地址提取详情页面的名字已经跳转地址获取页面的静态js文件解析视频播放地址或者m3u8文件保存对应数据简易源码分享

import requestsfrom lxml import etreeimport refrom tqdm import tqdm​​headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36', 'Referer': 'imomoe.la/search.asp'}​url = 'imomoe.la/view/8024.html'response = requests.get(url, headers=headers)# print(response.content.decode('gbk'))html_data = etree.HTML(response.content.decode('gbk'))chapter_list = html_data.xpath('//div[@class="movurl"]/ul/li/a/text()')chapter_url_list = html_data.xpath('//div[@class="movurl"]/ul/li/a/@href')[0]# print(chapter_list)# print(chapter_url_list)new_url = 'imomoe.la' chapter_url_listresponse = requests.get(new_url, headers=headers)html = etree.HTML(response.content.decode('gbk'))​data_url = 'imomoe.la' html.xpath('//div[@class="player"]/script[1]/@src')[0]res = requests.get(data_url, headers=headers).text# print(res)play_url_list = re.findall('\$(.*?)\$flv', res)print(play_url_list)​for chapter, play_url in tqdm(zip(chapter_list, play_url_list)): result = requests.get(play_url, headers=headers).content f = open('终末的女武神/' chapter '.mp4', "wb") f.write(result)



发现不会的或者学习python的,可以直接评论留言或者私我【非常感谢你的点赞、收藏、关注、评论,一键四连支持】


最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可(免费分享哦)希望能对你有所帮助.

  • 轮胎胎压正常不过怎么办(轮胎胎压明明打足气了)
  • 2024-11-25轮胎胎压明明打足气了随着经济的不断发展,汽车已经成为人们日常出行必不可少的交通工具而轮胎作为汽车上唯一和地面直接接触的部件,其重要性更是不言而喻很多人在开车上路前都会检查一下汽车轮胎,看看它是不是还有气但是有时候汽车轮胎。
  • 阳康后可以做轻微的家务吗(阳康之后要上班)
  • 2024-11-25阳康之后要上班作者:流畅随着第一批“小阳人”陆续转“阴”,身边有些“阳康”朋友们都已经逐步开始复工但也有不少小伙伴表示,即便是“阳康”了,也还是觉得自己虚虚的比如小编我,退烧的第一天就出门“放风”,结果脚步虚浮,在。
  • 非诚勿扰王佳杀夫监控(非诚女嘉宾王佳)
  • 2024-11-25非诚女嘉宾王佳2012年8月的一个凌晨,从西安某高档小区的住宅区里传出一声凄厉的惨叫,划破了夜幕的宁静紧接着是男人颤抖着声音的求饶声:“老婆,我错了,我求求你,饶了我吧!”他不断蜷缩着身体向后爬去,而他身后站着的是。
  • 掌上wegame怎样玩(我的侠客开启WeGame试玩)
  • 2024-11-25我的侠客开启WeGame试玩国庆期间,复古武侠开放世界游戏《我的侠客》单机版在Steam新品节开放限时试玩,获得广大玩家好评在玩家的大力呼声下,侠客工作室宣布《我的侠客》单机版加入本次WeGame试玩节,再次开启限时免费试玩!本。
  • 猫咪正常跳多高(猫咪到底能跳多高)
  • 2024-11-25猫咪到底能跳多高你感受过主子的俯视吗?冰箱上...图自:Youtube衣柜上...图自:Youtube还有天上...图自:Youtube没有猫咪到达不了的高处,只有铲屎官触碰不到的远方所以,TA们是怎么做到“平地起飞。
  • 逍遥游的原文及译文(逍遥游原文翻译)
  • 2024-11-25逍遥游原文翻译逍遥游(节选)《庄子》原文:  北冥有鱼,其名为鲲鲲之大,不知其几千里也化而为鸟,其名为鹏鹏之背,不知其几千里也,怒而飞,其翼若垂天之云是鸟也,海运则将徙于南冥南冥者,天池也《齐谐》者,志怪者也《谐》。
  • 瓜子二手车有哪些模式(放弃线下转线上)
  • 2024-11-25放弃线下转线上9月22日,瓜子二手车正式宣布,切换为新电商模式,包括瓜子严选及开放平台上近5000家车商将结束行业40余年只能线下交易的模式,实现二手车非标品的线上售卖在新模式下,用户看车变为VR线上看、线上咨询、。
  • 土豪金iphone6s(网友晒定制iPhone6名副其实的)
  • 2024-11-25网友晒定制iPhone6名副其实的IT之家(www.ithome.com):网友晒定制iPhone6:名副其实的“土豪金”这样的iPhone6,你想不想来一台?以下为文章全文:可能每一代的iPhone都有成为街机的基因,因此不少用户在。
  • 属马今年多大岁数
  • 2024-11-25属马今年多大岁数2002年属马的人今年21岁,虚岁22岁2014年属马的今年9岁,虚岁10岁按纳音10岁甲午是沙中金命,壬午22岁是杨柳木,庚午是路旁土,戊午是天上火,丙午是天河水,甲午是沙中金,按六十甲子和五音十二。
  • 9分钟健身瑜伽(空中瑜伽成健身新宠)
  • 2024-11-25空中瑜伽成健身新宠在一架架色彩斑斓的“秋千架”上,身材优雅、柔软的“舞者”或倒立、或劈叉、或飞舞……这不是杂技表演,而是刚刚在永康兴起,受到不少健身爱好者追捧的空中瑜伽悬空做瑜伽更有趣“空中瑜伽也叫反重力瑜伽,它利用地。
  • 声生不息第一期淘汰谁了(声生不息第四期结束)
  • 2024-11-25声生不息第四期结束第四期《声生不息》的主题是——港乐与我的“一生所爱”,这期节目一开始就是一首卢冠廷演唱的《一生所爱》,这首歌演唱的时候,穿插着电影《大话西游》里面的至尊宝和紫霞仙子纠缠不清的部分画面,现实的演唱穿插着。
  • 卡塔尔世界杯是如何晋级淘汰的(卡塔尔世界杯观察)
  • 2024-11-25卡塔尔世界杯观察新华社多哈11月25日电(记者肖世尧、王浩宇、赵建通)24日,卡塔尔世界杯首轮比赛结束,32支球队悉数亮相从首轮比赛来看,本届赛事实行的“5换人”规则,在很大程度上改变了世界杯比赛进程2020年5月,。