ao3如何创建合集（我是怎样得到AO3内容的）

ao3如何创建合集（我是怎样得到AO3内容的）

2024-11-08 12:40:37 作者:情侣童佳倩网址:https://m.xinb2b.cn/life/qkj135655.html

和大家之前说过，相关代码我会放出来，现在代码已经上传了去Github搜索 czw90130/AO3_DataAnalyze，我也和大家讲解一下实现方法，希望能激发大家学习编程兴趣，今天小编就来说说关于ao3如何创建合集?下面更多详细答案一起来看看吧!

ao3如何创建合集

和大家之前说过，相关代码我会放出来，现在代码已经上传了去Github搜索 czw90130/AO3_DataAnalyze，我也和大家讲解一下实现方法，希望能激发大家学习编程兴趣。

这里先讲解爬虫是怎么实现的，至于文本分析器。下周有空再写吧，实在是肝不动了！

先说一下我的配置环境：

操作系统：Ubuntu 18.04Python环境：conda 4.8.2 Python 3.7.6编辑器使用的是 Jupyter Notebook 代码也是ipynb格式。想学python或者数据分析的可以用这个，适合组织文章。

使用到的 Python 库有：

sys os time 不解释了re 正则表达式解析tqdm 进度条selenuim 自动化测试/爬虫BeautifulSoup html 标签解析器

文章分析器使用的库也在这里说一下：

jieba 结巴中文分词，就是吧文章拆分成一个个词语wordcloud 词云生成器matplotlib 图表绘制库numpy python数学运算库（这个其实就是做了个计数器～）

都是非常常用的库，对 Python 和数据分析有兴趣的朋友可以照着这个表看看。（操作系统不熟Windows也可以）对AO3的爬取并不复杂，但还是有一些难度的。经过我一系列的测试发现,Request并不能有效的爬取AO3的信息，因此就选择了selenium。对于Selenium的介绍，我就过多不多描述了，有很多技术文介绍。大家可以自行搜索。我这里给大家一些关键词，方便大家搜索。

selenium配置chromedriverselenium元素定位方法

首先加载要用到的库

import sysimport reimport osimport timefrom tqdm import tqdmfrom selenium import webdriverfrom bs4 import BeautifulSoupimport random

爬取AO3的中文文章其实并不复杂：

1、我们进入AO3首页，点击 “Search” 然后点击 “Edit Your Search” 进入高级搜索模式

2、在Language里选择中文，点击“Search”

3、把滚动条拉倒最下面，点第二页

4、把浏览起里面的地址复制下来

我们仔细查看这个url请求，发现这个请求的参数还是非常清晰的，让我们来看看works/后面的参数：

search?commit=Search&page=后面跟着一个数字2，我们点击其第三页，这个数字也变成了3。所以可以断定这个参数指的是页码&work_search[language_id]= 后面跟着zh字样，可以判这个参数是控制语言的。

同理&work_search[rating_ids]=控制的是分级

其他字段也是类似的，大家有兴趣可以自己试验，我就不再叙述了，值得一提的是，我在爬取时并没有用到分级标签功能，只是在搜索里面翻文章。通过多次搜索我发现AO3的搜索结果有一定的随机性，并没有主动干预搜索结果，这一点还是很良心的。

#获取搜索页面def make_search_url(page=1, langu="zh", rating_key=""): rating = { "": "", "Not_Rated": 9, "General_Audiences": 10, #一般观众 "Teen_And_Up_Audiences": 11, #青少年及以上观众 "Mature": 12, #成熟 "Explicit": 13, #明确的 } base_loc = 'https://xxx.org/works/' #网站地址大家自己查这里我用 xxx 替代了 base_loc = "search?commit=Search&page=" str(page) "&utf8=✓" #搜索页 base_loc = "&work_search[bookmarks_count]=" base_loc = "&work_search[character_names]=" base_loc = "&work_search[comments_count]=" base_loc = "&work_search[complete]=" base_loc = "&work_search[creators]=" base_loc = "&work_search[crossover]=" base_loc = "&work_search[fandom_names]=" base_loc = "&work_search[freeform_names]=" base_loc = "&work_search[hits]=" base_loc = "&work_search[kudos_count]=" base_loc = "&work_search[language_id]=" langu #语言 base_loc = "&work_search[query]=" base_loc = "&work_search[rating_ids]=" rating[rating_key] #分级 base_loc = "&work_search[relationship_names]=" base_loc = "&work_search[revised_at]=" base_loc = "&work_search[single_chapter]=0" base_loc = "&work_search[sort_column]=_score" base_loc = "&work_search[sort_direction]=desc" base_loc = "&work_search[title]=" base_loc = "&work_search[word_count]=" return base_loc

下面我们看看搜索页面的html,在Chrome中可以按F12打开开发者工具。 Ctrl Shift C 使用元素选择工具点击一下文章标题，查看后发现所有的搜索结果都在 <ol class=work index group>标签下，并且在li标签的id中记录了文章的id。

我们点击进入一篇文章，查看文章的url发现文章url与上面的id是一一对应的。这样，我们就可以通过分析搜索页得到文章的地址。

这样，通过BeautifulSoup抓取相应标签获得li标签的id,就可以得到该搜索页下面所有的文章地址了。

#获取文章链接def get_work_id_from_search(html): old_list = [] soup = BeautifulSoup(html, 'html.parser') ol = soup.find('ol', attrs={'class': 'work index group'}) work_blurb_groups = ol.findAll('li', attrs={'class': 'work blurb group'}) for wbg in work_blurb_groups: if wbg["id"] not in old_list: old_list.append(wbg["id"]) return old_list

做好这些准备工作下面我们就开始正式爬取数据

save_path = "fulltext/" #存储文章的文件夹#5000页中文内容,这里可以先取较小的数字做测试start_p = 1end_p = 5000pbar = tqdm(range(start_p, end_p))

具体思路是这样的：

打开一个浏览器，需要注意的我这里使用了代理，否则无法浏览到AO3；通过selenium find_element_by_id 功能找到相应按钮自动点击，同意网站条款；进入循环，通过make_search_url函数组合出搜索页的链接，遍历页码；将搜索页的html传入函数get_work_id_from_search提取出所有文章id；遍历文章id通过文章id组合出文章地址并访问，最后保存文章页面的html。

这其中有两个注意事项：

当进入限制级文章时，网站会提示再次同意浏览条款，当检测到条款关键字时，使用find_element_by_link_text('Proceed').click()点击确认即可；频繁访问后，网站会拒绝访问请求出现‘Retry later’页面，当检测到这种情况后，进行异常处理，关闭当前的浏览器，等待一分钟后重新访问。（这也是爬取文章速度比较慢的原因，有大神知道怎么解决的请赐教）

c_service = webdriver.chrome.service.Service('/usr/bin/chromedriver')c_service.command_line_args()c_service.start()chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--proxy-server=socks5://localhost:1080')browser = webdriver.Chrome(chrome_options=chrome_options) # 调用Chrome浏览器browser.get("https://xxx.org/") # 网址用xxx替代time.sleep(3)browser.find_element_by_id('tos_agree').click()time.sleep(1)browser.find_element_by_id('accept_tos').click()time.sleep(1)for page in pbar: search_url = make_search_url(page) #生成搜寻页面链接 browser.get(search_url) # 请求页面，打开一个浏览器 html_text = browser.page_source # 获得页面代码 try: work_list = get_work_id_from_search(html_text) #获得文章的id for work in work_list: work_path = os.path.join(save_path, work ".html") if os.path.exists(work_path): continue work_url = "https://xxx.org/works/" work.split("_")[1] #创建文章URL 网址用xxx替代 browser.get(work_url) html_text = browser.page_source #获得页面代码 if "If you accept cookies from our site and you choose \"Proceed\"" in html_text: #无法获取正文则点击Proceed browser.find_element_by_link_text('Proceed').click() time.sleep(1) browser.get(work_url) html_text = browser.page_source if "Retry later" in html_text: raise AttributeError if "" in html_text: pbar.set_description("saving: " work) fh = open(work_path, 'w') #保存页面 fh.write(html_text) #写入内容 fh.close() #关闭 time.sleep(float(random.randint(10,50))/10) #随机延时 except AttributeError as e: print(e) time.sleep(3) browser.get("http://www.toutiao.com") time.sleep(3) browser.quit() c_service.stop() time.sleep(60) c_service.start() browser = webdriver.Chrome(chrome_options=chrome_options) #调用Chrome浏览器 browser.get("https://xxx.org/") # 网址用xxx替代 time.sleep(5) browser.find_element_by_id('tos_agree').click() time.sleep(2) browser.find_element_by_id('accept_tos').click() time.sleep(3) time.sleep(float(random.randint(10,50))/10) #随机延时

以上就是AO3爬虫的所有代码，爬虫会将文章都保存在 fulltext 文件夹下等待分析，这里的内容都在 AO3_spider.ipynb 中，都是开源的，大家可以自行 clone 拿去修改玩耍。

再次说明一下，因为是利用周末时间写的东西，语法格式也是比较飘逸，我自己也并不是爬虫和数据分析方面的专家。所以很多地方还是有些笨拙的。希望大神们也能帮忙指点。

螺蛳粉热销海外（螺蛳粉国际大卖）
2024-11-08螺蛳粉国际大卖来源：中国新闻社来源：中国新闻网作者：左宇坤你喜欢什么颜色？别人：天空蓝、柠檬黄、冰雪白……吃货：螺蛳粉作为微博热搜的常客，柳州螺蛳粉堪称“粉”圈顶流最近，这一国民美食再次备受关注，因为它出口激增，走。

吃汤圆的坏处（吃汤圆的好处和坏处是什么）
2024-11-08吃汤圆的好处和坏处是什么坏处：其外层的糯米皮可能不容易消化，如果一次性吃太多汤圆，容易引起消化不良，尤其不适宜有消化功能障碍的人吃，以免出现腹痛、腹胀、反酸的症状另外大部分汤圆糖分都比较高，如果平时运动少，营养过剩，食用过多。

小舍得欢欢和米桃成绩差距（小舍得欢欢歧视米桃）
2024-11-08小舍得欢欢歧视米桃田雨岚这个角色在电视剧当中最让人生气，因为从小家庭的自卑，让她把所有的希望寄托在自己的儿子身上，子悠为此承受了很大的压力剧中有三个孩子的教育模式被拿来对比，到底现在的教育应该怎么样才能够让孩子快乐地成。

男主面白心毒阴郁病娇古言（重塑神魂回到九重天）
2024-11-08重塑神魂回到九重天我为苍生身死，花了百年时间才重塑神魂回到九重天，却发现我有了个替身她替我享受人间无数供奉，替我在阿娘膝下承欢，替我和仙侣大婚他们说爱我才找了个替身，却在我归来时为了维护她都恨不得我死不过一百年，亲人背。

唐玄宗人物故事（唐玄宗遨游月宫）
2024-11-08唐玄宗遨游月宫唐朝玄宗年间，因玄宗皇帝喜道学神仙，所以京城之中，集聚了些颇有道术的高士这时候，有一个叫做罗公远的高士，广极神通，名播四海你道这罗公远是何来历？没有人知道他是何方之人？是何朝何代？只知道他长的也就是十。

小学生数学速算的八种巧算（7个数学巧算小技巧）
2024-11-087个数学巧算小技巧数学不像语文那样，很多题型只要答出相近意思即可，它要求计算的准确性，一点都不能错，一步错步步错！有很多小学生在计算方面很“弱”——找不到技巧在一些规定要用“简便方法”计算的题目中，很多同学不会套用“简。

光电耦合器的原理图符号（光电耦合器的内部结构）
2024-11-08光电耦合器的内部结构光电耦合器通常用于电路中，尤其是对低电压或高度噪声敏感的电路中，它用于隔离电路，以防止发生电冲突或排除有害噪声在当前的商业市场中，我们可以购买输入电压为10kV至20kV的光耦合器，以输出具有25kV。

2022年西部全明星阵容小前锋是谁（队里有个全明星中锋）
2024-11-08队里有个全明星中锋森林狼管理层在最近表现得非常活跃，他们有意戈贝尔、卡佩拉以及迈尔斯-特纳等多名中锋的交易，其原因在于球队希望找到一个搭档唐斯的内线，而这样的做法也让不少人感到不解首先，唐斯已经是全明星中锋，场均能轰下。

深度神经的训练方法（自律神经训练法）
2024-11-08自律神经训练法注：自律神经训练法，是我见过的激发身心潜能，推进个人成长最有效的工具之一它与神经语言程序学、神经链调整术、速读、思维导图、突破性思维是我见过的最强悍有力的工具，它与个人渴望成长的欲望及无坚不摧的毅力结。

白醋泡黄豆能减肥吗（白醋泡黄豆可不可以减肥）
2024-11-08白醋泡黄豆可不可以减肥能减肥醋中含有大量的氨基酸，能够防止身体内脂肪的合成，还能够促进脂肪的分解，对于减肥有很好的辅助功效黄豆中含有丰富的纤维素，能够促进胃肠的蠕动，帮助食物的消化吸收，减少食物残渣在胃肠道内的滞留，清除宿。

爱奇艺电视果4k电影（享受极简的娱乐）
2024-11-08享受极简的娱乐不知不觉，4K时代仿佛已经正式到来，越来越多的4K电视乃至4K手机出现在了人们的身边，但单单有了硬件设备，其实还远远不够，搭建4K内容平台，同样也至关重要，那么笔者手上的爱奇艺电视果，便是支持手机4K。

去油去屑洗发水哪个牌子好用男士（你的洗发水上榜了吗）
2024-11-08你的洗发水上榜了吗,。