神奇宝贝最好用的最强平民精灵(我用GPT-2创造了3000个宠物小精灵)
神奇宝贝最好用的最强平民精灵(我用GPT-2创造了3000个宠物小精灵)
2024-11-25 11:25:36  作者:牵迩左手  网址:https://m.xinb2b.cn/sport/xdx442583.html

既然你诚心诚意的发问了,我们就大发慈悲的告诉你!

为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色....

听到这段台词,相信很多朋友都会不由自主地接上一句.......

我们是穿梭在银河的火箭队!白洞!白色的明天在等着我们!

就这样~喵~


没错,它就是《神奇宝贝》中火箭队每次出场都让人忍不住发笑的经典台词。

1997年上映的《神奇宝贝》已经陪伴了我们二十年之久,给不少80、90后的童年留下了美好的回忆,尤其是那800多只宠物小精灵。


会放电的皮卡丘、经常酣睡的妙蛙种子、不好惹的小火龙,还有喵喵、超梦、可达鸭。

这些可可爱爱又奇奇怪怪的动漫小精灵让人记忆犹新,相信很多人小时候都幻想过拥有一支属于自己的精灵宝贝。

最近,一位名为Matthew Rayfield的程序员就满足了自己的愿望。他用《神奇宝贝》中的788只动漫形象作为原型,通过AI生成了3000个全新的宠物小精灵。


而这个AI正是自然语言模型GPT-2.

GPT-2:「精灵制造机」

提到NLP模型,我们印象最深的可能是GPT-3。今年该模型因1750亿超大参数量和超强应用,在各大媒体平台频频刷屏。GPT-2,与GPT-3师出同门,都是OpenAI研发的自然语言处理模型,两个模型最大的不同是它的参数量,GPT-2仅为15亿。

但这并不影响它的应用范围。与GPT-3类似,GPT-2也可以用来写故事、画图表,或者玩国际象棋。


最近Rayfield受到GPT-2在国际象棋和民间音乐上应用的启发,也想来搞点不一样的事情。

他突发奇想决定用GPT-2来生成全新的宠物精灵形象,结果效果还不错。Rayfield从3000个生成图像中挑选出了6个,如图:


emm...看起来,小精灵原型还不错,但就是清晰度太差。Rayfield又邀请了业内知名动漫设计师雷切尔•布里格斯(Rachel Briggs)来帮他完成这些精灵的“重绘”工作。

最终,基于GPT-2生成的原型,这些宠物小精灵就变成了这样:




感觉第二个和第六个可以直接成为《神奇宝贝》的一员了,你觉得呢?

Rayfield简单介绍了他利用GPT-2创建这些精灵的实现过程。大致就是:搜寻了788张小精灵图片(均为64x64像素)作为数据源,然后:

将图像转换为基于文本的格式。

用输入文本训练GPT-2模型。

使用经过训练的模型生成图像。

将基于文本的图像格式转换为PNG。

在这个过程中也出现了一些问题。比如在文本格式转换时,出现了很多嘈杂的像素,因此最终调整成了如下格式。

不过,用文字训练GPT-2的过程还相对简单,最棘手的环节是通过代码将输出结果变成规范化的图像格式。这部分代码Rayfield已将其在GitHub开源,感兴趣的朋友可以了解一下。


github/MatthewRayfield/pokemon-gpt-2

Image GPT:语言模型处理图像任务

需要说明的是,上述Rayfield用GPT-2语言模型来学习图像表征的方法,早已被OpenAI验证。

无监督和自监督的学习,或没有人为标记的数据的学习,在自然语言处理领域取得了令人瞩目的成功,因为像BERT、GPT-2、RoBERTa、T5 等 Transformer 模型,在广泛的语言任务中取得了最佳成绩,但同类的模型在图像分类任务中,不能生成较为有用的特征。

出于这一目的,OpenAI尝试利用GPT-2处理图像分类任务,以探究用 Transformer 模型在学习图像表征方面的可行性。

他们发现,当用展开成像素序列——被称为 iGPT(image GPT) 的图像来训练 GPT-2 模型时,模型似乎能够捕捉二维图像特征,并且能够在没有人类提供的数据标注下,自动生成各种逻辑连续的图像样本。实验结果如图:


人类提供上半图(第一列),GPT-2自动补全下半图,右侧为原始图像

同时,该模型的特征在多个分类任务的数据集上也取得了不错的成绩,尤其是在 ImageNet 上取得了接近于最优的成绩,如下图。


在自然语言处理中,依赖于单词预测的无监督学习算法(如 GPT-2 和 BERT)之所以成功,一个可能的原因是下游语言任务的实例出现在训练用的文本中。但相比之下,像素序列并不直接地包含它们所属的图像的标签。

而即使没有明确的监督,图像上的 GPT-2 仍然起作用。OpenAI研究团队认为其原因是足够大的 Transformer 模型,通过训练来预测下一个像素,最终它能够学会根据清晰可识别对象来生成具有多样性的样本。


他们采用一种通用的无监督学习算法—生成序列建模进行了测试。具体来说,他们在 ImageNet 上分别训练包含 76M、455M 和 1.4B 参数的 iGPT-S、iGPT-M 和 iGPT-L Transformer;还在来自 ImageNet 和互联网的图像的混合数据集上训练 iGPT-XL ——一个 68 亿参数的 Transformer。由于对长序列采用密集注意力(dense attention)的建模计算成本高,他们用 32x32、48x48 和 64x64 的低分辨率进行了训练。

最终实验结果表明,通过计算量来代替二维知识,以及通过从网络中选择的特征,序列 Transformer 可以与最优的卷积网竞争,实现无监督图像分类。此外,通过将 GPT-2 语言模型直接应用于图像生成的结果,也进一步表明由于其简单性和通用性,序列 Transformer 在足够的计算量下,有可能成为学习到不同领域的特征的有效方法。

更多OpenAI团队实验内容可参见论文:cdn.openai/papers/Generative_Pretraining_from_Pixels_V2.pdf

引用链接:

reddit/r/MachineLearning/comments/jyh0h4/p_generating_pokemon_sprites_with_gpt2/

matthewrayfield/articles/ai-generated-pokemon-sprites-with-gpt-2/

openai/blog/image-gpt/

雷锋网雷锋网雷锋网

  • 长城八达岭游玩攻略(一日精品游感受八达岭长城文化魅力)
  • 2024-11-25一日精品游感受八达岭长城文化魅力新华社北京3月24日电(记者张漫子)随着国内旅游市场的回暖,多个国内景区推出精品线路迎接游客记者24日从八达岭长城景区了解到,为了破解黑导游、低价团、不文明游览等行业痼疾,从即日起的每个周六日,八达岭。
  • 荣耀智慧屏x1怎么样(荣耀智慧屏x1骂声一片)
  • 2024-11-25荣耀智慧屏x1骂声一片日前,荣耀正式推出了荣耀智慧屏X1系列,有50、55、65英寸三种尺寸可选其中,65英寸版售价3299元,已于5月25日首销5月28日,荣耀智慧生活放出了一批荣耀智慧屏X165英寸的用户评价我们一起来。
  • 核聚变未来的发展 未来的永恒能源
  • 2024-11-25核聚变未来的发展 未来的永恒能源西班牙《先锋报》网站近日发表题为《核聚变:未来的永恒能源?》的文章,作者是洛雷娜·法拉斯·佩雷斯全文摘编如下:在最近关于核聚变领域取得进展的一些消息公布之后,不少工程师发表评论解释说,他们在大学时代就。
  • 一切的成绩来自行动:进步的阶梯向上的力量
  • 2024-11-25一切的成绩来自行动:进步的阶梯向上的力量来源:人民日报从左至右依次是:金冲及、叶嘉莹、丘成桐、刘慈欣、杨扬、唐江澎今天是第二十六个世界读书日信息时代,“书”的选择更加丰富,“读”的方式更加多元,读书与社会人生的联系也更加紧密本版约请不同领域。
  • 风吹一夏 风吹半夏为何能成为爆款
  • 2024-11-25风吹一夏 风吹半夏为何能成为爆款中新网北京1月7日电(记者任思雨)一只美丽的虎斑蝶扇动翅膀,在冰冷的钢铁丛林中轻盈飞舞,这个寓意着许半夏化茧成蝶的片头,让很多观众对《风吹半夏》印象深刻2022年末,《风吹半夏》以高分口碑收官,赵丽颖。
  • 银川机场位置(通知银川文化城城市候机楼正式启动运营)
  • 2024-11-25通知银川文化城城市候机楼正式启动运营10月27日上午,银川城投·文化城城市候机楼正式启动运营,这是除悦海新天地城市候机楼外,银川第二家城市候机楼文化城城市候机楼位于金凤区银川城投文化城园区,是由银川河东国际机场与银川城投·文化城、塞上城。
  • 捷德奥特曼与罗布兄弟的结局(五个儿子打一个爹)
  • 2024-11-25五个儿子打一个爹本周,播出了4个月的《捷德奥特曼》也画上完美的句号,不过最后一集,还是槽点多多,让我们看看吧捷德奥特曼先是一如既往的开奥王模式教育贝利亚极黑,上来优势很明显的,但是突然被摸了一下变回原形了不懂原理,灯。
  • 进入好莱坞的韩国男演员(50岁的他是韩国公认好演员)
  • 2024-11-2550岁的他是韩国公认好演员海报元素来自李秉宪主演电影《单身骑士》答案:A假、B假、C真、D真1970年7月12日出生的李秉宪已经50岁,这个在大学阶段意外进入演员训练班的人,却成了韩国最成功的演员之一韩国三大电影奖项拿到手软,。
  • 手机投影电视有声音吗(手机无线投屏有几种形式)
  • 2024-11-25手机无线投屏有几种形式手机无线投屏到电视是有声音的,形式上跟在电视本地播放没有任何区别无线投屏是近一两年在多屏幕之间交互的一种模式,常见有手机、平板、电脑、投影仪、一体机等屏幕的多屏互动从原本的商务投屏领域迅速发展到如今的。
  • 无双大蛇3终极版最强角色搭配(八位武将神格化前后对比图)
  • 2024-11-25八位武将神格化前后对比图有关无双的大蛇3的相关游戏,近日开放了神速版本的体验,相信部分玩家已经体验到了该游戏,而作为无双大蛇的最新作,因为剧情涉及到了希腊地区众神方面的设定,所以部分武将也有了神格化的能力,简单来说就是变成了。
  • 酥肉粉可以炸椒盐蘑菇吗(这道椒盐薯粉炸酥肉)
  • 2024-11-25这道椒盐薯粉炸酥肉【5-230】这是一个腊月二十六起锅炸猪肉的故事……有点点过年的感觉了-----2021.02.07Bysure汪【豆果美食官方认证达人】用料猪肉自选红薯淀粉看肉量面粉一点点葱小半根姜一块鸡蛋一个花椒。
  • 海绵宝宝的三种配音(海绵宝宝的中文配音有多牛)
  • 2024-11-25海绵宝宝的中文配音有多牛以往国语配音的动画作品总是会有一些违和感,因为语言环境、文化背景等因素,原版的配音往往比中文配音更自然一些当然,也有例外中文配音版本《海绵宝宝》,就是大家公认的最接近原版配音的版本在很多海绵宝宝迷的心。