时间复杂度、空间复杂度均低于Transformer

梦晨衡宇发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT爆火以来，大语言模型和Transformer几乎成了同义词，然而真的如此吗？

刚刚，一个由国人主导，总共27所大学、研究机构和公司组成的开源研究团队，联名发表重磅论文《RWKV：在Transformer的时代重新发明RNN》，受到学术界大量关注。

RNN在大模型时代「复活」，27家机构联名重磅论文来了！模型已在GitHub揽星7.2k

RWKV就是论文中提出的新深度学习模型架构，以循环神经网络RNN为基础魔改而来。

实际上RWKV模型的开源发布比论文要早不少，并且已经在开源社区和行业内产生不小影响力。

其创始人彭博在知乎等平台也非常活跃。

在人类玩家打分的大模型匿名竞技场Chatbot Arena最新一期榜单中，RWKV在一众Transformer中排名第6，并且与7-11名相比拉开一个分数段。

并且RWKV也有在线Demo可玩。（地址在文末）

有意思的是，参与论文的EleutherAI实验室表示，论文还不是完全版本，由于不便公布的截止日期而被迫提前发布，以后还会继续完善。

那么就先来看一下，到目前为止RWKV团队都做出了哪些成果。

时间复杂度比GPT低

RWKV设计灵感来自苹果21年的研究《An Attention Free Transform》，团队意识到如果在公式中使用循环矩阵（circular matrices）就可以将网络结构写成RNN。

与GPT系列的时间复杂度O(n^2)相比，RNN的时间复杂度只有O(n),空间复杂度是O(1)。

这意味着生成内容的速度不会随长度而夸张增涨，显存占用也是恒定的。

一作彭博在接受36kr采访时曾这样形容：

GPT每写一个字就要重新看一遍前面所有文字，效率很低。而RWKV就相当于人类读了一遍资料后，在不再看资料的情况下直接回答。

传统RNN由于并行化的方式难以扩大规模，RWKV通过使每个通道的时间衰减与数据无关，可以在训练期间像Transformer一样做并行化。

训练好的140亿参数RWKV在多个数据集上的表现与开源Transformer大模型相当。

另外团队指出RWKV并非没有缺陷，虽然大致与Transformer的性能匹配，但对提示更敏感，并难以整合非常长的信息。

物理出身现在卖灯的论文一作

RWKV背后是一支不小的论文团队，总共27家大学、研究机构和公司组成，作者达30人。

论文一作Peng Bo，毕业于香港大学物理系，编程经验20+年，曾在世界最大外汇对冲基金之一Ortus Capital就职，负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

他的主要关注和兴趣方向在软硬件开发方面，在此前的公开访谈中，他曾明确表示AIGC是自己的兴趣所在，尤其是小说生成。

目前，Peng Bo在Github有1.3k的followers，知乎粉丝已经超过了11万人，随着RWKV论文的发布，这个数字还在增加。

除了关注RWKV模型、论文发布和最新进展，吃瓜网友们最讶异的还是Peng Bo的身份之多样：

不仅仅是RWKV模型一作、元智能OS创始人，他的最主要公开身份是一家灯具公司禀临科技的联合创始人，主要是做阳光灯、吸顶灯、便携台灯什么的。

乍一看这个跨行有点猛，物理出生，搞过量化金融，写了20年程序，然后主业卖灯，根据爱好搞了个大模型，走的还不是主流transformer路线……

并且Peng Bo本人应该是一个喵星人资深爱好者，Github、知乎、微信头像，以及灯具公司的官网首页、微博上，都有一只黄色橘猫的身影。

ps. 如果你也好奇RWKV这个词该怎么读，根据元智能OS团队在播客《三五环》的读法，应该是“Rua库”

论文地址：
https://arxiv.org/abs/2305.13048
RWKV模型下载：
https://huggingface.co/BlinkDL/rwkv-4-raven
在线试玩：
https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

参考链接：
[1]https://twitter.com/AiEleuther/status/1660811180901019648
[2]https://zhuanlan.zhihu.com/p/618011122
[3]https://36kr.com/p/2257744759205508
[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b

打赏赞

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

145 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

144 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

RNN在大模型时代「复活」，27家机构联名重磅论文来了！模型已在GitHub揽星7.2k

最近更新

文章目录

RNN在大模型时代「复活」，27家机构联名重磅论文来了！模型已在GitHub揽星7.2k

时间复杂度比GPT低

物理出身现在卖灯的论文一作

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

145 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

144 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

RNN在大模型时代「复活」，27家机构联名重磅论文来了！模型已在GitHub揽星7.2k

最近更新

文章目录

RNN在大模型时代「复活」，27家机构联名重磅论文来了！模型已在GitHub揽星7.2k

时间复杂度比GPT低

物理出身现在卖灯的论文一作

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章