内容持续更新中
与Jeff Dean一起共事 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 出任Gemini联合技术主管! 这就是Transformer“贡献最大”作者Noam Shazeer(诺姆·沙泽尔)…
作者:和MLP不能互相取代 白交 发自 凹非寺 量子位 | 公众号 QbitAI 爆火神经网络架构KAN,上新了! KAN2.0。 此次与科学问题更深入地融合,可以轻松解出经典物理学研究。 比如发现拉…
一文看懂“Transformer挑战者”两大主要思想 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 悬着的心终于死了: 被尊为Transformer挑战者的Mamba,已正式被ICLR拒绝。 …
支持多种视频合成或处理任务 允中 发自 凹非寺 量子位 | 公众号 QbitAI 建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生…
陶大程领衔 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 华为盘古系列,带来架构层面上新! 量子位获悉,华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。 它通过增强非线性,在传统Tr…
来自FlashAttention作者 梦晨 发自 凹非寺量子位 | 公众号 QbitAI 现在ChatGPT等大模型一大痛点: 处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制…
网友找出论文中更多关键却被忽略的细节,比如只做了GPT-2规模的试验等 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 针对Transformer,谷歌DeepMind一项新的发现引起了不小争…
已在64k CodeLlama上通过验证 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新…
权重已开源 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 最近多模态大模型是真热闹啊。 这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B。 …
约3400万参数 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 苹果Transformer的“秘密”,让发烧友给扒出来了。 大模型浪潮下,即使保守如苹果,也每逢发布会必提“Transforme…