内容持续更新中
可即插即用 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 还在用指令微调解决多模态大模型的“幻觉”问题吗? 比如下图中模型将橙色柯基错认为“红狗”,还指出周围还有几条。 现在,中科大的一项研究…
代码已开源 转载自 沁园夏量子位 | 公众号 QbitAI 大模型“识图”能力都这么强了,为啥还老找错东西? 例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类…… 这是因为,我们…
业内首次证据证明 白交 发自 凹非寺 量子位 | 公众号 QbitAI 语言模型击败扩散模型,在视频和图像生成上实现双SOTA! 这是来自谷歌CMU最新研究成果。 据介绍,这是语言模型第一次在标志性的…
权重已开源 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 最近多模态大模型是真热闹啊。 这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B。 …
从浅层对齐到深度融合 梦晨 发自 凹非寺量子位 | 公众号 QbitAI 看看这张图中有几个房子?如果你回答3个,就和GPT-4V的答案一样。 但是最新开源的国产多模态模型CogVLM-17B,就能看…
性能已达到GPT-4V的85% 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。 浙大竺院的一位校友,与微软研究院等机构合作推出了新…
从专业研究员到在校学生都适用 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 多模态大模型最全综述来了! 由微软7位华人研究员撰写,足足119页—— 它从目前已经完善的和还处于最前沿的两类多模态…
开源且商用 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 首个中英双语的语音对话开源大模型来了! 这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模…
还认识班卓琴? 西风 发自 凹非寺量子位 | 公众号 QbitAI 字节大模型,BuboGPT来了。 支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。 答哪指哪,什么讲了什么没讲,一目了然:…
还有开放服务平台 梦晨 发自 凹非寺量子位 | 公众号 QbitAI 大模型搞多模态,做文字、图像、音视频这几样就够了? 中科院自动化所说不: 我们还加入了3D点云和更多传感器信号。 国产大模型新成员…