多模态相关智能AI资讯及多模态相关AI工具 | 第 2 页 | Weibo AI工具导航-AI导航新方向

首页
标签
多模态
全部文章

多模态

24篇

内容持续更新中

“天才少年”计划

2023年报告

2023排行榜

2023科技圈都在关注

3D人体建模

3D姿态跟踪

多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

可即插即用丰色发自凹非寺量子位 | 公众号 QbitAI 还在用指令微调解决多模态大模型的“幻觉”问题吗？比如下图中模型将橙色柯基错认为“红狗”，还指出周围还有几条。现在，中科大的一项研究…

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

代码已开源转载自沁园夏量子位 | 公众号 QbitAI 大模型“识图”能力都这么强了，为啥还老找错东西？例如，把长得不太像的蝙蝠和拍子搞混，又或是认不出一些数据集中的稀有鱼类…… 这是因为，我们…

大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友

大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友

业内首次证据证明白交发自凹非寺量子位 | 公众号 QbitAI 语言模型击败扩散模型，在视频和图像生成上实现双SOTA！这是来自谷歌CMU最新研究成果。据介绍，这是语言模型第一次在标志性的…

Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩

Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩

权重已开源明敏发自凹非寺量子位 | 公众号 QbitAI 最近多模态大模型是真热闹啊。这不，Transformer一作携团队也带来了新作，一个规模为80亿参数的多模态大模型Fuyu-8B。 …

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩

从浅层对齐到深度融合梦晨发自凹非寺量子位 | 公众号 QbitAI 看看这张图中有几个房子？如果你回答3个，就和GPT-4V的答案一样。但是最新开源的国产多模态模型CogVLM-17B，就能看…

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

性能已达到GPT-4V的85% 克雷西发自凹非寺量子位 | 公众号 QbitAI GPT-4的视觉能力还没全量放开测试，开源对手就隆重登场了。浙大竺院的一位校友，与微软研究院等机构合作推出了新…

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

从专业研究员到在校学生都适用丰色发自凹非寺量子位 | 公众号 QbitAI 多模态大模型最全综述来了！由微软7位华人研究员撰写，足足119页—— 它从目前已经完善的和还处于最前沿的两类多模态…

国产语音对话大模型来了：李开复零一万物参与，中英双语多模态

国产语音对话大模型来了：李开复零一万物参与，中英双语多模态

开源且商用萧箫发自凹非寺量子位 | 公众号 QbitAI 首个中英双语的语音对话开源大模型来了！这几天，一篇关于语音-文本多模态大模型的论文出现在arXiv上，署名公司中出现了李开复旗下大模…

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

还认识班卓琴？西风发自凹非寺量子位 | 公众号 QbitAI 字节大模型，BuboGPT来了。支持文本、图像、音频三种模态，做到细粒度的多模态联合理解。答哪指哪，什么讲了什么没讲，一目了然：…

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

还有开放服务平台梦晨发自凹非寺量子位 | 公众号 QbitAI 大模型搞多模态，做文字、图像、音视频这几样就够了？中科院自动化所说不：我们还加入了3D点云和更多传感器信号。国产大模型新成员…

贡献榜

贡献文章数

阿力

帅气的我简直无法用语言描述！

阿力

帅气的我简直无法用语言描述！

阿强

帅气的我简直无法用语言描述！