多模态相关智能AI资讯及多模态相关AI工具 | Weibo AI工具导航-AI导航新方向

首页
标签
多模态
全部文章

多模态

24篇

内容持续更新中

“天才少年”计划

2023年报告

2023排行榜

2023科技圈都在关注

3D人体建模

3D姿态跟踪

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

还自建首个有深度和红外的大规模多模态数据集 AI4Happiness 投稿量子位 | 公众号 QbitAI 北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红…

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

还有开放服务平台梦晨发自凹非寺量子位 | 公众号 QbitAI 大模型搞多模态，做文字、图像、音视频这几样就够了？中科院自动化所说不：我们还加入了3D点云和更多传感器信号。国产大模型新成员…

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

3天训完130亿参数通用VLM 一个北大投稿发送至凹非寺量子位 | 公众号 QbitAI 训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出…

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

还认识班卓琴？西风发自凹非寺量子位 | 公众号 QbitAI 字节大模型，BuboGPT来了。支持文本、图像、音频三种模态，做到细粒度的多模态联合理解。答哪指哪，什么讲了什么没讲，一目了然：…

让大模型操纵无人机，北航团队提出具身智能新架构

让大模型操纵无人机，北航团队提出具身智能新架构

智能体即大脑赵浩然投稿量子位 | 公众号 QbitAI 进入多模态时代，大模型也会操纵无人机了！只要视觉模块捕捉到启动条件，大模型这个“大脑”就会生成动作指令，接着无人机便能迅速准确地执行。 …

国产语音对话大模型来了：李开复零一万物参与，中英双语多模态

国产语音对话大模型来了：李开复零一万物参与，中英双语多模态

开源且商用萧箫发自凹非寺量子位 | 公众号 QbitAI 首个中英双语的语音对话开源大模型来了！这几天，一篇关于语音-文本多模态大模型的论文出现在arXiv上，署名公司中出现了李开复旗下大模…

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

不过两者都算“半斤八两” happy 投稿量子位 | 公众号 QbitAI 谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示： …

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

多模态大模型最全综述来了！7位微软研究员大力合作，5大主题，成文119页

从专业研究员到在校学生都适用丰色发自凹非寺量子位 | 公众号 QbitAI 多模态大模型最全综述来了！由微软7位华人研究员撰写，足足119页—— 它从目前已经完善的和还处于最前沿的两类多模态…

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

视觉+音频双模态相辅相成陈厚伦投稿量子位 | 公众号 QbitAI 只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一…

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标

性能已达到GPT-4V的85% 克雷西发自凹非寺量子位 | 公众号 QbitAI GPT-4的视觉能力还没全量放开测试，开源对手就隆重登场了。浙大竺院的一位校友，与微软研究院等机构合作推出了新…

贡献榜

贡献文章数

阿力

帅气的我简直无法用语言描述！

阿力

帅气的我简直无法用语言描述！

阿强

帅气的我简直无法用语言描述！