多模态相关智能AI资讯及多模态相关AI工具 | Weibo AI工具导航-AI导航新方向

首页
标签
多模态
全部文章

多模态

24篇

内容持续更新中

“天才少年”计划

2023年报告

2023排行榜

2023科技圈都在关注

3D人体建模

3D姿态跟踪

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

甚至部分指标比13B的模型还要好小炒汤圆投稿量子位 | 公众号 QbitAI 混合专家（MoE）架构已支持多模态大模型，开发者终于不用卷参数量了！北大联合中山大学、腾讯等机构推出的新模型MoE-…

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

首创基于多模态大模型的音乐理解与生成框架腾讯PCG ARC实验室投稿量子位 | 公众号 QbitAI 能处理音乐的多模态大模型，终于出现了！只见它准确分析出音乐的旋律、节奏，还有使用的乐器，甚…

用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤

用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤

自动驾驶新解法丰色曹原发自凹非寺量子位 | 公众号 QbitAI 用多模态大模型做自动驾驶的决策器，效果居然这么好？来自商汤的最新自动驾驶大模型DriveMLM，直接在闭环测试最权威榜单C…

大模型都会标注图像了，简单对话即可！来自清华&NUS

大模型都会标注图像了，简单对话即可！来自清华&NUS

提出位置建模新方法张傲投稿量子位 | 公众号 QbitAI 多模态大模型集成了检测分割模块后，抠图变得更简单了！只需用自然语言描述需求，模型就能分分钟标注出要寻找的物体，并做出文字解释。在其…

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

视觉+音频双模态相辅相成陈厚伦投稿量子位 | 公众号 QbitAI 只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一…

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文

还能一键Markdown 国科大&旷视团队投稿量子位 | 公众号 QbitAI 想将一份文档图片转换成Markdown格式？以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清…

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

不过两者都算“半斤八两” happy 投稿量子位 | 公众号 QbitAI 谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示： …

让大模型操纵无人机，北航团队提出具身智能新架构

让大模型操纵无人机，北航团队提出具身智能新架构

智能体即大脑赵浩然投稿量子位 | 公众号 QbitAI 进入多模态时代，大模型也会操纵无人机了！只要视觉模块捕捉到启动条件，大模型这个“大脑”就会生成动作指令，接着无人机便能迅速准确地执行。 …

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

3天训完130亿参数通用VLM 一个北大投稿发送至凹非寺量子位 | 公众号 QbitAI 训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出…

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

还自建首个有深度和红外的大规模多模态数据集 AI4Happiness 投稿量子位 | 公众号 QbitAI 北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红…

贡献榜

贡献文章数

阿力

帅气的我简直无法用语言描述！

阿力

帅气的我简直无法用语言描述！

阿强

帅气的我简直无法用语言描述！