内容持续更新中
从专业研究员到在校学生都适用 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 多模态大模型最全综述来了! 由微软7位华人研究员撰写,足足119页—— 它从目前已经完善的和还处于最前沿的两类多模态…
视觉+音频双模态相辅相成 陈厚伦 投稿 量子位 | 公众号 QbitAI 只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一…
性能已达到GPT-4V的85% 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。 浙大竺院的一位校友,与微软研究院等机构合作推出了新…
提出位置建模新方法 张傲 投稿 量子位 | 公众号 QbitAI 多模态大模型集成了检测分割模块后,抠图变得更简单了! 只需用自然语言描述需求,模型就能分分钟标注出要寻找的物体,并做出文字解释。 在其…