首页
AI资讯
文章详情

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

2024-10-24
AI资讯
原创文章

28
0
0
0

0°

帅气的我简直无法用语言描述！

2792 文章
0 粉丝
0 关注

最近更新

1.「法外狂徒」ChatGPT！30年老律师用它旁征博引，结果被禁止执业

2.英伟达版ChatGPT来了，PC端部署，很GPU

3.ChatGPT要有记忆力了！

文章目录

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

测评成绩超DINOv2

克雷西发自凹非寺

量子位 | 公众号 QbitAI

视频动作跟踪，已经精确到了每个像素！

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

Meta最新推出的视频跟踪工具CoTracker，发布没多久就在GitHub上斩获了1.4k星标。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

从官方发布的几个DEMO来看，效果还是很震撼的。

一场马术比赛中，马匹在骑手的操纵下优雅地跨过障碍，画出了优美的弧线。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

还有一架帆船乘风破浪，仿佛捉住了风的影子。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

另一边，一位跳伞运动员从空中划过，留下了一道绚丽的彩虹……

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

对这个新“玩具”，有网友评论说，它不仅能改变物体追踪技术，也将在体育(动作)分析、野生动物追踪，甚至电影后期领域掀起一场新的革命。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

我们也第一时间上手试玩了一下线上的简易版本，下面就一起来看看吧。

精准记录像素轨迹

首先有请四川知名网红、熊猫界的当红炸子鸡“果赖”隆重登场。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

只见花花六亲不认的步伐被CoTracker整个记录了下来，真的是太可爱了。

不过要论戏剧性的话，可能还得是我们的“西直门三太子”萌兰。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

看完了可爱的胖达，接下来就要进入整活环节了，来点名场面！

这个就不用再多介绍了吧（确信）。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

除了上面的这位老朋友，还有王境泽吃炒饭的镜头。

只见他手上诚实的动作在CoTracker面前暴露无遗。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

而在地球的另一边，马斯克正在直播用FSD开着特斯拉去找小扎，准备进行一番亲切友好的交流。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

CoTracker的效果就展示到这里了，朋友们如果想看其他效果可以自己玩玩看。

传送门：
https://huggingface.co/spaces/facebook/cotracker

不过，在线DEMO是个简易版本，还不支持自定义跟踪位置，只能根据输入的跟踪数量等距分配。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

但是如果自己部署、用代码操纵的话，就可以设置任意跟踪点了。

说到这我们正好来看一下CoTracker该怎么部署。

首先是Colab版本，我们刚刚说到的自定义跟踪点也在Colab当中。

传送门：
https://colab.research.google.com/github/facebookresearch/co-tracker/blob/master/notebooks/demo.ipynb

Colab的过程不必过多介绍，进入之后运行笔记中的代码就可以了。

而如果想自己动手的话，最简单的方式是从torch.hub中直接调用已完成预训练的版本。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

如果要对模型进行评估或训练，那么使用GitHub Repo更为合适。

首先要安装一下程序和相关依赖：

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

然后下载模型：

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

有关评估和训练的方式，可以到GitHub项目页来查看，链接放在了文末。

那么，CoTracker又是怎么实现像素级追踪的呢？

评分超过DINOv2

虽然都是追踪，但CoTracker和物体追踪模型有很大区别。

CoTracker并没有基于语义理解对视频中物体进行分割的过程，而是把重点放在了像素点上。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

底层方面，CoTracker采用了Transformer架构。

Transformer编码了视频中点的跟踪信息，并迭代更新点的位置。

推理上，CoTracker还采用了一种窗口机制，在时间轴上划分出滑动窗口。

CoTracker使用上个窗口的输出对后面的窗口进行初始化，并在每个窗口上运行多次Transformer迭代。

这样就使得CoTracker能够对更长的视频进行像素级跟踪。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

总之，经过一番训练之后，CoTracker取得了一份不俗的成绩单。

在FastCapture数据集测试上，CoTracker的成绩在一众模型中脱颖而出，其中也包括Meta自家的DINOv2。

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

总之，喜欢的话，就赶紧体验一下试试吧！

论文地址：
https://arxiv.org/pdf/2307.07635.pdf
GitHub项目页：
https://github.com/facebookresearch/co-tracker

天工大模型登顶多模态榜单！解决幻觉、跨语言两大难题

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

关联网址

关联标签

相关文章

小扎All in 开源AGI：正训练Llama 3，年底将有35万块H100

小扎All in 开源AGI：正训练Llama 3，年底将有35万块H100

Meta头显新增舌头追踪，网友大写震惊：我不问也不想知道为什么

Meta头显新增舌头追踪，网友大写震惊：我不问也不想知道为什么

谷歌趁OpenAI内讧重组AI团队，挖来硅谷最高华人高管Bill Jia

谷歌趁OpenAI内讧重组AI团队，挖来硅谷最高华人高管Bill Jia

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

AI实时解读大脑信号，7倍速还原图像关键视觉特征，LeCun转发

AI实时解读大脑信号，7倍速还原图像关键视觉特征，LeCun转发