![](https://static-cdn.yfchuhai.com/www.yfchuhai.com/static/pc/img/common/hot-icon.png)
{{!completeInfo?'请完善个人信息':''}}
人大系初创公司智子引擎发布的全新多模态大模型Awaker 1.0,直接迈向了AGI!它是业界首个真正实现自主更新的大模型,在写真视频效果上,居然击败了Sora。
Awaker的MOE基座模型
Awaker+具身智能:迈向AGI
现实世界的模拟器:VDT
视频生成底座VDT的创新之处,主要包括以下几个方面:
将Transformer技术应用于基于扩散的视频生成,展现了Transformer在视频生成领域的巨大潜力。VDT的优势在于其出色的时间依赖性捕获能力,能够生成时间上连贯的视频帧,包括模拟三维对象随时间的物理动态。
提出统一的时空掩码建模机制,使VDT能够处理多种视频生成任务,实现了该技术的广泛应用。VDT灵活的条件信息处理方式,如简单的token空间拼接,有效地统一了不同长度和模态的信息。同时,通过与时空掩码建模机制结合,VDT成为了一个通用的视频扩散工具,在不修改模型结构的情况下可以应用于无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频生成任务。
团队重点探索了VDT对简单物理规律的模拟,在Physion数据集上对VDT进行训练。
在下面的示例中,团队发现VDT成功模拟了物理过程,如小球沿抛物线轨迹运动和小球在平面上滚动并与其他物体碰撞等。同时也能从第2行第2个例子中看出VDT捕捉到了球的速度和动量规律,因为小球最终由于冲击力不够而没有撞倒柱子。
这证明了Transformer架构可以学习到一定的物理规律。
结语
原文链接:点击前往 >
文章作者:新智元
版权申明:文章来源于新智元。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励