
{{!completeInfo?'请完善个人信息':''}}
AI 技术能够提高视频搜索效率,扩展人与数字世界的互动方式,使得机器能够理解视频内容和剧情。
摘要
英伟达发布的预训练、可自定义 AI 工作流,为开发者提供构建和部署生成式 AI 应用程序的解决方案,用于视频问答等典型用例。
一个开源的多模态智能体框架,旨在简化面向设备智能体系统的开发,支持视频问答功能,并能够将智能体直接应用在硬件设备上。
遵循基于图的工作流编排、原生多模态和设备中心化的三个基本原则,支持多种设备连接和交互,提供示例项目展示智能体的构建过程。
在视频问答和硬件设备应用方面的测试表明,OmAgent 能够有效处理复杂视频内容,提供准确的问答结果,并在实际硬件设备上运行智能体应用,如穿衣搭配推荐。
当你正在观看一部紧张刺激的动作电影,忽然好奇:
“那个角色到底是在哪一集说的那句话?”
“这里的背景音乐是什么?”
又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。
但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。
英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。
比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。
原文链接:点击前往 >
文章作者:机器之心
版权申明:文章来源于机器之心。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励