苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

首页
活动
资讯
最新资讯文章专题 7x24快讯
报告
数据报告报告专题
付费专栏
短剧精选快问快答合集出海年鉴合集 iOS、GP上下架避坑指南
商务通
服务大厅企业会员
合作
人脉
出海人脉 VIP社群
出海数据库
出海企业库出海产品库月出海榜单海外产品榜单创投联盟
全球产品与增长展会
PAGC 2024 PAGC 2023 PAGC 2022 PAGC 2021

企业管理

扬帆创投微信小程序

更聚焦的出海投融资平台
精准高效领先的融资对接服务

微信扫一扫进入小程序

苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型——4M-21。

苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型——4M-21。

多数大模型通常针对特定任务或数据类型进行优化，这种专业化虽然能确保在特定领域的高性能，但也限制了模型的通用性和灵活性。

例如，开源模型Stable Difusion只能用于文生图，即便是Gemini这种多模态模型，也只能生成和解读图片。

而4M-21只有30亿参数，却可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能，基本相当于视觉模型界的“瑞士军刀”功能很全面。

开源地址：https://github.com/apple/ml-4m/

论文地址：https://arxiv.org/abs/2406.09406

在线demo：https://huggingface.co/spaces/EPFL-VILAB/4M

4M-21能提供如此多的功能，其关键核心技术是“离散tokens”转换技术。简单来说，就是将各种模态的数据转换为统一格式的tokens序列数据。

无论是图像类数据、神经网络特征图、向量、结构化数据（实例分割或人体姿态），还是以文本形式表示的数据，都可以转换成模型可以理解的同一数据格式。

这不仅简化了模型的训练，还将原本形态各异的数据被映射到一个共享的、易于处理的表示空间，为多模态学习和处理奠定了基础。

对于图像类数据，例如，边缘检测图或特征图，研究人员使用了基于Vision Transformer的变分量化自编码器进行标记化，生成一个固定大小的小网格tokens阵列。

对于那些需要高保真度重建的任务，例如，RGB图像，会采用扩散解码器来增强视觉细节的恢复。

而对于非空间模态，全局嵌入或参数化的人体姿态等，则利用Bottleneck MLP和Memcodes量化方法将其压缩成少量的离散tokens。

至于文本、边界框、颜色调色板或元数据等序列数据，则通过WordPiece分词器编码为文本tokens，利用共享的特殊tokens来标识它们的类型和值。

在训练阶段，4M-21通过掩码建模的方法来完成多模态学习，会随机遮盖输入序列中的部分tokens，然后基于剩余未遮盖的tokens预测被遮盖的部分。

这种方法迫使模型学习输入数据的统计结构和潜在关系，从而捕捉到不同模态间的信息共通性和交互性。

此外，掩码建模不仅提升了模型的泛化能力，还提升了生成任务的准确性，能够以迭代的方式预测缺失的tokens。

无论是通过自回归（逐个预测）还是逐步解码（逐步揭示遮盖部分）的方式。使得模型在解码过程中能够生成连贯的输出序列，包括生成文本、图像特征或其他模态的数据，从而支持多模态处理能力。

研究人员将4M-21在图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计以及3D人体姿态估计等测试平台中进行了综合评测。

结果显示，4M-21的多模态处理能力可以媲美当前最先进的模型。例如，在COCO数据集上，在语义和实例分割任务上表现出色，准确识别和区分图像中的多个对象；

在3DPW数据集上的3D人体姿态估计任务中也取得了显著的成绩，能够精确捕捉人体的姿态变化。

原文链接：点击前往 >

文章作者：AIGC开放社区

版权申明：文章来源于AIGC开放社区。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/

{{likeNum}}

好文章，需要你的鼓励

相关阅读

热门活动

更多

PAGC 2025|全球产品与增长展会

广东省 · 广州市

首档AI出海辩论会《从百模大战到应用之战，10年内AIGC商业化主战场在B端还是C端》——Global Day出海趋势观察系列活动·02期

文章热榜

更多

GPT-4o多模态核心大佬离职OpenAI！联创Schulman跳槽前CTO初创

DeepSeek招兵买马，实习生照样年薪百万

AI教父黄仁勋低调现身深圳！走访时机微妙，去年已增设数百名中国员工

借助亚洲首富，SHEIN被禁5年后“重返”印度

外媒发布2024年世界手游销售榜，腾讯登顶断层领先

热门报告

更多

《2025 TikTok Shop年度趋势报告》

《GraphRAG实践应用白皮书》

请前往扬帆出海小程序完成个人认证

认证通过后即可申请入驻

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch24

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch24

APP
小程序

微信公众号

微信小程序

扬帆出海APP

扬帆出海APP

微信
公众号

微信公众号

关注扬帆出海

专注服务互联网出海！

出海人
社群

微信公众号

扫码进群

与10万+出海人同行！