AI-NEWS · 2024年 7月 8日

苹果开放4M模型演示 轻松拆解图片所有信息


### 苹果开放4M模型演示:综合解读与分析

#### 背景与概述
苹果公司在Hugging Face平台上展示了其4M模型,这是一个能够处理和生成多种模态内容(包括文本、图像和3D场景)的AI模型。此举被视为苹果在研发领域保密传统上的一次重大转变,向开发者们抛出了橄榄枝,希望围绕4M构建起一个生态系统。

#### 主要功能与表现
– **多模态内容处理**:4M模型可以将图片中的所有信息拆解出来,包括深度图、线稿等。例如,AIbase对古风意境图片进行测试后,快速获得了详细的拆解信息,如主要轮廓、色调、图片尺寸等。
– **应用场景**:未来,苹果生态系统可能会出现更多连贯且多功能的AI应用,比如更智能的Siri和自动剪辑视频的Final Cut Pro。

#### 技术原理与优势
– **大规模多模态屏蔽建模**:4M采用这种训练方法,能够同时处理多种视觉模态(图像、语义、几何信息),实现模态间的无缝对接。
– **训练方法**:通过随机选择一部分标记作为输入,另一部分作为目标,实现了训练目标的可扩展性。这使得4M具有较高的通用性。
– **数据集与弱监督伪标签**:使用全球最大的开源数据集之一CC12M,通过CLIP、MaskRCNN等技术进行全面预测,并将结果转化为tokens,为多模态兼容打下基础。

#### 挑战与伦理问题
– **数据实践与AI伦理**:虽然4M展示了强大的技术能力,但也带来了数据隐私和AI伦理的挑战。苹果需要平衡技术进步与用户隐私之间的关系,以保持用户信任。

#### 数据亮点
– **数据集规模**:使用了CC12M这一全球最大开源数据集之一,尽管数据丰富但标注信息不完善。
– **技术组合**:结合了CLIP、MaskRCNN等技术进行弱监督伪标签,从而提升数据集的有效性。

#### 结论与未来展望
4M模型展示了苹果在AI领域的强大实力和创新能力,同时也为未来的多模态AI应用打开了新的大门。然而,苹果需要在推动技术进步的同时,确保用户隐私不受损害,以维持其品牌声誉和用户信任。

演示地址:https://huggingface.co/spaces/EPFL-VILAB/4M

Source:https://www.aibase.com/news/10045