理解苹果的端侧与服务器基础模型发布
沉默的声音
无NVIDIA/CUDA依赖。苹果特别强调其不依赖NVIDIA硬件或CUDA API:训练使用基于TPU和Apple Silicon的AXLearn,服务器模型推理运行于Apple Silicon,端侧API为CoreML和Metal。这一策略源于商业自主性需求,避免GPU供应短缺,同时通过自研软硬件栈提升ML开发体验。但潜在风险包括框架学习成本及可能重蹈安全漏洞覆辙(如LeftoverLocals)。
模型概览
苹果发布了至少五类模型:
- ~30亿参数端侧语言模型:用于摘要和写作工具,类似微软Phi-3-mini和谷歌Gemini Nano-2,持续更新。
- 大型服务器语言模型(推测130B-180B MoE架构):处理复杂任务,对标GPT-3.5,运行于私有云Apple Silicon服务器。
- 端侧代码模型:集成于XCode,专为Swift代码补优(Fill-in-Middle)优化,参数规模约2B-7B。
- 服务器代码模型(Swift Assist):70B+参数,专注于Swift代码生成与理解,深度集成XCode上下文。
- 扩散模型:支持Genmoji和Image Playground,通过适配器控制图像风格。
适配器:LoRAs与DoRAs大规模应用
端侧模型配备多组适配器(LoRAs/DoRAs),通过微调权重专精特定任务。适配器体积小(数十MB),可动态加载堆叠(如“邮件回复+友好语气”)。苹果采用全线性层修改(类似HF transformers的target_modules="all-linear"),秩(rank)为16时平衡效果与体积,并预热缓存提升响应速度。
向量数据库?
Siri语义搜索功能暗示本地向量数据库的存在,支持多模态数据(文本、图像、视频)索引,并结合排序模型优化结果。
技术细节深入
训练与数据
- 并行训练技术:数据并行(梯度聚合)、张量并行(模型分片)、序列并行(Transformer分块处理)、FSDP(跨GPU/CPU分片降低内存)。
- 数据来源:AppleBot网络爬虫(需过滤垃圾及PII)、授权数据(未公开合作伙伴)、合成数据(可能借助OpenAI GPT-4生成,但存在遗忘问题)。
优化策略
- 基础优化:GQA(分组查询注意力)、共享词嵌入层(节省内存),端侧模型词表49K,服务器模型100K(含技术标记)。
- 量化与调色板化:
- 权重压缩至3.5比特/权重(BPW),宣称精度无损(实际存在量化误差)。
- 调色板化(Palettization)类比图像颜色索引,压缩率达5-6倍(相对16位模型),应用于权重;激活值量化减少推理内存占用。
- 算法采用GPTQ和QAT。
- 推理加速:
- KV缓存避免重复计算,iPhone 15首token延迟0.6ms/ token,生成速度30 token/秒(未含推测解码)。
- 对比开源:M3 Max Macbook Pro运行Q4_K量化Phi-3-mini达75 token/秒,苹果在弱硬件实现40%延迟降低具显著优势。
- 令牌推测(Token Speculation)可提速2-3倍,实际速度或达60 token/秒。
基准测试与营销
苹果评测包含合理与误导性对比:
- 正面:人类偏好评估体现实用价值。
- 问题:
- 端侧模型+适配器对比Phi-3-mini基模型(未公平对比适配后效果)。
- 有害输出评估中,Mistral 7B因无审核机制得分偏低(其他模型如Phi-3-mini/Gemma具安全流程)。
- macOS Sequoia性能提升宣传实为量化模型对比全权重模型(非系统版本差异)。
端侧处理与垂直整合的承诺
苹果强调端侧AI主导与云数据隐私,通过软硬件垂直整合提升用户体验,坚持“用户即客户”原则。技术披露虽不完整,但已体现其ML生态的战略深度。
本文基于对苹果技术文档与演示的解析,结合开源方案对比,为ML开发者提供技术参考。