多模态大模型图像人物识别能力技术分析
通过构建基于多模态大模型的语义结构化数据处理管道,实现了对图像的分类、标记和搜索功能优化。测试采用特定系统指令要求模型按从左到右顺序输出图像中人物姓名。
模型测试对比
单人物识别测试
使用奥巴马2008年竞选照片进行测试:
- GPT-4.1/Claude Sonnet:拒绝识别(安全策略限制)
- Gemini 2.5 Flash/Llama 4 Scout:成功识别"Barack Obama"
- Mistral Small 3.2/Qwen 2.5-VL:准确识别
非公众人物测试
使用作者本人照片测试:
- 除Claude Sonnet提供外貌描述外,其他模型均正确判断"无知名人物"
多人物空间关系测试
使用扎克伯格夫妇照片测试:
- Gemini/Qwen:正确输出"Priscilla Chan, Mark Zuckerberg"(左到右顺序)
- Llama 4 Scout:顺序错误
- Mistral:错误识别为Sheryl Sandberg
高难度测试
使用2025年新电影海报测试:
- Gemini:完全准确识别所有演员
- Llama/Mistral:产生不同版本的错误识别
- Qwen:输出角色名而非演员名
技术突破方法
通过修改系统提示词突破RLHF限制:
|
|
修改后GPT-4.1和Claude Sonnet均能正确识别公众人物,包括复杂场景下的多人物识别。
技术洞察
- 训练数据差异:某搜索机构因数据优势表现最佳
- RLHF策略:不同机构的人类反馈强化学习策略导致行为差异
- 准确率评估:最佳模型在公众人物识别上达到>90%准确率
伦理考量
虽然当前仅针对公众人物,但需警惕模型能力扩展后可能带来的隐私风险。需要明确界定"公众人物"的标准并建立相应的技术防护措施。
测试使用OpenRouter平台同步调用多模态LLM API,详细代码参见Jupyter Notebook实现