某中心发布两款新型Titan视觉语言模型,采用创新架构和精心准备的训练数据实现领先性能。
多模态嵌入模型
- 通过某平台提供服务,支持用户上传图像集并实现文本/图像跨模态搜索
- 采用双编码器架构(文本编码器+图像编码器),在共享多维空间生成向量表示
- 基于对比学习训练:正样本(图像与真实标题)拉近嵌入距离,负样本(随机配对)推远距离
图像生成模型(预览版)
- 生成式AI模型,可生成逼真图像
- 使用两个文本编码器副本:一个直接输入图像生成模块,另一个预测对应图像嵌入
- 二级生成架构:首级生成图像后,次级进行超分辨率处理并提升图文对齐度
数据预处理关键技术
- 去重处理:采用感知哈希技术识别重复图像,避免默认图像过度代表
- 质量筛选:通过图像质量分类器模拟人类审美,仅使用高分图像训练
- 标题对齐:训练专用标题生成器,在训练周期中动态替换低质量标题
- 安全措施:内容审核减少不当图像风险,生成图像添加隐形数字水印
模型预训练后还在高质量图像集上进行微调,显著改善图文对齐并减少图像伪影。研究人员正致力于进一步提升生成图像的分辨率。