多模态嵌入模型
通过某中心基础模型服务提供,支持用户上传图像集合并使用文本或相关图像进行检索。该模型生成的数据表征可作为下游机器学习任务的输入。
图像生成模型(预览版)
基于生成式AI技术,通过照片和标题训练,能够生成逼真图像。支持文本或图像输入,输出对应图像集合。
模型架构特性
- 共享文本编码器:两款模型均采用相同的文本编码组件
- 双编码器设计:嵌入模型包含文本编码器和图像编码器,通过对比学习在共享多维空间生成向量表征
- 双重生成机制:图像生成器使用两个文本编码器副本,分别处理文本嵌入和图像嵌入预测,通过超分辨率模块提升图像质量和文本对齐度
数据预处理技术
- 去重处理:采用感知哈希技术有效识别重复图像,避免默认图像过度代表问题
- 质量筛选:使用图像质量分类器模拟人类审美判断,仅选择高质量图像进行训练
- 标题优化:通过标题生成器重新标注部分图像,提升图像内容描述的准确性
- 内容审核:严格筛选数据和标题,降低生成不当内容的风险
- 数字水印:所有生成图像包含不可见数字水印标识合成内容
训练优化
在清理后的数据集上进行预训练后,图像生成模型使用高质量图像和描述性标题进行微调,显著改善图文对齐效果并减少图像伪影。持续研究方向包括进一步提升生成图像的分辨率。
相关技术涉及对比学习、感知哈希、图像质量分类、生成式水印等计算机视觉与机器学习前沿领域