某中心发布两款Titan视觉语言模型

某中心发布两款新型Titan基础模型,具备文本与图像互转能力。通过创新架构和精细数据训练,实现业界领先性能,包含图像生成和跨模态检索功能。

上月在某中心年度开发者大会上,宣布为其Titan基础模型系列新增两款具备图文互转能力的模型。

通过某机构Bedrock服务提供的Titan多模态嵌入模型,用户可上传自定义图像集,并支持使用文本或相关图像进行检索。该模型生成的数据表征还能作为下游机器学习任务的输入。而处于预览阶段的Titan图像生成器是基于照片及描述训练的生成式AI模型,能根据文本或图像输入生成逼真图像。

这两款模型采用不同架构但共享文本编码器组件。嵌入模型通过对比学习训练文本和图像编码器,使它们在共享多维空间中生成对应输入的向量表征。图像生成器则使用两个文本编码器副本,分别将文本嵌入直接传递给图像生成模块和预测对应图像嵌入的独立训练模块。

模型性能的关键在于精细的数据准备流程:首先通过感知哈希技术高效去重,避免默认图像过度代表问题;其次采用模拟人类审美判断的图像质量分类器筛选训练数据;还构建专用描述生成器优化图文对齐。所有生成图像均包含隐形数字水印标识。

预训练后,图像生成模型还在精选的高质量图像数据集上进行了微调,显著提升了图文对齐度并减少图像伪影。目前研究人员正致力于进一步提高生成图像的分辨率。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计