多语言CLIP实现跨模态理解突破
研究人员开发出Meta CLIP 2模型,将OpenAI原有CLIP的英语文本-图像映射能力扩展至300多种语言。该技术采用对比语言-图像预训练框架,通过三方面创新实现突破:构建覆盖300+语言的大规模元数据集、设计多语言数据筛选算法、优化训练数据比例与顺序。模型训练使用290亿文本-图像对(原版128亿),通过将全局训练批次大小扩大2.3倍促进跨语言学习。在零样本图像分类任务中表现优于英语单语模型0.8%,在CVQA(57.4%)、Babel-ImageNet(50.2%)等多语言基准测试中刷新记录。
无人机追踪数据集应对复杂场景挑战
研究机构发布CST Anti-UAV热红外数据集,专注于复杂城市环境中小型/远距离无人机追踪。数据集包含78,224个微小目标物体(规模超现有数据集4.5倍),220段视频序列配备24万+边界框标注。特别设计六类干扰场景:遮挡、复杂动态背景、尺度变化、热交叉、出镜帧、动态背景杂波,覆盖城市建筑、山脉、天空等多场景下的接近/远离运动模式。实验显示当前最佳追踪方法仅达到35.92%的状态准确率,显著低于其他数据集67.69%的水平。
混合架构语言模型实现高效部署
技术团队发布Falcon-H1开源大语言模型系列,创新性融合Transformer注意力机制与Mamba-2状态空间模型。提供0.5B至34B共6个参数规模版本,支持256K上下文长度与18种语言处理。模型在数万亿至18万亿token上训练,数据源包含精细处理的网络文本、代码数据、数学问题及合成数据。值得注意的是,1.5B深度模型在边缘部署场景中展现出与7B-10B模型相当的能力,34B指令微调版本在多项测试中媲美70B规模模型。
硬件内核生成存在平台性能差异
研究提出MultiKernelBench多平台内核生成基准测试,涵盖285个内核生成任务,涉及NVIDIA CUDA、某机构AscendC和某中心TPU平台。测试显示所有大语言模型在AscendC平台表现显著落后:Claude Sonnet 4在CUDA编译准确率达92.3%,而在AscendC仅5.3%;表现最佳的DeepSeek-V3也仅达10.2%。采用类别感知提示技术后,通过注入平台特定示例实现显著提升,GPT-4o在AscendC的编译成功率获得380%相对改进。