计算机视觉技术应用与AWS创新实践
在某计算机视觉与模式识别会议(CVPR)上,某中心AI与数据副总裁发表了题为“规模化计算机视觉:推动客户创新与行业应用”的主题演讲。以下是该演讲的编辑版本。
技术应用案例
广告图像生成工具
为解决广告主创建视觉吸引力强且效果显著的广告难题,开发了基于AI的图像生成工具。该工具允许广告主输入产品图像、标识和文本提示,AI模型将生成多个符合品牌和消息传递的视觉广告版本。
技术架构结合了机器学习服务(如SageMaker和SageMaker Jumpstart)和人工参与的工作流程,确保图像高质量和适用性。系统采用模块化微服务架构,包含模型开发、注册、生命周期管理、模型选择和服务全程作业跟踪等独立组件,并提供客户面向的API。
掌纹识别系统
在零售环境中重新构想身份识别、入场和支付体验,通过红外光识别手掌独特线条、沟壑、脊线及皮下静脉模式。注册时专用算法在数秒内捕获并加密手掌图像,设备据此创建手掌签名并关联至支付账户。
为保障准确性,系统使用数百万张合成图像进行训练,包含光照条件和手部姿势等细微变化,并具备检测伪造手部(如高细节硅胶复制品)的能力。隐私保护是核心设计原则,手掌图像从不存储在设备上,而是立即加密并传输至定制化的高安全云区域。
体育数据分析平台
通过与职业体育联盟的合作,在比赛转播中提供基于RFID芯片追踪和机器学习的技术洞察。最新开发的防守警报功能通过ML模型追踪防守球员移动,识别最可能冲击四分卫的“重点关注球员”。
该系统源于转播制作团队、工程师和计算机视觉团队的协作,展示了AI和ML技术在提升观赛体验方面的应用。
AWS机器学习服务栈
三层服务架构
- 应用层:基于大语言模型(LLMs)的应用,如生成式AI助手
- 服务层:提供多样化AI应用开发服务,包括计算机视觉服务和基础模型平台
- 基础设施层:为ML专门构建的高性能、成本效益基础设施
核心视觉服务
图像识别服务
全托管ML服务,自动从图像和视频文件中提取信息,支持内容包括审核、品牌标识检测和最新反欺诈功能,帮助验证真实用户身份。
文本提取服务
超越传统OCR技术,不仅能识别字符、单词和字母,还能识别表单字段内容和表格信息。通过结合视觉、空间和语言线索,创建专用响应对象,为查询提供答案、置信度和位置信息。
基础模型平台
全托管服务让客户轻松构建和扩展生成式AI应用,提供最广泛的第一方和第三方LLMs及基础模型选择,包括多家人工智能公司的模型和自研模型系列。
负责任AI实践
反误导技术
所有生成图像默认包含不可见水印,通过隐蔽机制识别AI生成图像,减少错误信息传播。水印集成在图像输出中,设计为防篡改。
幻觉控制研究
针对生成模型输出与事实知识库不一致的“幻觉”问题,重点关注视觉 grounding 技术。研究团队提出新基准评估方法,利用LLMs自身评估开放提示下的幻觉现象。
研究发现基于transformer的视觉语言模型产生幻觉的原因之一是无法保留输入图像提示信息:随着生成标记增多和上下文延长,模型逐渐“遗忘”初始输入。
混合架构创新
结合状态空间模型和基于注意力的网络(如transformers)的混合模型正获得关注,因其在长上下文中的高召回能力。计划开源模块化混合架构类别,旨在提高内存和推理计算效率。
这些架构使用更通用的基础模块,无缝集成精确记忆和衰减记忆,使模型能学习最优权衡。为提升推理效率,核心模块优化可在最有效硬件上运行,特别是专为训练ML模型设计的定制芯片。
技术发展展望
AI研究正处于创新爆发期,某机构致力于通过AI赋能产品和服务间接向客户提供这些创新,同时通过云计算平台直接 democratize AI技术。