Mobius Labs Aana模型为Dropbox Dash带来深度多模态理解

本文介绍了Dropbox Dash如何集成Mobius Labs的Aana多模态模型,通过高效的架构设计实现跨文本、图像、音频和视频的深度理解,显著降低计算需求,使团队能快速从海量多媒体内容中获取所需信息。

多模态引擎的规模化构建

如今团队创建和分享的内容类型比以往任何时候都多。他们的工作可能涉及文本、图像、音频和视频,而这些内容可能分散在无数应用程序和工具中。这使得快速找到答案和洞察变得困难——这就是我们构建Dropbox Dash的原因。其情境感知AI将您所有的内容和工具汇集在一起,确保您始终拥有完成工作所需的一切。通过Dash,您将获得一个真正理解您和您团队的AI助手和搜索引擎。

这种理解的关键部分是Dash的多模态处理能力。这使得Dash的智能功能能够跨内容类型工作——包括照片和视频。为了进一步推动这些能力,我们最近欢迎AI初创公司Mobius Labs加入Dropbox。他们的多模态模型统称为Aana,为理解Dropbox规模的富媒体提供了超高效架构,计算需求显著低于传统架构。

Aana不仅仅使多媒体内容可搜索;它使应用程序能够分析和解释复杂场景,识别对象和动作,并更准确地将内容置于相关工作情境中。这意味着团队——无论是在创意、技术、媒体还是其他领域——都能更快地获得工作所需的答案,而无需手动翻阅文件夹、时间线或工具。

下面我们详细看看Aana的工作原理,以及为什么我们对将Mobius Labs的Aana模型引入Dash感到兴奋。

为规模构建的多模态引擎

音频、视频和图像通常包含有价值的上下文——如设计评论、产品演示或客户反馈——但它们 notoriously 难以搜索和组织。例如,理解一个一小时的视频意味着解析场景变化、发言人转换、屏幕文本、对象、动作和音频线索。解释一组图像也面临类似挑战:识别其中的人物、发生的事件以及发生的时间和地点,需要对视觉细节有细致入微的把握。

这些模态中的每一个都以复杂的方式相互作用,通常以不同的方式,转录文本、镜头和其他线索各自遵循自己的时间线和语义边界。从这个丰富但碎片化的混合体中提取有意义的信息构成了重大挑战。它不仅需要理解每个模态本身——比如音频中说了什么或视频中展示了什么——还需要理解这些模态如何相互关联。换句话说,系统需要捕捉声音、视觉和语言如何结合在场景中创造意义。此外,如果没有精心设计的系统,在数EB的内容中快速完成这一任务将变得成本高昂。

这就是Aana的用武之地。它接收各种文件——演示视频、音频采访、照片库——并一起分析它们。与将文本、图像、音频和视频视为独立流的系统不同,Aana关注它们如何相互关联,揭示仅当这些模态结合时才出现的模式和洞察。

技术实现细节

在底层,Aana结合了针对语音、视觉和语言的开源、微调的基础模型——随着新版本的发布不断评估和更新。对于音频,它使用与开源合作者共同开发的推理优化类Whisper模型,如faster-whisper-large-v3-turbo模型。其视觉和语言系统依赖于基于transformer和专家混合(MoE)架构,专为在现成GPU上快速、经济高效的推理而设计。团队与开源社区密切合作,对最新进展进行基准测试和集成,不断提高性能和效率。整个系统旨在达到最佳平衡,在保持计算需求低的同时提供高质量的多模态理解。

有了这个基础,Aana不仅能识别场景中发生的事情——还能理解场景如何演变。Aana跟踪对象如何移动、动作如何展开以及布局如何随时间变化。它甚至可以跨模态连接洞察,比如精确定位视频中某人走到白板前解释图表的精确时刻。所有这些信息都被提炼到一个共享的向量空间中,实现快速的多模态搜索。结果是一个理解上下文的系统。您可以要求"演示者解释API流程的部分",而不是通过时间戳擦洗或依赖基本元数据。

这种能力背后是一个注重效率的架构。Aana采用先进的推理优化,使大规模多模态理解变得可行。其HQQ系统支持低比特(8位和4位)推理,显著降低计算和内存成本,而Gemlite通过自定义GPU内核加速核心AI操作,如矩阵乘法和注意力层。

这些优化由Aana SDK编排,它处理批处理、模型协调和高效的GPU利用。SDK还作为构建和部署多模态应用程序的灵活框架,允许多个AI模型无缝协作,同时保持性能和可扩展性。团队可以配置、组合和部署不同的模型设置和处理管道到生产环境,使得以最小开销实验、优化和扩展新的多模态工作流程变得容易。

这些优化共同意味着Aana可以用传统架构的一小部分计算足迹分析数EB的信息。对于处理大量富媒体的团队来说,这打开了全新可能性的大门——从在公司创意档案中浮现特定视觉主题,到将多年的客户会议总结为简洁、可搜索的亮点。

未来展望

Dropbox长期受到将想法变为现实的创新者和创意专业人士的信任,从音乐家和电影制作人到设计师、工程师和营销人员。随着团队在更多格式和工具上工作,他们的创作过程依赖于在上下文中理解内容。这就是像Dash这样的多模态工具使能的:当AI理解您的工作——无论工作在哪里发生,无论是什么格式——您可以花更少的时间管理内容,更多的时间实际创作。

我们很高兴欢迎Mobius Labs的多模态专家团队加入Dropbox。将Aana的能力引入Dash不仅将帮助我们使视觉和音频内容更可搜索;它还将为能够分析和解释多媒体数据、自动浮现洞察甚至代表团队采取行动的代理工作流程提供基础支持。对于营销、创意和技术组织 alike,这意味着将大量媒体集合转化为连接的、可搜索的知识,帮助团队找到答案、产生想法并推动工作前进。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计