计算机视觉与多模态AI研究进展

本文探讨计算机视觉技术在现实场景中的应用,包括视觉问答系统、多模态数据表征学习等核心技术。文章详细介绍了如何结合视觉与文本信息解决实际问题,并讨论了模型训练中的资源优化与跨领域融合趋势。

“在所有信息源中,视觉信息可能是最有趣的”

Violetta Shevchenko是一位应用科学家,她通过结合视觉与语言技术为复杂问题创造解决方案。

从渔业到计算机视觉的旅程

Violetta Shevchenko对计算机视觉的热情部分源于一个渔场的项目。在俄罗斯南联邦大学攻读计算机科学期间,她最初只是渴望理解计算机的工作原理。但作为本科生,她对从事科研职业几乎不抱希望。

“我从未想过自己会成为科学家,因为在我的国家看不到任何机会,”她回忆道。母亲学习物理却不得不转投经济学寻找更好机会的经历,让她认为自己的机会有限。

这一切在她移居芬兰攻读LUT大学计算工程硕士学位后发生了改变。她意识到科学既可以是有趣的,也是可行的职业选择,而且对于那些愿意走这条路的人来说,存在许多机会和资源。

在硕士项目期间,Shevchenko与芬兰的一个渔场合作,使用计算机视觉技术统计河流中的鱼群数量。“这更像是一个标准的计算机视觉方法,没有使用任何先进技术,”她说。“但我喜欢处理图像,所以我想继续从事计算机视觉研究。”

这段经历激发了她长期的兴趣。“在所有信息源中,视觉信息可能是最有趣的,也是最容易被感知的,”她说。“我们只需要环顾四周。”

阿德莱德的研究机遇

Shevchenko在完成澳大利亚阿德莱德某中心的实习后,最近接受了应用科学家的职位。她曾在芬兰生活一年,希望在一个更温暖、更阳光的地区继续学术轨迹。

“我之前访问过阿德莱德,这个城市很棒,”她说。“所以这成了我的首选。”在她第一次在线搜索计算机视觉和机器学习博士项目时,阿德莱德大学出现了。“我非常幸运地找到了这个出色的中心和那些在我特别感兴趣的领域工作的人们。”

在阿德莱德大学澳大利亚机器学习研究所(AIML)攻读博士期间,Shevchenko专注于视觉问答研究,她将其描述为经典计算机视觉任务的自然下一步。“这个问题是,我们有一张图像,我们想向计算机或任何人工智能询问关于该图像的问题。因此,我们想测试AI推理视觉信息的能力。”

现实世界应用研究

在博士期间,她致力于开发策略,通过使用外部知识来改善视觉问答在现实场景中的实际应用。这项技术的一个潜在应用是为视障人士提供视觉辅助。

在传统任务中,模型可以直接从图像中提取信息,并用其回答某些问题。“如果有一张五匹马在外面奔跑的图像,问题可能是那里有多少匹马。因此,我们将测试模型的计数能力,”Shevchenko解释道。

然而在现实世界中,研究人员可能想问一个需要图像中不一定存在的知识的问题。“如果你问这个场景中有多少哺乳动物,你需要知道什么是哺乳动物,”她解释说。“我的整个博士研究都是关于确保这项任务的应用不仅限于研究——在那里你有训练数据——而且可以应用于现实世界,其中所需的知识范围是不受限制的。”

在某中心的实习经历

2021年10月,Shevchenko加入某中心作为实习生。当她第一次听说某中心在阿德莱德开设新办公室时,她认为这可能是一个很好的机会。

作为实习生,Shevchenko处理了某中心目录中的数据,其中每个产品都有多个图像、文本描述和属性。某中心的科学家可能使用这些数据来分类产品,将它们聚类到相似的组中,查找重复项,并填充卖家可能遗漏的信息等众多任务。

“所有这些任务通常首先需要提取表征,”她解释说。“无论你在做什么,首先需要处理数据并获得我们称为向量嵌入的东西。嵌入总结并获取数据中的所有重要信息,并将其转换为数值形式,你可以在模型中进一步使用。”她的任务是:创建能有效结合视觉和文本信息的表征。

她还参与了一个虚拟产品试穿项目,这对她来说是一个全新的领域。“我喜欢当你开始一个新方向时,阅读文献,深入探讨新主题的基础知识的过程,”她说。在这个项目中,最大的挑战之一是确保开发的模型值得信赖并为所有客户工作。

结合计算机视觉与其他领域

在实习期间(于四月结束),Shevchenko有机会与来自多种背景和不同经验的某中心科学家合作。“无论我遇到什么问题,团队中总是有人可以交谈,他们拥有很好的经验或知识来帮助我。这是一个很好的机会。”

她还受益于在学术界无法获得的资源。“在我博士期间,当我使用神经网络训练大型模型时,总是存在计算资源不足的问题,”她解释说。“但在某中心,你可以使用几乎任何可用的资源,这大大加速了你的过程。”

Shevchenko于本月转入全职职位,她认为计算机视觉研究仍有很多探索空间。但在未来,她相信AI的不同领域将会融合。“基本的计算机视觉任务已经或多或少得到了有效解决。因此,我们正在进入下一步,将计算机视觉与自然语言处理等其他领域结合起来。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计