计算机视觉与多模态AI技术探索

本文介绍了计算机视觉专家Violetta Shevchenko的研究历程,重点探讨了视觉问答技术在现实场景中的应用,包括如何结合外部知识提升模型性能,以及多模态表示学习在电商领域的实践。

计算机视觉与多模态AI技术探索

从鱼类计数到视觉问答

Violetta Shevchenko对计算机视觉的热情始于一个鱼类养殖场项目。在芬兰攻读计算工程硕士学位期间,她使用计算机视觉技术统计河流中的鱼类数量。“这更多是标准的计算机视觉方法,没有使用任何先进技术,“她说,“但我喜欢处理图像,所以想继续从事计算机视觉研究。”

这段经历激发了她长期的兴趣。“在所有信息来源中,视觉信息可能是最有趣的,也最容易感知,“她说,“我们只需要环顾四周即可。”

视觉问答技术的现实应用

在阿德莱德大学澳大利亚机器学习研究所攻读博士期间,Shevchenko专注于视觉问答技术的研究。她描述这是传统计算机视觉任务的自然延伸。

“在这个问题中,我们有一张图像,我们想向计算机或任何人工智能询问关于该图像的问题。因此,我们想要测试AI推理视觉信息的能力。”

她的博士研究致力于通过使用外部知识来提升视觉问答在现实场景中的实际应用。这项技术的潜在应用之一是为视障人士提供视觉辅助。

在传统任务中,模型可以直接从图像中提取信息并用其回答特定问题。“如果有一张五匹马在外面奔跑的图像,问题可能是那里有多少匹马。我们将测试模型的计数能力,“Shevchenko解释道。

然而在现实世界中,研究人员可能想提出需要图像中不一定存在的知识的问题。“如果你问场景中有多少哺乳动物,你需要知道什么是哺乳动物,“她解释说,“我的整个博士研究就是试图确保这项任务的应用不仅限于研究环境——在那里你有训练数据——而且可以应用于现实世界,那里所需的知识范围是不受限制的。”

多模态表示学习实践

在实习期间,Shevchenko处理了某中心产品目录中的数据,其中每个产品都有多个图像、文本描述和属性。这些数据可被某机构的科学家用于产品分类、相似分组、查找重复项以及填补卖家可能遗漏的信息等任务。

“所有这些任务通常首先需要提取表示,“她解释道,“无论你在做什么,首先需要处理数据并获得我们称为向量嵌入的东西。嵌入总结并从数据中获取所有重要信息,并将其转换为数值形式,你可以在模型中进一步使用。”

她的任务是创建能够有效结合视觉和文本信息的表示。

计算机视觉的未来发展

Shevchenko认为计算机视觉研究仍有很多探索空间。但在未来,她相信AI的不同领域将会融合。“基本的计算机视觉任务已经或多或少得到了有效解决。因此,我们正在进入下一步,将计算机视觉与其他领域(如自然语言处理)结合起来。”

她指出,在学术界工作时,训练大型神经网络模型时常面临计算资源不足的问题。“但在某机构,你可以使用几乎所有可用的资源,这大大加速了你的进程。”

技术挑战与突破

在参与虚拟产品试穿项目时,Shevchenko面临了全新的技术挑战。“我喜欢当你开始新方向时的过程,你阅读文献,深入探索新主题的基础知识,“她说。这个项目中最大的挑战之一是确保开发的模型值得信赖,并为所有客户服务。

多模态表示学习需要创建能够有效结合视觉和文本信息的嵌入表示,这些技术对于产品分类、相似性分组和重复检测等任务至关重要。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计