“在所有信息来源中,视觉信息可能是最有趣的” - 某机构科学部门
Violetta Shevchenko是一位应用科学家,她最近在完成澳大利亚阿德莱德某机构的实习后加入了该机构。她结合视觉和语言技术,致力于解决具有挑战性的问题。
计算机视觉的热情始于一个渔场
当Shevchenko在俄罗斯南联邦大学选择计算机科学专业时,她最初只是渴望理解计算机的工作原理。作为一名本科生,她对从事科学研究职业几乎不抱希望。“我从未想过自己会成为科学家,因为在我的国家看不到任何机会,“她回忆道。她母亲的经历——学习物理却不得不转向经济学以寻求更好的机会——让她认为自己的机会有限。
这一切在她移居芬兰攻读计算工程硕士学位后发生了变化。在那里,她了解到科学既可以是一个有趣的职业选择,也是可行的,并且为那些愿意走这条路的人提供了机会和资源。在硕士项目期间,Shevchenko与芬兰的一个渔场合作,使用计算机视觉技术统计河流中经过的鱼群数量。“那更像是一种标准的计算机视觉方法,没有使用任何先进技术,“她说。“但我喜欢处理图像,所以我想继续从事计算机视觉研究。”
这段经历激发了她长期的兴趣。“在所有信息来源中,视觉信息可能是最有趣的,也最容易感知,“她说。“我们只需要环顾四周。”
阿德莱德的研究中心
阿德莱德的研究团队正在开发涉及TB级数据的最先进的大规模机器学习方法和应用。他们致力于将机器学习,特别是计算机视觉,应用于广泛领域。
Shevchenko在阿德莱德大学澳大利亚机器学习研究所(AIML)攻读博士学位期间,研究人员应用机器学习解决农业、采矿、交通、制造和医学等多个领域的问题。她获得了澳大利亚机器人视觉中心(ACRV)的奖学金,该中心是澳大利亚研究理事会卓越中心计划的一部分,致力于计算机视觉的前沿研究。
Shevchenko的博士研究聚焦于视觉问答,她将其描述为经典计算机视觉任务的自然下一步。“这个问题是,我们有一张图像,我们想向计算机或任何人工智能询问关于该图像的问题。因此,我们希望测试AI推理视觉信息的能力。”
现实世界应用的研究
在博士期间,她致力于通过使用外部知识来改善视觉问答在现实场景中的实际应用。该技术的潜在应用之一是为视障人士提供视觉辅助。在传统任务中,模型可以直接从图像中提取信息,并用其回答某些问题。“如果有一张五匹马在外奔跑的图像,问题可能是那里有多少匹马。因此,我们将测试模型的计数能力,“Shevchenko解释道。然而,在现实世界中,研究人员可能想问一个需要图像中未必存在的知识的问题。“如果你问场景中有多少哺乳动物,你需要知道什么是哺乳动物,“她解释说。“我的整个博士研究是关于确保这项任务的应用不仅限于研究——在那里你有训练数据——而且可以应用于现实世界,其中所需的知识范围是无限制的。”
实习经历与应用研究
2021年10月,Shevchenko以实习生身份加入某机构。当她第一次听说某机构在阿德莱德开设新办公室时,她认为这可能是一个很好的机会。她的博士导师Anton van den Hengel也是某机构阿德莱德办公室的应用科学总监;他向她介绍了他的团队正在进行的项目。这听起来是一个完美的匹配,尤其是从事更多应用研究的机会。“基础研究是有趣且令人兴奋的工作。但有时你感到动力不足,因为你不能总是看到工作的直接成果,“她指出。“你产生了一篇论文,但你不知道这篇论文将如何实际影响他人,有多少人会使用它,有多少人会觉得它有益。”
作为实习生,Shevchenko处理了某机构目录中的数据,其中每个产品都有多个图像、文本描述和属性。某机构的科学家可能使用这些数据对产品进行分类,将它们聚类到相似的组中,查找重复项,并填充卖家可能遗漏的信息, among many other tasks.“所有这些任务通常首先需要提取表示,“她解释说。“无论你在做什么,你首先需要处理你的数据并获得我们称为向量嵌入的东西。嵌入总结并从你的数据中获取所有重要信息,并将其转换为数值形式,你可以在模型中进一步使用。“她的任务是创建有效结合视觉和文本信息的表示。
她还参与了一个虚拟产品试穿项目,这对她来说是一个全新的领域。“我喜欢当你开始一个新方向时,阅读文献,深入探讨新主题的基础知识的过程,“她说。这个项目的最大挑战之一是确保开发的模型值得信赖并为所有客户工作。
计算机视觉与其他领域的结合
在实习期间,Shevchenko有机会与来自多种背景和不同经验的某机构科学家合作。“无论我遇到什么问题,总会有团队中的某个人我可以交谈,他拥有非常好的经验或知识来帮助我。这是一个很好的机会。”
她还受益于在学术界无法获得的资源。“在我攻读博士学位期间,当我使用神经网络训练大型模型时,总是存在计算资源不足的问题,“她解释说。“但在某机构,你可以使用几乎任何可用的资源,这大大加速了你的过程。”
Shevchenko于本月转入全职角色,她认为计算机视觉研究仍有很多探索空间。但在未来,她相信AI的不同领域将融合。“基本的计算机视觉任务已经或多或少高效地解决了。因此,我们正在进入下一步,将计算机视觉与其他领域结合,如自然语言处理。”