图异常检测技术获最具影响力论文奖
某中心学者、卡内基梅隆大学计算机科学系人工智能教授Christos Faloutsos近日荣获2020年太平洋-亚洲知识发现与数据挖掘会议(PAKDD)“最具影响力论文奖”。PAKDD是全球数据挖掘与知识发现领域最具影响力的国际会议之一,该奖项旨在表彰十年前在会议上发表且持续产生重大影响的研究成果。
获奖论文由2020年PAKDD奖项委员会评选产生。2010年,Faloutsos与当时同在卡内基梅隆大学计算机科学系的Leman Akoglu和Mary McGlohon合作撰写了题为《OddBall:加权图中的异常检测》的论文。该论文提出了一种新颖的大规模加权图异常检测方法。
图结构由不同的实体或节点组成,节点之间的关系表示为边。节点的实例包括网络中的电子邮件服务器、社交网络的用户或政治活动的捐赠者。该论文聚焦于每个节点周围的邻域(称为"球体",故得名"Oddball"),以发现行为异常的节点。
论文提出的方法选择一组特征来定义单个节点周围的邻域。异常检测算法优先考虑计算速度快的特征,使其特别适用于大规模实际应用。该算法寻找模式,并将显著偏离发现模式的节点识别为异常,然后为每个节点分配"异常值"评分。这种快速、无监督的方法无需任何用户定义的常数。
“OddBall的工作有助于发现社交网络、电信网络等领域的异常行为,“Faloutsos表示。“所有研究都专注于开发可广泛应用于多种场景的方法,OddBall正是遵循这一原则。第二个指导原则是可扩展性,OddBall及所有方法都专门设计用于扩展到大型数据集。”
在职业生涯中,Faloutsos一直致力于图和流数据挖掘、视频索引与数据挖掘、生物医学数据库以及数据库性能评估等领域的研究。他的研究重点是通过开发基于数学的解决方案来解决实际研究问题, bridging理论与实践之间的差距。
Faloutsos于2017年加入某中心。作为消费者部门的学者,他目前专注于欺诈和异常检测,同时还参与知识库、时间序列预测、数据库视图维护和深度学习可解释性等相关项目。
“职业生涯中学到的主要教训之一是真实数据集的价值。它们确实存在错误——随机或系统性的;存在缺失值(通常伪装成’-1’或'0’);类标签偶尔错误;还有其他一些教科书很少涉及的问题。然而,它们帮助我们发现事先无法想象的模式和规律。”
“学到的第二个教训,“他继续说道,“是从研究问题出发寻找解决方案,而不是相反。绝大多数数据挖掘问题似乎都有简单的解决方案(‘进行聚类’或’使用决策树’)。但魔鬼在细节中:实际问题经常违反教科书假设(如均匀性假设、高斯性、平稳性等),作为研究人员,我们需要开发超越教科书的新方法来解决现实世界的问题。”