预测罕见故障的机器学习算法突破
2022年12月21日,正值假期旅行高峰期间,某航空公司的调度系统因丹佛地区恶劣天气引发连锁故障。在随后10天内,该事件导致超过200万名旅客滞留,造成7.5亿美元损失。
某机构研究人员以此次广为人知的故障为例,开发出一种新型计算系统。该系统通过结合稀疏的罕见故障数据与大量正常运营数据,逆向追溯故障根本原因,从而找到调整系统、预防未来故障的方法。
该研究成果于4月24-28日在新加坡举行的国际学习表征会议(ICLR)上发布。研究团队包括某机构博士生Charles Dawson、航空航天教授Chuchu Fan,以及来自哈佛大学和密歇根大学的合作者。
技术原理与创新
本研究的关键突破在于处理"网络-物理问题"的能力。这类问题涉及自动化决策组件与真实世界复杂性的交互。与传统软件测试工具不同,新方法专门解决软件与物理实体在真实环境中交互时产生的连锁效应。
研究团队采用独特的逆向建模方法:首先与航空运输系统专家合作建立正常调度模型,然后通过观察实际运行结果反向推导可能导致这些结果的初始条件。尽管故障数据稀疏,但大量正常运营数据帮助计算模型学习"物理可能性领域",从而在极端事件中找出最可能的故障解释。
实际应用案例
在某航空公司案例中,研究人员发现备用飞机部署方式是导致全国性危机的主要指标。通过分析公开的到达、出发和延误数据,方法成功反推出隐藏的备用飞机参数配置。
数据显示:丹佛的备用飞机因天气延误迅速减少,同时故障从丹佛蔓延至拉斯维加斯。虽然当地没有恶劣天气,但可服务航班的飞机数量持续下降。根本原因在于某航空公司的飞机循环模式被天气中断,导致未受天气影响地区的备用资源也开始恶化。
工具开发与未来应用
研究团队已开源故障分析工具CalNF,供各界使用。该方法正在被扩展到电力网络故障分析领域,未来可开发实时监控系统,通过对比正常运营数据与实时数据,提前发现异常趋势并采取预防措施。
该研究得到某航天机构、空军科研办公室和某机构-国防科技合作项目的支持。