云端边缘监控的6大最佳实践

本文详细探讨了边缘工作负载监控的挑战与解决方案,包括资源限制、数据格式差异和实时监控需求,并提供了从日志标准化到云端集中监控的6大实践策略。

云端边缘监控的6大最佳实践

边缘工作负载对企业而言既是便利资产,也可能使某些策略复杂化。这些复杂性包括与组织IT资产的地理邻近性和边缘安全监控。有限的边缘设备资源和潜在的数据同步问题是实现健全边缘安全的主要障碍。尽管存在这些挑战,监控边缘应用与监控传统云数据中心中的应用同样关键。

继续阅读以下内容,了解如何制定覆盖整个IT资产的从边缘到云的监控策略。

什么是边缘监控?

边缘监控是从边缘工作负载和设备收集和分析日志、指标及其他数据的过程。其关键性与监控任何应用或基础设施的重要性相同。组织只能通过监控来检测性能和安全问题。

如果没有足够的边缘监控,影响边缘设备的性能问题(如设备故障或高延迟率)可能会被忽视——直到它们中断关键服务或用户开始抱怨。同样,从边缘设备开始的安全漏洞可能一直未被发现,直到升级为更大的攻击。

边缘监控帮助团队提前发现这些问题,以便主动缓解。同样重要的是,这种做法在提供关键上下文方面的作用,可以为延伸到传统云环境的更全面监控策略提供信息。

例如,考虑一辆由云数据中心托管的应用跟踪的自动驾驶汽车。它依赖本地边缘传感器收集和处理数据以引导车辆。如果基于云的应用无法访问车辆,来自边缘环境的监控数据对于故障排除可能至关重要。

边缘监控的挑战

尽管边缘监控至关重要,但它可能是一个挑战。边缘监控背后的基本过程与云监控相同。然而,由于边缘设备和网络固有的几个因素,执行边缘监控过程可能很困难,包括以下内容:

  • 资源限制:边缘设备的CPU、内存和存储资源可能有限。因此,它们无法存储或处理与传统基础设施一样多的监控数据。
  • 独特的数据格式:一些边缘工作负载以独特格式生成日志和指标,传统的基于云的监控软件可能不支持。
  • 缺乏监控数据:边缘设备并不总是生成监控数据。它们可能在设计时没有考虑监控。
  • 间歇性网络连接:边缘设备并不持续连接到网络,这使得从它们收集监控数据具有挑战性。可以在设备重新连接后收集数据,但这种方法无法实现实时监控。
  • 延迟和同步问题:在集成来自多个边缘设备的监控数据时,可能出现数据同步问题。由于网络延迟,一些设备可能比其他设备更快地上传数据。这使得确定不同设备上同时发生的事件的时间具有挑战性,复杂化了性能或安全问题的检测。
  • 大数据量:边缘设备产生大量数据,这使得收集、集成和关联设备中的所有信息更加困难。即使每个边缘设备的日志和指标很小,比较和合并来自数千个设备的离散数据源也不是简单的任务。
  • 缺乏以边缘为中心的监控工具:大多数监控和可观察性工具适用于传统基础设施和工作负载。它们的默认数据收集和异常检测规则可能无法很好地与边缘设备配合,因为它们没有解决边缘独有的考虑因素。

从边缘到云监控的6大最佳实践

尽管存在这些挑战,制定覆盖所有资产(从边缘环境到中央云数据中心)的监控策略是可能且必要的。监控边缘工作负载的最佳实践包括以下内容。

1. 标准化日志和指标

尽可能标准化日志、指标和其他数据源的类型和结构。数据源越一致,将其摄入监控工具并有效检测异常就越容易。

2. 收集边缘特定的监控数据

除了收集标准日志和指标外,确保全面的边缘到云监控策略还包括对有效边缘监控至关重要的数据。考虑按设备跟踪正常运行时间的重要性。了解单个边缘设备的延迟率也很关键。应以细粒度方式监控网络吞吐量,以便管理员在中断之前检测本地网络问题。

3. 在云端集中监控

通常,最好将监控数据从边缘设备拉取到云端,在资源丰富的服务器上进行处理。一些企业可能依赖边缘的监控软件。这些包括需要实时检测异常且无法容忍将监控数据移动到云端的延迟延迟的组织。

想象一位管理员需要监控自动驾驶汽车中的刹车控制,以便车辆计算机可以在主刹车失效时指示切换到备用刹车。将刹车传感器监控数据发送到云端、处理并等待响应可能耗时过长。本地监控传感器可以实时激活备用刹车系统。

4. 必要时实时监控

实时监控是缓解需要实时响应的问题(如关键设备故障或DDoS攻击开始)的唯一有效方法。但并非所有数据都需要立即反应。

有时,批量处理某些类型的监控数据比实时处理更有意义。这种批量处理可以节省资源并缓解与延迟偏差相关的一些挑战。对于不持续通过网络可达的边缘设备,这也是一种更可行的方法。

例如,与其实时监控边缘设备存储可用性,不如每10分钟检查一次存储指标可能更有效。存储资源不太可能在毫无警告的情况下耗尽。

5. 制定边缘感知的事件响应计划

监控只有在团队准备好对问题采取行动时才有价值。为此,将边缘工作负载纳入事件响应计划非常重要。这些是组织为协调对中断或攻击的响应而制定的程序。

不解决边缘环境独特要求的事件响应计划可能在响应或恢复过程中无效。如果响应计划假设所有设备都可以从数据中心本地访问,那么对于管理影响远离数据中心的边缘设备的事件是无效的。

6. 过滤监控数据

数据过滤——删除或重新格式化数据的过程——可以帮助减少组织需要处理的监控数据量。通过减少需要通过网络移动的信息量并消除冗余事件,这有助于更有效的监控。然而,在边缘过滤需要处理能力。管理员应考虑其设备在将数据发送到云端之前是否可以执行高级过滤操作。

在边缘监控的背景下,数据过滤可能包括采样日志事件和指标等实践。边缘设备可能报告每第五个数据点以减少数据量,而不是向集中监控服务报告每个事件和指标。同样,冗余日志事件可以在将数据发送到云端进行处理之前进行合并。

Chris Tozzi是一名自由撰稿人、研究顾问和IT与社会教授。他之前曾担任记者和Linux系统管理员。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计