Dataproc 2.3轻量级镜像:提升大数据处理安全与效率

本文详细介绍Google Cloud Dataproc 2.3轻量级镜像的核心特性,包括减少攻击面增强安全性、按需灵活部署可选组件、通过自定义镜像加速集群创建,为大数据工作负载提供更安全高效的运行环境。

Google Compute Engine上的Dataproc 2.3:具有增强安全性的轻量级镜像

Google Cloud Dataproc是一项托管式Apache Spark和Hadoop服务,为大数据分析提供快速、易用且经济高效的平台。今年6月,我们宣布在Google Compute Engine上正式推出Dataproc 2.3镜像,其轻量级设计提供了增强的安全性和运营效率。

“借助Dataproc 2.3,我们拥有了一个尖端、高性能且可信赖的平台,使我们的机器学习科学家和分析师能够大规模创新。” - Booking.com机器学习经理Sela Samin

Dataproc 2.3镜像代表了向更精简、更安全的大数据工作负载环境的刻意转变。今天,让我们来看看这种轻量级方法为何如此具有影响力:

1. 减少攻击面并增强安全性

Google Compute Engine上的Dataproc 2.3是一个符合FedRamp High标准的镜像,专为卓越的安全性和效率而设计。

其核心设计理念是轻量级,意味着它仅包含Spark和Hadoop操作所需的基本核心组件。这种极简方法大大减少了常见漏洞和暴露(CVE)的风险。对于具有严格安全性和合规性要求的组织来说,这是一个改变游戏规则的方案,为敏感数据提供了强大且加固的环境。

我们通过双管齐下的CVE修复方法保持强大的安全态势,确保我们的镜像持续符合合规标准。这包括自动化流程和有针对性的手动干预相结合:

自动化修复:我们使用连续扫描系统自动构建和修补镜像,修复已知漏洞,使我们能够高效地大规模处理问题。

手动干预:对于自动化可能导致破坏性变更或具有复杂依赖关系的复杂问题,我们的工程师会执行深入分析并应用有针对性的修复,以保证稳定性和安全性。

2. 可选组件的按需灵活性

虽然2.3镜像是轻量级的,但它并不牺牲功能性。Dataproc 2.3没有预打包所有可能的组件,而是采用按需模式处理可选组件。如果您的工作负载需要特定工具,如Apache Flink、Hive WebHCat、Hudi、Pig、Docker、Ranger、Solr、Zeppelin,您可以在创建集群时简单部署它们。这有助于默认保持集群精简,但在需要时仍提供Dataproc的全部功能广度。

3. 更快的集群创建(使用自定义镜像)

当您按需部署可选组件时,它们会在集群创建过程中下载和安装,这可能会稍微增加启动时间。然而,Dataproc 2.3为此提供了强大的解决方案:自定义镜像。您现在可以创建预安装了所需可选组件的自定义Dataproc镜像。这使您能够将轻量级基础镜像的安全优势与预配置环境的速度和便利性结合起来,大大减少特定用例的集群配置和设置时间。

开始使用Dataproc 2.3

使用新的轻量级Dataproc 2.3镜像非常简单。在创建Dataproc集群时,只需指定2.3(或特定的子版本,如2.3.10-debian12、2.3.10-ubuntu22或2.3.10-rocky9)。

以下是使用gcloud CLI的示例:

1
2
3
4
5
gcloud dataproc clusters create my-cluster \
    --region=your-region \
    --image-version=2.3-ubuntu22 \
    --network my-network \
    --optional-components [...]

有关镜像版本和可用组件的完整详细信息,请参阅Dataproc集群镜像版本列表。

Dataproc 2.3镜像通过优先考虑轻量级、安全高效的基础设施,为Google Cloud上的大数据处理设立了新标准。通过默认最小化包含的组件,并提供灵活的按需安装或自定义镜像创建,Dataproc 2.3可以帮助您实现更高的安全合规性和优化的集群性能。

立即开始利用Dataproc 2.3增强的安全性和运营效率,在您的大数据计划中体验全新水平的信心!

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计