数据湖项目财务治理实践指南

开始免费试用
2019年11月12日 by 2021年8月26日更新

介绍

如今,企业越来越多地受到数据的驱动,因为数据是他们创造新产品的创新引擎的燃料, 战胜竞争,为客户提供更好的体验. 作为一个结果, 大数据管理 以及数据分析等不同利益相关者的处理, 数据工程师, 数据操作组织应该快速, 自动化和可伸缩的.

造成不可预测和意外账单的四个常见原因

多个大数据项目的企业使用公有云服务进行计算和存储. 公共云提供了敏捷性和可伸缩性,只需几次点击就可以执行这些项目,并广泛地匹配供应与需求. 此外,云让企业能够构建和运行最好的大数据处理系统. 提供的服务都是按需付费的服务,因此,让 特别的分析在美国,由大数据驱动的POCs很容易启动,无需支付巨额预付费用. 随着时间的推移,随着项目的成熟或特定的查询变得更长, 看似无穷无尽的潜在资源供应导致了在计算和资源上的浪费支出和很少的问责制, 估计显示回. 这种用法带来了成本的不可预测性,并且缺乏财务治理. 这与以下方面有关:

长时间运行的服务器

大多数应用程序请求是由外部客户端驱动的,这些客户端事先并不知道. 这样,服务器就可以预先知道这些请求.

性能优化

典型的web应用程序, 外部服务请求, 是否优化以减少延迟而不是成本. 作为一个结果, 服务器已经提前准备好了, 而不是随需应变,也没有调整以适应不断变化的工作负载.


元宝乐信用单位每月、小时、日消费趋势

图1:qubolle信用单位消费趋势(月、时、日

均匀负荷增加vs突发性

大多数web应用程序的基本需求都是建立在一个假设的基础上的,即在一段时间内工作负载的均匀增加和逐渐减少,而不是资源消耗的急剧增加或最终减少. 例如, 产生1000个并行任务的工作负载的突发需要1000个服务器/机器在短时间内执行之前没有计划的任务. 它也不能被微观管理,以保持金融制衡.

空闲时间

与拥有24/7稳定流量的web应用程序不同,大数据的工作负载可以在给定的一天内分散, 当没有工作负载时,导致空闲时间的几个块.

在持续的基础上进行财务治理的最佳实践

如今,随着内部使用公共云的大数据项目数量呈指数级增长,数据驱动型企业经常面临财务治理挑战. 同时,可追溯性和可预测性是财务治理政策中的重要元素, 成本控制, 削减开支通常是任何财务治理活动的开始重点. 企业带来财务治理的步骤如下:

优化了性能

企业对性能进行优化,不仅要考虑查询执行的速度,还要考虑执行的及时性.

将能力管理列为一项正在进行的工作

容量管理 在云计算中,现在的重点是基础设施利用率的优化和财务治理的保护,这样团队不仅可以快速推进项目,而且不用担心意外的账单. 在优化期间,组织的目标是构建能够持续提供略高于所需容量的系统,同时保持对用户的可跟踪性和可预测性, 集群, 和工作成本指标水平. 各组织正在做下列工作:

  • 删除孤立的或未使用的基础设施
    删除当其他基础设施被终止时留下的基础设施(如磁盘卷), 最好与删除前的自动快照结合使用)或在指定时间内处于空闲状态的基础设施.
  • 调整这些基础设施
    调整有空闲资源的基础设施规模. 这需要谨慎地创建策略,因为容量必须考虑到预期的使用量峰值.
  • 基于时间表的基础设施生命周期管理
    自动化系统的创建和销毁,以适应使用模式. 例如, 创建在办公时间使用的开发环境,或者在高峰交易时间扩展生产平台.
  • 在异构环境下进行成本优化
    应用工具(通常是DIY脚本)来自动化系统管理,以最大限度地使用基础设施,同时满足系统所需的弹性和可用性水平.
  • 有限的可追溯性管理
    在集群中应用规则, 集群实例, 用户, 作业级别,以确保策略被自动配置,以销毁创建的任何不符合适当标记策略的元素.
基于用户的资源消耗分解图像
图2:基于用户的资源消耗分解

采用内置财务治理指标的数据平台

企业现在利用数据平台等平台来推动组织内部的财务治理,以降低运营成本, 做投资回报率分析, 有展示讨论和确定消费资产吗. 除了 集群生命周期管理, Qubole数据服务提供Workload Aware Autoscaling,当多个团队在共享的云环境或单独的云环境中运行大数据时,可以在不损害性能的情况下提供更多的节省,从而加强组织内部的财务治理:

成本的探险家

成本管理器为用户提供, 工作, 共享环境中的集群级成本指标,为企业中基于事实的讨论提供数据驱动的显示信息.


用Qubole图像进行成本报告

图3:使用Qubole进行成本报告

优化升级

优化升级 从集群中运行的容器中回收未使用的资源,并将其分配给挂起的容器. 这提高了集群吞吐量,减少了配置机器导致的延迟,同时降低了TCO和成本规避.

积极缩小规模

通过关闭空闲节点,积极的缩减可以防止任务完成后成本超支, 跨活动节点重新平衡工作负载,并关闭空闲节点,避免数据丢失的风险.

容器包装

容器包装, 资源分配策略, 在弹性计算环境中提供更多的节点用于降尺度, 同时防止集群中的热点,并尊重数据本地化首选项.

多元化的地方

Qubole自动提供不同Ec2实例类型的节点, 使云提供商实现的实例数量最大化. 多样化的实例类型减少了云提供商批量中断Spot节点的机会. 当一个特定实例类型的点节点不可用时, Qubole会自动尝试其他实例类型,而不是退回到按需模式.

管理现场块

点块 实例在有限的时间内(1-6小时)提供可靠性, 在这段时间之后,AWS将召回这些节点,从而导致节点丢失(故障)。. 防止此故障影响集群操作或工作负载, Qubole内置智能点块管理功能,提供:风险缓解, 影响缓解, 和容错,确保集群操作可以继续, 没有失败, 超过有限的持续时间的斑点块.

Summary

企业现在可以利用杠杆 Qubole 原生云数据平台的成本规避和TCO优化功能,拥有数据驱动的用户, 工作, 集群, 或者集群实例级的成本度量讨论,以衡量他们的大数据项目的ROI.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 使用Qubole ACID和Apache Ranger读取GDPR和CCPA框架的寻地址
    友情链接: 1 2 3 4 5 6 7 8 9 10