正确构建数据湖

开始免费试用
2019年8月2日, by , 2021年3月1日更新

构建可伸缩事务数据湖的关键考虑因素

数据驱动型公司正借助云数据湖推动快速业务转型. 云数据湖泊 是否启用了新的业务模式和近实时分析来支持更好的决策制定. 然而, 随着迁移到云数据湖的工作负载数量的增加, 公司不得不解决数据管理问题. 

数据隐私法规和对数据完整性和新鲜度的需求相结合,催生了云数据湖的需求 更新、删除或合并数据时的事务处理. 为了满足这一需求,云数据湖有几个架构方面的考虑因素. 这些都是:

数据湖上的事务性

数据的湖泊 不再用作冷数据存储,而是用作源 特别的分析 接近实时的数据与数据仓库中的热数据相结合. 数据湖的发展使企业能够利用商业智能仪表板或构建人工智能能力获得实时洞察. 建立一个可靠的分析平台来支持这些扩展的用例, 数据工程师需要一种机制来构建:

  • 缓慢变化的维度(Type-I和Type-II):这是任何数据分析系统的常见需求,需要INSERT功能, 更新, 和插入数据
  • 数据重述:组织正在集成来自各种来源的数据,包括事务性数据库, CRM, ERP, 物联网, 以及来自社交媒体的其他SaaS应用和数据. 这可能会导致不正确或数据质量差,需要在后续步骤中进行纠正. 依赖于这些数据的业务规则需要干净, 完整的, 准确的, 和最新的数据,这进一步增加了数据重述的重要性.

安全 & 隐私条例 & 合规

“删除权”或“被遗忘权”(RTBF)的新要求源于一系列新的、不断扩大的全球数据隐私法规. 这些法规规范了消费者对其数据的权利,并对不遵守规定的行为实施了严厉的经济惩罚. 鉴于罚款数额巨大(高达全球营业额的4%), 它们不能被忽视. 企业面临着满足这些数据隐私的挑战 & 保护需求,同时确保业务连续性. RTBF需要有针对性地删除特定数据(记录或行或列)的能力,这些数据可能驻留在数据湖中,并且在有限的时间内. 随着数据湖中广泛的数据扩散, 在不破坏现有数据管理流程的情况下删除特定的数据子集是一项挑战. 虽然不同的供应商出现了一些新的解决方案,但并不是所有的解决方案都能充分满足需求. 因此,企业仍在构建定制的解决方案,以满足这些新规定. 但作为大多数内部构建的解决方案, 它们围绕更新提出问题, 维护, 可审核性, 等.

快time-to-insight

快, 在“黄金标准”数据集上的交互式分析允许用户信任结果,并降低洞察的时间. 快速读取需要准备好的数据和正确的分析引擎. 数据工程师经常会问:“对于我的数据类型来说,最好的数据格式是什么??以及“什么样的文件和分区大小才能获得更快的性能。?”

快time-to-writes

典型的分布式系统在完成写操作时会经历额外的开销——除了延迟之外. 开销来自于在写入云存储之前先写入暂存位置, 或者更新整个分区而不是一条记录. 对整体性能的影响是显著的, 随着组织开始大规模地操作数据湖,这很快成为一个主要的担忧.

数据一致性 & 完整性

并发控制对于数据湖来说非常重要,因为它需要支持多个用户和多个应用程序, 冲突是必然会发生的. 例如, 保证数据一致性, 完整性 和 availability when one user may want to write to a file or partition while another user is looking to read from the same file or partition; or two users wanting to write to the same file or partition. 因此,现代数据湖架构需要解决这些问题. 它还需要确保这些并发操作不会违反完整性, 数据的准确性和参考完整性导致错误的结果.

为作业保留正确的计算引擎和云计算选择

对洞察力和信息需求的快速增长,导致几乎每个企业收集和存储的数据呈指数增长. 利用收集到的数据来改善客户体验的战略要求企业采用一种服务于当今多个用例的数据体系结构, 同时保留对数据处理引擎的选择, 云基础设施, 供应商的可移植性将在未来使用这些案例.

At Qubole,权威推荐全球最大网赌正规平台将这些考虑放在数据平台设计的最前沿: 

  • 它支持数据湖上的完全事务性,无论云- aws、Azure还是GCP. 
  • 它提供了对删除操作的内置支持, 使客户能够遵守已建立的服务水平协议中有关“删除权”的规管和私隐要求. 
  • 您可以直接写入云对象存储, 从而消除了额外的开销, 同时保证数据完整性的最佳性能. 
  • 最重要的是, 权威推荐全球最大网赌正规平台继续提供数据处理引擎- apache Spark的自由选择, 转眼间, 蜂巢, 等.-基于酸功能的完整实现 蜂巢事务表

最后,权威推荐全球最大网赌正规平台做到了 开源转眼间和Spark连接器 直接工作与蜂巢 酸表的高吞吐量读取数据湖. 你可以在这里找到权威推荐全球最大网赌正规平台的贡献:

欲了解更多信息或要求演示,请通过您的客户经理或通过 填写这张表格. 如果您想免费试用Qubole 14天, 从这里开始.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 阅读介绍蜂巢 3.1.1 Qubole
    友情链接: 1 2 3 4 5 6 7 8 9 10