云数据湖-最佳实践

开始免费试用
2020年2月21日 by 2021年5月5日更新

这是登载那篇文章的节略版 NewStack

BI工具一直是数据分析师帮助企业跟踪营收的首选工具, 底线和客户体验指标. BI工具分析数据仓库中的小型关系数据集(几tb), 哪些需要小数据扫描(几gb)来执行.

但是,企业现在正在把目光投向交互、流媒体和 点击流分析, 机器学习 而深度学习才能获得数据主导的优势. 对于这些类型的分析应用程序,数据湖是首选. 数据湖可以吸收数据的数量、种类、速度和阶段,并对其进行集中编目. 然后,将数据提供给各种分析应用程序, 在任何规模, 以符合成本效益的方式.

让权威推荐全球最大网赌正规平台来看看在三个维度上建立和管理数据湖的最佳实践

  1. 数据摄取,
  2. 数据布局
  3. 数据治理

云数据湖-数据吸收的最佳实践

摄取可以以批处理或流的形式进行. 数据湖必须保证数据零丢失,并精确写入一次或至少写入一次. 数据湖还必须处理模式中的可变性,并确保以最优化的数据格式将数据写入正确的分区, 并在需要时提供重新吸收数据的能力.

  • 批量数据摄入: 用于批量摄取事务性数据, 数据湖必须支持UPSERT——行级插入和更新——到湖中的数据集. 具有快照隔离和ACID语义的UpSert功能简化了这项任务, 而不是重写数据分区或整个数据集. ACID语义确保并发写和读在数据湖上,而不会出现数据完整性问题或读性能降低的问题.
  • 流数据摄入: 对于流数据,数据湖必须保证数据准确写入一次或至少写入一次. 推荐的组合是 火花结构化流 与从Kafka和Amazon Kinesis等消息队列以可变速度到达的流数据相结合. 用于流处理的数据湖解决方案应该与消息队列中的模式注册表集成,并且必须支持重放能力,以跟上流处理和重新处理/恢复过时事件的业务发展.

除了批处理和流摄取模式外,数据湖还必须提供

  • 源到目标的模式转换 -智能检测源模式,并动态创建逻辑表, 以及扁平化半结构化JSON, XML或CSV的柱状文件格式.
  • 监测数据移动 -连接管道和底层基础设施到丰富的监控和警报工具,如Datadog, 普罗米修斯和SignalFx, 缩短故障后恢复的时间
  • 保存数据新鲜 —使用UPSERT进行数据重述和行级数据插入是保持数据新鲜的关键

云数据湖-数据布局的最佳实践

跨半结构化和非结构化格式的数据生成和数据收集是突发和连续的. 检查, 以原始形式探索和分析这些数据集是乏味的, 因为分析引擎会跨多个文件扫描整个数据集. 权威推荐全球最大网赌正规平台推荐五种方法来减少数据扫描和查询开销

  • 柱状数据格式,用于读分析 -使用开源的柱状格式,如ORC和Parquet,以减少数据扫描和避免查询需要解析JSON使用 json_parse和json_extract
  • 对数据进行分区 ——使用时间, 地理, Lob减少数据扫描, 根据考虑的数据集调优分区粒度(按小时和. 通过第二个)
  • 压缩块小文件 -异步地将小文件分成大文件,以减少网络开销
  • 执行基于统计数据、基于成本的优化 -收集数据集统计,如文件大小, 行, 直方图值优化查询与连接重新排序.
  • 使用z顺序索引物化视图进行基于成本的优化 -一个z-order索引服务查询与多列在任何组合,而不是仅仅在一个单独的列上排序的数据.

托管数据湖可以提供自主的数据管理功能,以实施上述数据布局策略.

云数据湖-数据治理最佳实践

有了数据湖,多个团队将开始访问数据. 权威推荐全球最大网赌正规平台需要对"上峰"有强烈的关注, 法规遵从性和基于角色的访问控制以及提供有意义的体验. 配置管理的单一接口, 审计, 获得工作报告和实施成本控制是关键. 以下是数据治理的三个建议

发现你的数据

拥有数据目录可以通过不同的机制丰富元数据,从而帮助用户发现和配置数据集的完整性, 文档数据集, 并支持搜索界面

  • 使用爬虫和分类器对数据进行分类. 自动添加关于如何数据的上下文的描述, 尤其是非结构化数据, 走了进来, 保持元数据和数据同步, 会加快从发现到消费的端到端循环吗.
  • 数据字典和沿袭. 数据字典包含表和列的描述, 最频繁的用户和使用统计信息以及特定表的规范查询. 数据沿继允许用户通过显示数据生命周期图来信任用于业务的数据,该数据生命周期图表明数据从其起源开始的所有修改
  • 元数据管理. 像分析客户流失一样回答问题, 通常需要争论新的和不同的数据集. 向最终用户提供数据字典以供探索是必要的, 查看数据所在的位置和包含的内容, 并确定它是否对回答某个特定问题有用.

法规和合规需求

新的或扩展的数据隐私法规, 比如GDPR和CCPA, 围绕“删除权”和“被遗忘权”创造了新的要求. 因此, 在不中断数据管理过程的情况下删除特定数据子集的能力是必不可少的. 除了DELETE本身的吞吐量之外, 你需要支持特殊的PCI/PII数据处理, 和可审核性.

许可和财务治理

使用Apache Ranger开源框架来简化表格, 行和列级细粒度访问, 架构师可以根据云服务提供商的身份和访问管理(IAM)访问解决方案中已经定义的用户角色授予权限. 广泛的使用, 监视和审计功能对于检测访问违规和标记敌对查询至关重要. 给病人&L业主和建筑师鸟瞰使用情况, 它们需要集群的成本归因和探索能力, 作业和用户级从一个单一的界面

结论

数据湖最佳实践可以帮助你利用收集到的数据建立可持续的优势. A 云数据湖 能否以更低的成本大规模地分解数据竖井并简化多重分析工作负载.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 阅读数据湖概要,第3部分-数据目录和数据挖掘
    友情链接: 1 2 3 4 5 6 7 8 9 10