数据湖泊和. 数据仓库:揭穿前3大神话

开始免费试用
2019年6月4日 by 2021年7月6日更新

数据存储并不像以前看起来那么简单. 复杂的机器和技术现在收集的数据的广度令人难以置信 / 2.每天5万亿字节! -来自设备传感器、日志、用户、消费者和其他地方. 所有这些数据都必须有去处,并以允许企业利用的方式存储.

考虑到当今可用数据的数量和种类, 关于数据存储的方式存在相当多的误解. 今天,权威推荐全球最大网赌正规平台将讨论关于两种流行数据存储类型的常见误解:数据湖和数据仓库. 不要错过下面的信息图,它揭示了数据湖和数据仓库之间的区别.

误解1:你只需要其中一种

现在,你经常听到人们谈论数据湖和数据仓库,就好像企业必须选择其中之一一样. 但现实是 数据湖和数据仓库有不同的用途. 两者都为数据提供存储, 他们使用了一种不同的结构, 支持不同的格式, 并针对不同的用途进行了优化. 通常,公司可以从使用数据仓库和数据湖中获益.

数据仓库最适合于那些希望为商业智能分析运营系统数据的企业. 数据仓库在这方面工作得很好,因为存储的数据是结构化的, 清洗, 为分析做准备. 另外, 数据湖允许企业以任何格式存储数据,几乎可以用于任何用途, 包括机器学习(ML)模型和大数据分析.

Myth #2: 数据湖s Are Niche; Data Warehouses Aren’t

人工智能(AI)和ML代表 一些增长最快的云工作负载, 越来越多的组织开始求助于数据湖,以确保这些项目的成功. 因为数据湖允许您存储几乎任何类型的数据(结构化和非结构化),而无需预先准备或清理, 你可以为未来保留尽可能多的潜在价值, 未指明的使用. 这种设置对于更复杂的工作负载是理想的,比如机器学习模型,其中具体的数据类型和用途尚未确定.

数据仓库可能是这两种选择中比较知名的一种, 但随着数据工作负载的趋势,数据湖(以及类似类型的存储基础设施)可能会继续流行. 数据仓库可以很好地处理某些类型的工作负载和用例, 数据湖是另一种服务于其他类型工作负载的选择.

误解3:数据仓库很容易使用,而数据湖很复杂

的确,数据湖需要数据工程师和数据科学家(或具有类似技能的专家)的特定技能来分类和利用存储在其中的数据. 数据的非结构化特性使得那些不完全了解数据湖如何工作的人很难访问到它.

然而, 一旦数据科学家和数据工程师建立了数据模型或管道, 业务用户通常可以利用与流行业务工具的集成(自定义或预构建)来研究数据. 同样的, 大多数业务用户通过连接的商业智能(BI)工具(如Tableau和Looker)访问存储在数据仓库中的数据. 借助第三方BI工具, 业务用户应该能够访问和分析数据, 无论数据存储在数据仓库还是数据湖中.

在下面的信息图中了解数据湖和数据仓库之间的所有差异.

另外:查看权威推荐全球最大网赌正规平台的免费电子书 操作数据湖 有关如何最大化您的数据湖的价值的信息.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 阅读《权威推荐全球最大网赌正规平台》
    友情链接: 1 2 3 4 5 6 7 8 9 10