在Qubole上的Apache蜂巢

蜂巢是Apache为查询而构建的开源项目, 总结, 以及使用类似sql的接口分析大型数据集. 它以其蜂巢查询语言将关系技术引入到大数据处理中而闻名, 以及与关系数据库(如表)类似的结构和操作, 连接, 和分区.

Apache蜂巢特别适合于分析具有复杂JOIN条件的大型数据集. 例如, batch SQL processing; exploratory queries on large volumes of data; queries that could be interrupted and need to be resumed, 等.

Apache蜂巢

想了解更多关于蜂巢和Qubole的信息?

蜂巢 on Qubole: 云-Native

Qubole从2013年开始提供托管蜂巢服务, 支持多个蜂巢版本,定时升级. HIve on Qubole从一开始就采用了云优化设计, 并根据组织的需要量身定制, 或者已经部署了云数据湖.

Qubole融合了开源社区的最新特性和Qubole的专有解决方案,以提高性能, 降低成本, 改善用户体验, 并简化管理和管理.

Apache蜂巢在Qubole上的主要好处

快速获取价值

  • 指导步骤在几分钟内创建蜂巢集群
  • 通过ui、api和驱动程序访问数据的多个接口

成本效率

  • 与自我管理的基础设施相比,总体数据处理成本可降低50%

提高生产力和工作表现

  • 策划表元数据管理
  • 性能优化与云存储,以更快的查询处理

企业级

  • 企业级安全
  • 与主流BI工具集成的JDBC/ODBC连接器

Apache蜂巢在Qubole和Apache蜂巢开源上

 

可伸缩性

Qubole开源
工作负载感知的自动伸缩,以适应工作负载的可变性和突发性
支持多个蜂巢Server2实例,以应对突发流量,提高业务吞吐量.

 

性能

Qubole开源
直接写消除了云存储中较慢的文件复制操作
更快的云存储I/O
元数据缓存
自动统计信息收集和管理,以便更好地规划和执行查询

成本

Qubole开源
自动化集群生命周期管理
异构实例,以利用来自其他实例族的价格差异, 同时保持集群的最高效率
当集群只有少量使用时,容器包装和激进的降尺度
对成本最优伸缩的专门支持

安全性和遵从性

Qubole开源
基于sql标准的蜂巢授权和Apache Ranger支持
ACID事务支持
符合标准(HIPAA, SOC2, ISO-27001)

资源

博客
蜂巢在Qubole上的运行速度比蜂巢在AWS上的EMR快4倍
医生
蜂巢小抄
友情链接: 1 2 3 4 5 6 7 8 9 10