Ibotta利用Qubole建立了一个成本高效的自助式数据湖

开始免费试用
2019年4月2日 by 2021年10月19日更新

这个博客是由Ibotta写的客户客座文章. Ibotta是一家移动技术公司,通过为收据和在线购物提供应用程序内的现金返现奖励,正在改变传统的返现行业, 电子产品, 服装, 礼物, 供应, 餐厅用餐, 对任何拥有智能手机的人来说都是如此.

今天, Ibotta 是美国最常用的购物应用程序之一吗, 每年给塔吉特这样的公司带来超过70亿美元的销售额, 好市多, 和沃尔玛. Ibotta自2012年成立以来,总下载量超过2700万次,向用户支付的费用超过5亿美元.

在电子商务和零售行业保持竞争优势是极其困难的,因为它需要为消费者建立一个迷人的和独特的购物体验.

Ibotta之前的数据基础设施

在加入Qubole之前,权威推荐全球最大网赌正规平台已经进入了一个大数据平台, Ibotta的数据和分析基础设施是基于一个静态和刚性的云数据仓库. 只要数据集是结构良好的,并且是表格格式,这种方法就可以工作. 然而,随着业务的增长,更新和更复杂的数据格式被开发和吸收.

同时, Ibotta在数据工程等新的数据分析团队上进行了大量投资, 决策科学, 和机器学习. 团队需要访问相同的数据, 但每个团队都试图以不同的方式与数据交互.

数据工程需要一组工具来执行提取, 变换, 以及使用MapReduce以许多不同的方式加载(ETL)进程, Apache蜂巢, 火花, 和/或很快. 机器学习团队希望将火花用于特征工程,并培训和部署其模型. 决策科学想要使用SQL, R, 和Python从数据中提取洞察力和业务建议.

超越描述性分析

伊波塔需要超越自己 描述性分析 ——这是对其产品的补充——变成了一个纯数据驱动的公司. 该组织需要被分割,以便Ibotta能够为适当的小组和人员配备足够的人员,以帮助实现下列愿望:

  • 数据工程团队:设计数据湖, 管理技术, 提供数据服务, 并创建自动管道,向各种数据集市提供数据
  • 为机器学习团队:创建新的产品特性,并使用从个性化到优化的用例进行预测和规定性分析
  • 给决策科学小组:为内部利益相关者和外部客户合作伙伴开发并提供自助服务的洞察平台

Ibotta需要一种方式,让每个用户都能够自助访问数据,并能够使用合适的工具来使用像火花这样的大数据引擎来使用他们的用例, 蜂巢, 和很快. 与此同时,数据工程团队需要能够准备易于使用的数据. 解决数据团队的各种目标, Ibotta建立了一个成本效益, 使用云原生平台的自助数据湖.

构建自助数据湖

Ibotta意识到,构建自助服务平台的第一步是定义哪些数据是关键的,以使分析团队满足关键的业务里程碑. 当时, 用户使用数据组合(来自事务系统和数据仓库)来运行他们的模型.

在定义每个数据集的值之后, 数据工程团队可以开始构建管道,从数据仓库和Amazon Aurora中提取数据,并将其转换为JSON格式, 然后存储在原始存储区.

从那里, 其他管道将JSON格式转换为优化的Row Columnar (ORC)和Parquet柱状格式,并将结果数据存储在优化的存储区域中. 利用风流和它的能力监测新的分区在metastore, 一旦新的数据位置暴露在蜂巢 metastore中,下游管道就可以开始运行.

减轻遗留数据仓库的约束, Ibotta现在有ETL任务将数据从蜂巢加载到Snowflake以供其使用 商业智能(BI) 工具,美人. Ibotta利用蜂巢和火花作业将原始数据处理成决策科学团队所使用的生产就绪表. 这一切都是利用了风流的钩子到Qubole,通过API轻松实现自动化作业. 与Cron和AWS数据管道相比,风流提供了更多的编排控制. 它还提供性能优势, 包括并行化和以有向无环图(DAG)而不是假设线性依赖来调度作业的灵活性.

利用大数据进行ML、ETL和Ad Hoc查询

Ibotta使用Qubole来提供并自动化其大数据集群. 具体地说, it uses 火花 for machine learning and other complicated data processing tasks; 蜂巢 and 火花 are used for ETL processes, 转眼间用于探索性分析等特殊查询.

利用这个平台, Ibotta已授权决策科学团队使用BI工具为数百名用户制作实时仪表盘. 自从他们建立了新的数据平台, 在四个月内,Ibotta处理的数据量增加了三倍多, 而且它传递的不止 每周查询30,000次 通过Qubole.

在Qubole就位后,Ibotta的决策科学团队立即获得了授权. 实现了AWS弹性计算云(Amazon EC2)中数据自助访问和计算资源高效规模的目标,适用于大数据工作负载. 在一个月内, 机器学习团队在产品中推出了新的规范性分析功能,其中包括一个推荐引擎, A / B测试框架, 以及一个项目-文本分类过程.

结论

通过使用 Qubole 在AWS, 艾博塔的团队能够自己提供资源,而不需要一个中央管理团队. 大数据集群使用的是60%到90%的Spot实例与按需节点的混合, 哪一个, 结合使用Qubole的异构集群能力, 这使得实现大数据工作负载的最低运行成本非常容易和可靠.

另外, 自动伸缩和集群生命周期管理为Ibotta的云基础设施成本提供了显著的节省. 这意味着管理预算和ROI要容易得多, Ibotta可以预测如何相应地扩展不同的功能和项目.

艾博塔专注于交付 新一代电子商务 功能和产品有助于推动更好的用户体验和合作伙伴盈利. Qubole允许Ibotta花时间开发和生产可伸缩的数据产品. 更重要的是,它可以专注于为用户和客户带来价值.

想要更多的信息? 阅读Ibotta的完整故事 与Qubole共同打造自助数据湖.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和火花 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 阅读广告软件公司如何在Qubole上使用转眼间处理超过100亿的每日事件
    友情链接: 1 2 3 4 5 6 7 8 9 10