TubeMogul的大数据生命周期

开始免费试用
2016年4月29日 by 2021年9月8日更新

本文作者Chris Chanyi, TubeMogul的高级数据架构师. 该图表最早出现 在这里.

TubeMogul一个月要处理超过一万亿的HTTP请求. 为了理解权威推荐全球最大网赌正规平台是如何处理这么多数据的,理解权威推荐全球最大网赌正规平台是如何开始的很重要. 请继续阅读,深入了解权威推荐全球最大网赌正规平台的大数据历史.
权威推荐全球最大网赌正规平台最近的一篇博客文章详细描述了权威推荐全球最大网赌正规平台是如何处理的 每月1万亿次HTTP请求 ——一个令人眼花缭乱的数字. 所有这些HTTP请求都意味着TubeMogul为每个需要通过权威推荐全球最大网赌正规平台的数据管道传输的请求接收和存储某种类型的数据. While getting that data isn’t easy; storing, 检索, 查询, 而收集所有这些数据则更加困难. 多亏了大量的云服务和对权威推荐全球最大网赌正规平台服务的改进, 这些年来,处理这些数据变得越来越容易. 为了理解权威推荐全球最大网赌正规平台是如何处理这些数据的,理解权威推荐全球最大网赌正规平台是如何开始的很重要。

 

使用Hadoop开始 & AWS

 

2008年初, TubeMogul 正在转投一家分析公司,仍然在使用OLTP处理数据 数据仓库 设置. 那一年, 越来越明显,集群和可伸缩的解决方案是必需的,而云计算就是答案. 雅虎刚刚将其搜索服务转移到Hadoop, 这是谷歌不久前发布的大数据论文的开源实现. Hadoop was still new; that year they went from 3 featured companies on their website to 20 companies “powered by Hadoop” and TubeMogul got busy rebuilding their analytics platform using this new solution. TubeMogul完成这一过程的速度和规模在很大程度上得益于权威推荐全球最大网赌正规平台向AWS的迁移. 如果没有云迁移,很难想象权威推荐全球最大网赌正规平台会成功.

当然,最初几年并非没有挑战. AWS有过几次公共故障,让权威推荐全球最大网赌正规平台的行动暂停了, 但考虑到权威推荐全球最大网赌正规平台部署服务的速度,在AWS上采用Hadoop的过程就像权威推荐全球最大网赌正规平台所希望的那样顺利. 权威推荐全球最大网赌正规平台快速迭代并且能够快速获得权威推荐全球最大网赌正规平台所需要的规模. 每一次增长的高峰和每一次停电都教会了人们处理大量数据的新方法(任何记得2012年东海岸停电的人都可以同情:http://aws.亚马逊.Com/message/67457如果你想重温.

到2010年初,TubeMogul使用Hadoop、HBase和蜂巢实现了数据的大规模增长. AWS管理成本和简化的能力也在增长. 越来越多的工具开始出现,并且持续了一段时间, 感觉就像亚马逊每周都会发布一项新的主要服务. 在AWS的NoSQL领域,最大的变化是弹性MapReduce (EMR) web服务的出现. EMR需要更少的操作支持,并允许用户快速启动Hadoop集群来执行从原始ETL到大型蜂巢查询的任何操作,而无需管理底层硬件的操作负担, OS, 或软件安装. TubeMogul选择了EMR,它成为了权威推荐全球最大网赌正规平台Hadoop的首选工具.

 

实时数据去

 

此时,权威推荐全球最大网赌正规平台仍然通过一个定制的基于hadoop的平台处理所有的统计数据. 不久之后,对实时更新和减少报告时间的需求迫使公司转向实时平台. TubeMogul用基于Kafka和storm的系统取代了Hadoop ETL管道. (见权威推荐全球最大网赌正规平台的 实时分析 更多关于这些服务的信息!权威推荐全球最大网赌正规平台在Hadoop中运行的聚合现在可以在Storm中实时运行了, 在事件被使用后,几乎立即向UI提供参数. 新平台还提供了各种各样的新加载器,这些加载器执行恒定的流到权威推荐全球最大网赌正规平台的各个端点:Oursql(权威推荐全球最大网赌正规平台定制的低延迟DB引擎), Vertica, S3, 现在又是德鲁伊. TubeMogul的最后一个Hadoop集群终于关闭了,但权威推荐全球最大网赌正规平台继续使用EMR. 事件级数据存储在S3中, 权威推荐全球最大网赌正规平台执行了许多离线统计过程进行调试, 报告, 和机器学习——所有这些仍然在EMR中完成. 这一方法在一段时间内运行良好,但裂缝开始出现.

对于初学者来说, AWS按小时收费,所以使用一台机器工作100小时或使用100台机器工作1小时是一样的. 在EMR中,扩展大规模集群以完成对时间敏感的查询变得很容易——只需旋转更大的集群,然后在完成查询后关闭它们. 这工作得很好……直到你忘记关闭这个巨大的星系团一周. 或者当你正在使用的AWS EMR API被弃用,你用于自动EMR管理的各种工具也不得不升级(通常是在你也没有时间这么做的时候). 或者当你发现他们的蜂巢实现有点旧和慢的时候, 或者你想在新版本中添加一个很酷的新功能, 但那是不可用的. 或更糟的是, 当新版本最终出现时,你不小心选择了它,它会自动升级你的元数据存储,并损坏每个表. 是的发生的……. 这是在Qubole进入TubeMogul的时候.

 

离线统计移动到Qubole

 

TubeMogul在2013年开始使用Qubole. 它的目的是拥抱应用程序云解决方案,提供EMR所做的一切,甚至更多. Qubole拥有简单的UI, 使启动集群和运行特别查询变得简单, 它有一个更新的蜂巢版本,可以在云中运行,更有效地使用S3数据. (Qubole也为社区做出了贡献,并积极参与基于hadoop的开源工具.当权威推荐全球最大网赌正规平台进行一对一的比较时,权威推荐全球最大网赌正规平台发现Qubole的表现一直优于EMR. 通过支持权威推荐全球最大网赌正规平台现有的单点登录SAML, 权威推荐全球最大网赌正规平台能够将现有用户连接到Qubole环境中. 添加新用户就像发送一封邀请电子邮件一样简单. 因为权威推荐全球最大网赌正规平台的数据已经在S3中了, 权威推荐全球最大网赌正规平台只需要创建集群并在Qubole 蜂巢元存储中重新创建权威推荐全球最大网赌正规平台的外部表/视图. 集群可以配置一个自定义引导程序来加载权威推荐全球最大网赌正规平台现有的自定义udf, 设置蜂巢或Hadoop的具体配置, 并配置SSH私钥,允许在主机上进行调试.

在早期, 很明显,集群的启动和旋转相对于EMR来说是一个巨大的改进. 首先,一旦查询命中集群,它们就会自动出现. 一个可配置的空闲时间意味着如果它没有被使用,它将自动关闭. 这个特性可能已经拯救了权威推荐全球最大网赌正规平台无数次.

Qubole的另一个节省成本的功能是使用AWS Spot实例. 通过配置集群来使用尽可能多的现场实例, 特别是如果您在集群大小调整或时间安排方面比较灵活的话, 您可以利用空闲实例,在按需定价的基础上节省相当多的费用. 有各种各样的实例类型可供选择, 很容易为您可能需要的任何集群找到合适的配置. TubeMogul有5个账户,拥有超过12个集群,这种安排不太可能在EMR中进行管理.

Qubole_ControlPanel

Qubole 还附带一个方便的调度程序. 权威推荐全球最大网赌正规平台的许多离线统计ETL作业都是使用这个调度器构建的. 一旦数据到达,就进行处理, 权威推荐全球最大网赌正规平台可以对下游处理的数据执行聚合或转换, 或者进一步为最终用户消费进行聚合或过滤. 流程易于构建和维护. 甚至非工程技术团队也能增加工作岗位,将冗余任务自动化. 作为额外的奖励,它们还包括一个导入/导出工具. 通过向外部电源添加水龙头, 权威推荐全球最大网赌正规平台也可以将MySQL和Vertica的维度表集成到S3中,在蜂巢中执行连接. 从质量保证到客户管理, 对机器学习, TubeMogul每天运行数百个ETL作业和报告,以及更多的特别查询.

 

最后,添加Spark和转眼间

 

Qubole还为云服务添加了其他服务.g. 火花,转眼间. 通过将笔记本电脑集成到UI中, 最终用户受益于数据探索的交互界面. 在三月的TubeMogul DevCon大会上, 权威推荐全球最大网赌正规平台邀请了Qubole作为嘉宾,展示了笔记本的强大功能,并通过一个简单易用的例子展示了使用Spark和转眼间执行交互查询和构建定制笔记本的速度和易用性.

Qubole_Notebook

虽然新的UI功能令人印象深刻, TubeMogul的下一个主要阶段是继续使用转眼间作为权威推荐全球最大网赌正规平台的报道平台. SQL语法与蜂巢稍有不同,但是转眼间查询的速度非常快. 作为比较测试, 权威推荐全球最大网赌正规平台用一个典型的大星型模式组织事实和维度表集,并在蜂巢 (EMR)和转眼间 (Qubole)上运行了一个月的大查询。. 尽管硬件稍有不同, 40个节点的大型EMR集群花了几个小时才完成, 而一个更小的5个节点的转眼间集群可以在10分钟内完成这个任务. 转眼间能够通过完全跳过Hadoop作业平台来实现这种提升, 而使用它自己的流程来传输数据要快得多. 此外,通过以ORC格式存储数据,转眼间能够从S3执行更好的读取优化. 与蜂巢的暴力破解方法相比,这大大减少了数据量. 转眼间不是用来做大型ETL工作的, 它缺乏分区管理,任务不能容错. 如果其中一个失败,则查询失败. 但, 用于运行特别查询或每日或每月报告, 转眼间查询数据的速度意味着权威推荐全球最大网赌正规平台可以用更少的时间运行更小的集群, 进一步节省了AWS成本.

TubeMogul最近推动了最后几个仍在使用EMR的项目之一的迁移, 一个报告基础架构,执行蜂巢查询,并将每日报告发送给合作伙伴, 客户, 和员工. 通过将其迁移到 转眼间,Qubole在美国,工程师们已经能够删除大量不再需要的源代码. (如果你曾经这样做过,你就会知道那种感觉有多好.)这个项目已经被剥离为查询的业务需求和运行查询的工作流程. Qubole的团队在帮助这些努力方面发挥了重要作用, 在转眼间中构建udf, 集群设置和测试, 他们总是快速回应问题和支持电话. 权威推荐全球最大网赌正规平台的报告在转眼间上运行速度快了一个数量级,节省了大量的成本. 它允许权威推荐全球最大网赌正规平台开始设计以前不可能的新功能,并进一步简化业务.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 阅读你的大数据项目应该使用哪种编程语言?
    友情链接: 1 2 3 4 5 6 7 8 9 10