如何利用Qubole技术建立数据湖来扩大新产品的规模

所面临的挑战

解锁数据,用于定向广告和产品改进

TiVo的 娱乐平台每个月都会整合数tb的数据:来自数百万家庭有线电视盒的原始收视数据, 从第一和第三方购买数据, 以及基于位置的消费者数据. TiVo的网络和广告合作伙伴需要基于这些数据的报告,以更好地了解不同客户群体的观看和购买行为.

因为TiVo的合作伙伴通常有截然不同的报告需求, 所有这些数据都需要转换, 分段, 并以不同的方式包装以满足他们的需求. TiVo的 工程数据 团队需要一种有效、经济且大规模地实现这一目标的方法.

关于TiVo

TiVo 公司是娱乐技术和观众洞察力的全球领导者. 从交互式节目指南到DVR, TiVo提供创新的产品和可授权的技术,革新了人们如何在不断变化的媒体环境中找到内容.

高效、准确地处理海量数据的需求

TiVo现有的方法涉及从几个不同来源获取数据到ETL管道, 将数据汇总到Amazon S3. 从 Amazon S3TiVo将数据输入各种数据集市和仓库,并最终进行处理 亚马逊红移MySQL,并使用Amazon EC2上的Java服务使用结果. 这种方法要求他们的数据工程师为每个新的报告请求编写新的etl, 增加开发时间, 膨胀的成本, 降低了生成报告的总体效率.

TiVo意识到它需要一个强大的分析平台,让它能够扩展和自动化消化过程, 处理, 在整合所有不同的数据的同时,也降低了分析计划的成本. 简化其数据科学方法, TiVo需要一种方法来存储所有的数据——结构化的和非结构化的——以消除数据竖井,这些竖井阻碍了它轻松地运行生成所请求的报告所需的分析工作负载.

在AWS上使用数据湖的决定

使其数据更容易用于分析操作, TiVo在Amazon S3上部署了一个数据湖. 数据湖允许公司在一个方便的存储库中存储任何数据类型. 数据可以从多个来源收集,并以原始格式转移到数据湖中. 这允许TiVo扩展到任何大小的数据, 同时,通过消除定义数据结构的需要节省时间, 模式, 和转换.

为什么要在AWS上建立数据湖?

在AWS上激活您的数据,使其在分析中高度可用

TiVo的数据工程团队选择 转眼间 作为其查询引擎,基于其灵活性和效率. 然后团队决定使用Qubole, 它可以轻松地扩展和管理转眼间集群,更容易地审计查询和调试命令. 激活平台提供了开箱即用的功能,如果Tivo在没有Qubole的情况下选择在AWS EC2上部署转眼间,那么它将需要从头创建这些功能. TiVo的数据工程师发现Qubole的部署很简单:在为AWS和Qubole网站配置权限之后, 他们已经准备好运行查询了.

Qubole模板自动化TiVo查询的每个元素,包括激活 转眼间集群 并根据使用情况扩展集群. 这消除了手动编写脚本来告诉转眼间如何行为的需要. 然后将查询结果保存在Amazon S3桶中,以便以后进行审计. 通过其服务管理门户, TiVo可以跟踪查询,查看和下载中间查询和结果.

Qubole丰富的特性集包括根据工作负载标记单个集群的能力. TiVo标签集群(e.g. “ETL”、“报告”和“交互”),以帮助开发人员团队保持组织性. Qubole的笔记本 特性提供了一种方便的保存方式, 分享, 例如,在数据源上重新运行一组查询, 跟踪底层数据随时间的变化, 或者使用不同的参数提供不同的视图.

Qubole界面使权威推荐全球最大网赌正规平台的开发人员可以很容易地使用笔记本, 选择一个集群, 然后从查询开始. 他们不必担心管理集群, 通过共享笔记本电脑,他们可以很容易地与其他开发人员合作.

卢卡斯·韦,Tivo的首席工程师

Qubole为TiVo的合作伙伴提供他们需要的报告

Qubole简化了为TiVo的合作伙伴生成报告的过程, 他们的需求每周都在变化, 数据类型, 和时间(每周, 每月, 每年). 运行数据科学操作所需的财务和人力资源在很大程度上取决于运行的报告的复杂性. 今天,TiVo可以用更少的资源做更多的事情,通过Qubole自动化它的报告.

Qubole提供了一个简单的方法, 直观的方式为TiVo的合作伙伴设置和时间表,为他们的特定需求量身定制的报告. 这种自助服务功能为TiVo的网络和广告合作伙伴提供了他们需要的商业智能工具,以最适合他们的节奏解读来自高度目标人口的数据. 能接触到任何类型的观众, 只购买他们需要的报告, 允许网络和广告商更容易定制和规模的新媒体产品,以在一个高度竞争的空间蓬勃发展.

下载这个案例研究的PDF版本.

友情链接: 1 2 3 4 5 6 7 8 9 10