Expedia集团是如何大规模投资企业数据科学的

开始免费试用
2019年2月5日 by 2021年7月6日更新

本文是由Expedia集团高级数据科学家Sean Downes撰写的客座文章.

Expedia集团 是世界的旅游平台吗, 拥有广泛的品牌组合,包括一些世界上最值得信赖的在线旅游品牌. 权威推荐全球最大网赌正规平台帮助数百万人预订机票、邮轮、酒店、假日租赁和活动. 权威推荐全球最大网赌正规平台有超过22,000名员工,超过100亿美元的收入,所以它是一个大企业,而且 数据科学 对权威推荐全球最大网赌正规平台的成功起了很大的作用.

我从2014年开始加入Expedia集团,并取得了长足的进步. 几年前,有些人甚至不知道什么是统计模型. 约翰金, 然后是品牌Expedia的首席产品官, 建立了一种“测试和学习”的文化,从而扭转了公司的颓势. 收集到的相关数据是Expedia集团数据科学的起源.

作为矛尖, 权威推荐全球最大网赌正规平台的(原型)数据科学团队从协作过滤技术和其他类似的数据驱动模型开始. 这些模型引导权威推荐全球最大网赌正规平台对点击流进行研究, 因此,权威推荐全球最大网赌正规平台决定将酒店排序问题表示为一个“学习排序”的机器学习问题. 输入这些算法的迭代过程导致权威推荐全球最大网赌正规平台的数据需求呈指数级增长. 例如, 当季节性被包括在算法中, 要计算的特征的数量, 商店, 服务显著增长.

由于复杂性的增长,当权威推荐全球最大网赌正规平台第一次开始引入时,出现了相当大的阻力 数据科学. 权威推荐全球最大网赌正规平台面临的挑战是说服保守派,权威推荐全球最大网赌正规平台需要数据驱动. 更重要的是, we needed to be science-driven; moving from opinions and anecdotal evidence toward models that reflect the complexity of our users’ actions and intent.

机器学习在Expedia集团成功的第一步

权威推荐全球最大网赌正规平台已经做到了这点, 权威推荐全球最大网赌正规平台成功的关键是与产品管理部门合作,帮助企业简化数据科学. 第一个, 权威推荐全球最大网赌正规平台成立了一个“团结”的小团队,专注于解决业务问题,而不是过于复杂的数据科学. 权威推荐全球最大网赌正规平台慢慢地在数据驱动的业务领域引入了有价值的数据科学用例, 所以权威推荐全球最大网赌正规平台不需要重新发明轮子. 这意味着权威推荐全球最大网赌正规平台可以用更简单的努力来展示价值, 赢得更多的项目, 循序渐进地培养兴趣.

以下是权威推荐全球最大网赌正规平台采取的一些主要步骤:

  • 专注于业务. 权威推荐全球最大网赌正规平台知道权威推荐全球最大网赌正规平台必须让数据科学与组织保持一致. 所以权威推荐全球最大网赌正规平台将DS团队转移到矩阵结构中, 首席科学家根据专业知识与Expedia集团各业务部门合作. 例如, 权威推荐全球最大网赌正规平台有数据科学家来优化权威推荐全球最大网赌正规平台向网站用户推荐的酒店, 权威推荐全球最大网赌正规平台对活动的建议, 权威推荐全球最大网赌正规平台面向供应商的活动,以帮助权威推荐全球最大网赌正规平台的酒店合作伙伴更好地销售, 还有权威推荐全球最大网赌正规平台的定价和投标系统.
  • 结合工程. 权威推荐全球最大网赌正规平台与权威推荐全球最大网赌正规平台的工程师合作,将数据科学“产品化”和“操作化”. 权威推荐全球最大网赌正规平台首先为特定的业务提供相关的数据集, 然后建立一个管道来提供常规数据, 从那时起,权威推荐全球最大网赌正规平台与用户合作,将越来越多的机器学习模型投入生产, 特别是使用动态算法.
  • 接受新技术. 在基础设施方面,权威推荐全球最大网赌正规平台面临的挑战是“在制造新飞机的同时驾驶旧飞机”.刚开始的时候,权威推荐全球最大网赌正规平台只是从SQL服务器类型的数据库中提取数据. 权威推荐全球最大网赌正规平台意识到权威推荐全球最大网赌正规平台需要收集和使用更多的数据, 提供更多客户驱动的见解,构建更多机器学习用例.

为实现这一目标, 权威推荐全球最大网赌正规平台最大的一步是从本地数据中心迁移到云基础设施使用 Qubole大数据平台. 这意味着权威推荐全球最大网赌正规平台能够扩展更多,运行模型更快. 这反过来又使数据科学团队能够证明其价值,从而创建新的项目.

云为权威推荐全球最大网赌正规平台提供了数据存储的巨大增长,这开启了许多新项目. 不幸的是,这也产生了新的挑战. 当权威推荐全球最大网赌正规平台第一次移动到云平台时, 权威推荐全球最大网赌正规平台花了超过48小时提取了24小时的汽车搜索数据, 这是不可持续的! 但是权威推荐全球最大网赌正规平台学习了Apache火花, 你瞧, 权威推荐全球最大网赌正规平台能够把每天的睡眠时间从48小时减少到8分钟. 过去需要几天才能完成的工作现在只需几秒甚至几分钟就能完成. 这很有帮助, 特别是当权威推荐全球最大网赌正规平台建立新的商业模式,并找出数据集中可用的东西时.

甚至在权威推荐全球最大网赌正规平台的团队中,这种模式也重复了很多次. 最近,一名相对较新的员工成功地将每天19个小时的建模流程缩短到一个多小时. 调优Spark性能仍然需要一些努力,并需要很好地理解数据是如何形成的, 存储, 在云里平衡. 但当代码和设置得到适当优化时,它就是一个强大的工具.

关键突破:云中的数据科学

这一切的底线是,好吧,底线. 真正赢得业务的是数据科学提高了性能, 增加销售, 和促进创新.

大约18个月前取得了突破, 当权威推荐全球最大网赌正规平台建立了一个数据科学计划,专注于优化权威推荐全球最大网赌正规平台与酒店合作的投标金额. 他们开始亏损,支付的钱比他们赚的钱多. 在使用数据科学之后, 这个项目能够提高效率,产品也变得更加有利可图.

机器学习模型对权威推荐全球最大网赌正规平台的创新和商业成功变得越来越重要. Expedia集团的大部分业务都涉及数据科学, 其中包括酒店, 航班, 活动, 市场营销, 地理位置, 和欺诈监测. 最近,权威推荐全球最大网赌正规平台进行了一次全公司范围的产品评估, 整个领导团队都在那里询问权威推荐全球最大网赌正规平台在哪些方面可以改进? 这就是权威推荐全球最大网赌正规平台现在的情况.

数据科学团队有五到六个人, 现在超过了30, 计划扩大到60人. 但黄金标准是:权威推荐全球最大网赌正规平台所有的活动都是为了提高销售额, 这就是把权威推荐全球最大网赌正规平台的脚放在火上的原因.

确保持续成功

那么,权威推荐全球最大网赌正规平台如何才能继续确保数据科学的适当发展,以创建成功的项目和计划呢? 以下是权威推荐全球最大网赌正规平台从自己的经验中得出的七个关键结论,其他数据科学团队可以利用它们来帮助确保成功:

  1. 及早格式化数据集,以便大数据使用. 将用于模型设计的数据持久化到具有人类可读列名的平面文件中. Parquet是一种很棒的、对spark友好的格式,它也应该能很好地与Hadoop兼容.
  2. 建立一个真实的分析源. 而拥有一个包含许多“测试”数据集的数据湖是可以的, 确保通过使用某种支持的“黄金标准”来对齐大量使用的数据集, 记录, 并发表在内部.
  3. 平衡数据并优化分区. 确保底层数据文件存储在50-500 MB的块中. 这些分区可以是隐式或显式分区. 如果显式地对字段进行分区, 说“the_date”, 确保该领域的数据平衡良好. (例如, 按国家或用户进行分区并不是一个好主意, 因为与这些分区相关联的数据行可能是pareto分布的, 这意味着一个分区将比其他分区大得多).
  4. 检查点(保存)任何将被重用的数据集, 或者下游有多个逻辑依赖项. 例如,我每天保存与活动预订相关的所有数据. 然后使用该数据集生成训练数据, 数据来支持权威推荐全球最大网赌正规平台的模型服务器, 以及其他下游分析.
  5. 使用Spark时,任何类似于ETL的东西都要使用Scala. 对于udf和udaf来说尤其如此. Scala位于JVM中,可以并行化,而Python通常不能. Python适用于最终阶段的非关联任务(如训练模型).
  6. 因为你应该使用Scala, 你应该考虑用Scala构建工具(SBT)构建自己的包。. 这将允许数据科学家明确指定工程师可以使用的工作. 它还有助于避免大量重复代码,并有助于代码检查和调试. 另外, Scala是一种编译语言(不像Python), 因此,本地编译允许您在使用云资源之前找到错误.
  7. 考虑在Spark PipelineML中使用或扩展Transformer类,以快速部署etl. 它是一个内置的一元编码API,可以帮助你插入到编写为PipelineML Estimator类的建模算法中.

通过整合这些思想,您将使您的组织具有灵活性和可伸缩性. 明确好 数据管理 速度中最重要的因素是什么. 它将使你的科学家专注于建立模型和获得有意义的见解——而不仅仅是数据本身.

了解更多关于Expedia如何利用Qubole. 找出 Expedia如何在Qubole上使用Scala和Spark 每月发送5亿封个性化邮件.

开始免费试用
  • 博客订阅

    获取所有大数据的最新更新.
  • 最近的帖子

  • 类别

  • 事件

    QUBOLE现场演示:新版本和Spark 3.0就快到了!

    1月. 20202022 |全球

    QUBOLE LIVE演示:谷歌云平台(GCP)让您简化今天和未来的证明

    1月. 27, 2022年|全球

    QUBOLE现场演示:用Graviton和AWS停止云成本疯狂. 切换和保存,以减少您的数据湖成本今天

    2月. 3、2022年|全球
  • 使用RubiX分布式缓存提高Apache火花性能4倍
    友情链接: 1 2 3 4 5 6 7 8 9 10