背景:联合国全球平台的使命

联合国的专家委员会的治理下大数据和官方统计数据科学(UN-CEBD),全球平台已经建立了一个云服务生态系统来支持国际合作发展的官方统计数据使用新的数据源,包括大数据和创新方法和帮助各国衡量可持续发展目标(西班牙)交付2030可持续发展议程。

任务团队AIS是一组参与组织在全球各地的许多统计学家感兴趣利用AIS数据(全球时间序列数据集对船舶的位置和速度)官方统计和实验指标的目的。任务团队使用联合国全球平台来存储、管理和分析AIS数据,每年增加3000亿条记录。看到他们的工作的一个例子:更快的英国经济活动指标项目

挑战:HBase + EMR是很难管理和昂贵的

平台用于依靠HBase实例托管AIS数据,和Apache火花AWS EMR的平台上运行的分析这些数据。数据团队在联合国全球休息平台有几个挑战这个设置:

  • EMR集群超大(高峰负荷期间除外),其自动定量能力并不满意,导致高成本。
  • 集群竞争会不稳定当数以千万计的用户并发查询。
  • python库提供给最终用户被限制为安装额外的复杂过程。
  • 成本保持年HBase实例的历史数据
  • HBase管理的复杂性

这个系统的高成本和缺乏灵活性促使寻找更好的解决方案。

解决方案:70%更低的成本和更好的用户体验与海洋Apache火花

新平台架构:Apache运行的火花,S3作为数据来源,Jupyter笔记本托管在JupyterHub主界面。

Apache火花现在运行在一个Kubernetes(的)集群由海洋Apache火花。最终用户提交的作业通过批处理的API,并连接Jupyter笔记本(托管在Jupyter中心)交互式数据探索。

  • 每个用户都有自己的资源(火花司机,火花执行人)其他人隔离开,并根据负载自动向上和向下扩展。
  • 用户可以安装新的图书馆自助服务的方式,而不会影响其他租户将它们添加到它们的码头工人图像库的集合,可以在码头工人支持图像实际上是无限的,导致更好的分析和报告所有的需求。
  • 海洋为Apache火花使显著降低成本通过快速集群自动定量功能和额外的代码性能优化。
  • 使用S3作为主要数据源进一步降低成本和提供额外的存储管理的灵活性,同时提供一个丰富的历史深度。