传统离线数仓,日志入库前首要阶段便是ETL,但天级ETL任务耗时久,影响下游依赖的产出时间;凌晨占用资源庞大,任务高峰期抢占大量集群资源;ETL任务稳定性不佳且出错需凌晨解决、影响范围大。为了解决天级ETL逐渐尖锐的问题,所以我们选择了近来逐渐进入大家视野的数据湖架构,看Soul如何用阿里云EMR的Delta Lake解决天级ETL问题。
EMR团队,公众号:Apache Spark技术交流社区Delta Lake在Soul的应用实践
本文分享自微信公众号 - Delta Lake技术圈(deltalake-emr2020)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。