一站式加速 Spark 作业执行性能
深入浅出的 Spark 核心原理
全面解析 Spark SQL 性能调优
应用开发、配置项设置实操指南
手把手带你实现一个分布式应用
课程模块设计
课程按照原理、性能、实战分为三大部分。
原理篇:主要讲解与性能调优息息相关的核心概念,包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。
性能篇:虽然 Spark 的应用场景可以分为 5 大类,包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹,所以性能篇主要分两部分来讲。
一部分主要讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联,总结 Spark SQL 中的调优方法和技巧。
实战篇:以 2011-2019 的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,帮助你实践我们的方法论和调优技巧,不仅要学得快,也要学得好!
除此之外,课程更新期间,还会不定期地针对一些热点话题进行加餐。比如,和 Flink、Presto 相比,Spark 有哪些优势;再比如,Spark 的一些新特性,以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化,把握先机。
〖课程截图〗:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。