Skip to content

Atthemoment/spark

 
 

Repository files navigation

learn spark the hard way

基于2.1版本的源码,主要对spark core的部署模块,作业调度,内存管理,shuffle流程和块管理做了注释。 对spark sql的执行流程和structured streaming做了注释。对spark streaming做了注释。 对mllib的分类和回归算法做了注释。欢迎交流qq:1010525457。

spark core 重要的类

Alt text

spark sql 分析优化规则、执行

Alt text

spark ml 分类和回归类图

Alt text

About

Mirror of Apache Spark

Resources

License

Security policy

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Scala 77.6%
  • Java 10.0%
  • Python 7.6%
  • R 3.3%
  • Shell 0.5%
  • JavaScript 0.5%
  • Other 0.5%