pyspark相关内容整理及归纳
# 依赖文件
# spark on yarn 配置文件
https://spark.apache.org/docs/latest/configuration.html
# spark on k8s 配置文件
https://spark.apache.org/docs/latest/running-on-kubernetes.html#spark-properties
# --py-files 是指依赖的python单文件(也可以指定一个 pip包,但是不能指定虚拟环境)
spark/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--py-files dependency.py \
script.py
# --files
# --archives
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 原理
# 由 py4j 进行运行
https://www.jianshu.com/p/eaab74e34dae
1
2
2
# 参考
https://blog.csdn.net/weixin_41002327/article/details/112252163
1
上次更新: 2023-10-13 14:07:43