所有标签

SparkHistoryServer历史记录清理机制

Spark任务在执行过程中，会产生大量的Event，是用来记录任务的执行过程的。这些Event会被记录到DistributedFileSystem中，随着时间的积累，这些在dfs中的记录需要被清理，这就是清理机制需要完成的工作。

nieo 发布于 2024-04-21

IllegalArgumentException(String.format("Server has invalid Kerberos principal: %s, expecting: %s", serverPrincipal, confPrincipal))

nieo 发布于 2024-04-18

大数据 Spark

spark-submit是spark提交任务的工具。spark-submit可以提交任务到spark集群执行，也可以提交任务到hadoop的yarn集群执行。

nieo 发布于 2024-04-10

大数据 Spark

spark-shell是一种对spark程序交互式开发的途径。spark-shell提供了一种学习API的简单方式，以及一个能够进行交互式分析数据的强大工具，可以使用scala编写（scala运行与Java虚拟机可以使用现有的Java库）或使用Python编写。

nieo 发布于 2024-04-10

大数据 Spark

Spark架构体系中，各个组件通过RPC协议通信。本文基于spark-3.5.1版本。

nieo 发布于 2024-04-10

大数据 Spark

Spark Shuffle用于将Map阶段的数据输出到Reduce阶段。

nieo 发布于 2024-04-10

Spark on Yarn模式中，我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中，当提交spark任务时，就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中，可以大大降低spark任务提交过程耗时。

nieo 发布于 2024-04-03

大数据 Spark

Spark作为一个通用执行引擎，其任务提交过程与我们的工作生产息息相关。本文基于spark-3.5.1版本源码。

Administrator 发布于 2024-03-20

大数据 Spark

源码解读Spark Catalog

Administrator 发布于 2024-03-09

大数据 Spark

SparkSession.read.jdbc执行过程

nieo 发布于 2024-01-13