Spark任务在执行过程中,会产生大量的Event,是用来记录任务的执行过程的。这些Event会被记录到DistributedFileSystem中,随着时间的积累,这些在dfs中的记录需要被清理,这就是清理机制需要完成的工作。
IllegalArgumentException(String.format("Server has invalid Kerberos principal: %s, expecting: %s", serverPrincipal, confPrincipal))
spark-submit是spark提交任务的工具。spark-submit可以提交任务到spark集群执行,也可以提交任务到hadoop的yarn集群执行。
spark-shell是一种对spark程序交互式开发的途径。spark-shell提供了一种学习API的简单方式,以及一个能够进行交互式分析数据的强大工具,可以使用scala编写(scala运行与Java虚拟机可以使用现有的Java库)或使用Python编写。
Spark on Yarn模式中,我们可以通过spark.yarn.jars和spark.yarn.archive预置spark jars到HDFS中,当提交spark任务时,就不需要把${SPARK_HOME}/jars目录下的jar包上传到hdfs中,可以大大降低spark任务提交过程耗时。