CPU架构、高速缓存、存储器
Yarn运行日志管理主要是NodeManager中Executor任务执行日志的管理。
Yarn设计有一种分布式缓存机制,把资源文件缓存到NodeManager,可以加速任务启动过程。
不同的Hive文件存储格式与压缩算法组合之后的计算效率压缩性能有较大差异。
Parquet是一种新型列式存储格式。
ORC全称为Optimized Row Columnar,优化列式存储。
Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。
SequenceFile是Hadoop提供的一种二进制文件支持,具有使用方便、可分割、可压缩的特点。
Hive存储格式表示表数据在文件中的组织形式。
Hive压缩格式也压缩算法