性能 – 如何从Spark中获取从hdfs读取数据的时间成本

来源：互联网收集：自由互联发布时间：2021-06-22

Spark的时间线包含：调度程序延迟任务反序列化时间随机播放时间执行者计算时间随机播放写入时间结果序列化时间获得结果时间似乎从源(例如hdfs)读取数据的时间成本包含在Ex

Spark的时间线包含：

>调度程序延迟
>任务反序列化时间
>随机播放时间
>执行者计算时间
>随机播放写入时间
>结果序列化时间
>获得结果时间

似乎从源(例如hdfs)读取数据的时间成本包含在Executor Computing Time中.但我不确定.

如果它在Executor Computing Time中,如何在不包括计算的时间成本的情况下获得它.

谢谢.

很难正确区分读取操作所花费的时间,因为正在读取数据时对数据进行处理.

一个简单的最佳选择就是应用一个简单的操作(比如计数),这个操作的开销非常小.如果你的文件是相当大的,那么读取将极大地支配琐碎的操作,特别是如果它是一个像count一样可以在不在节点之间移动数据的情况下完成(除了单值结果).

相关文章