Spark的时间线包含: 调度程序延迟 任务反序列化时间 随机播放时间 执行者计算时间 随机播放写入时间 结果序列化时间 获得结果时间 似乎从源(例如hdfs)读取数据的时间成本包含在Ex
>调度程序延迟
>任务反序列化时间
>随机播放时间
>执行者计算时间
>随机播放写入时间
>结果序列化时间
>获得结果时间
似乎从源(例如hdfs)读取数据的时间成本包含在Executor Computing Time中.但我不确定.
如果它在Executor Computing Time中,如何在不包括计算的时间成本的情况下获得它.
谢谢.
很难正确区分读取操作所花费的时间,因为正在读取数据时对数据进行处理.一个简单的最佳选择就是应用一个简单的操作(比如计数),这个操作的开销非常小.如果你的文件是相当大的,那么读取将极大地支配琐碎的操作,特别是如果它是一个像count一样可以在不在节点之间移动数据的情况下完成(除了单值结果).