当前位置 : 主页 > 网络安全 > 测试自动化 >

性能 – 如何从Spark中获取从hdfs读取数据的时间成本

来源:互联网 收集:自由互联 发布时间:2021-06-22
Spark的时间线包含: 调度程序延迟 任务反序列化时间 随机播放时间 执行者计算时间 随机播放写入时间 结果序列化时间 获得结果时间 似乎从源(例如hdfs)读取数据的时间成本包含在Ex
Spark的时间线包含:

>调度程序延迟
>任务反序列化时间
>随机播放时间
>执行者计算时间
>随机播放写入时间
>结果序列化时间
>获得结果时间

似乎从源(例如hdfs)读取数据的时间成本包含在Executor Computing Time中.但我不确定.

如果它在Executor Computing Time中,如何在不包括计算的时间成本的情况下获得它.

谢谢.

很难正确区分读取操作所花费的时间,因为正在读取数据时对数据进行处理.

一个简单的最佳选择就是应用一个简单的操作(比如计数),这个操作的开销非常小.如果你的文件是相当大的,那么读取将极大地支配琐碎的操作,特别是如果它是一个像count一样可以在不在节点之间移动数据的情况下完成(除了单值结果).

网友评论