特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

tensorflow – CPU端的性能瓶颈

来源：互联网收集：自由互联发布时间：2021-06-22

我正在研究语义分段架构.我需要加快训练速度,但不知道在哪里看得更远. 一般信息形状的图像(512,512,3) 4 GPU GeForce GTX 1080 11 GB GPU内存可用 1 CPU Intel(R)Xeon(R)CPU E5-2637 v4#3.50GHz可用足够的

我正在研究语义分段架构.我需要加快训练速度,但不知道在哪里看得更远.

一般信息

>形状的图像(512,512,3)
> 4 GPU GeForce GTX 1080 11 GB GPU内存可用
> 1 CPU Intel(R)Xeon(R)CPU E5-2637 v4#3.50GHz可用
>足够的RAM
>我用Keras
>我使用光数据预处理(主要是裁剪,没有太多数据增加)

我尝试了不同的数据加载方法,但每次瓶颈似乎都是CPU而不是GPU.我运行nvidia-smi和htop来查看利用率.

到目前为止我尝试了什么：

> Keras自定义DataGenerator,具有8名工作人员和1个GPU
model.fit_generator(generator = training_generator,use_multiprocessing = True,workers = 8)
> Keras tf.data.dataset,数据从原始图像加载
model.fit(training_dataset.make_one_shot_iterator(),…)

我尝试了两种预取方式：
dataset = dataset.prefetch(tf.contrib.data.AUTOTUNE)
dataset = dataset.apply(tf.contrib.data.prefetch_to_device(‘/ gpu：0’))
> Keras tf.data.dataset,数据从tf.Records加载
=>接下来是这个选项.

发现

>使用多个GPU(使用Keras非常容易)会减慢训练速度,因为开销计算会占用CPU.
>令人惊讶的是,简单的DataGenerator方法(没有tf.data.dataset)现在是最快的.
>每次进近时,GPU利用率都会在很短的时间内达到100％.但有时也是0％.

我觉得现在,我的处理链看起来像这样：

磁盘上的数据 – > CPU在RAM中加载数据 – > CPU进行数据预处理 – > CPU将数据移动到GPU – > GPU做了训练步骤

因此,加速培训的唯一方法是预先进行所有预处理并将文件保存到磁盘(数据增加会很大).然后使用tf.Records有效地加载文件.

您是否有其他想法如何提高培训速度？

更新

我用两种型号测试了我的管道.

简单的模型

复杂的模型

表现结果

我为3个时期训练了2个模型,每个模型140个步骤(批量大小= 3).
结果如下.

>原始图像数据=> Keras.DataGenerator
简单型号：126s
复杂模型：154s
>原始图像数据=> tf.data.datasets
简单型号：208s
复杂模型：215s

DataGenerator

辅助功能

def load_image(self,path):
    image = cv2.cvtColor(cv2.imread(path,-1), cv2.COLOR_BGR2RGB)
    return image

主要部分

#Collect a batch of images on the CPU step by step (probably the bottlebeck of the whole computation)
for i in range(len(image_filenames_tmp)):
    #print(image_filenames_tmp[i])
    #print(label_filenames_tmp[i])
    input_image = self.load_image(image_filenames_tmp[i])[: self.shape[0], : self.shape[1]]
    output_image = self.load_image(label_filenames_tmp[i])[: self.shape[0], : self.shape[1]]

    # Prep the data. Make sure the labels are in one-hot format
    input_image = np.float32(input_image) / 255.0
    output_image = np.float32(self.one_hot_it(label=output_image, label_values=label_values))

    input_image_batch.append(np.expand_dims(input_image, axis=0))
    output_image_batch.append(np.expand_dims(output_image, axis=0))

    input_image_batch = np.squeeze(np.stack(input_image_batch, axis=1))
    output_image_batch = np.squeeze(np.stack(output_image_batch, axis=1))            


return input_image_batch, output_image_batch

tf.data.dataset

辅助功能

def preprocess_fn(train_image_filename, train_label_filename):
'''A transformation function to preprocess raw data
into trainable input. '''
     x = tf.image.decode_png(tf.read_file(train_image_filename))
     x = tf.image.convert_image_dtype(x,tf.float32,saturate=False,name=None)

     x = tf.image.resize_image_with_crop_or_pad(x,512,512)

     y = tf.image.decode_png(tf.read_file(train_label_filename))
     y = tf.image.resize_image_with_crop_or_pad(y,512,512)

     class_names, label_values = get_label_info(csv_path)

     semantic_map = []
     for colour in label_values:
         class_map = tf.reduce_all(tf.equal(y, colour), axis=-1)
         semantic_map.append(class_map)
         semantic_map = tf.stack(semantic_map, axis=-1)
         # NOTE cast to tf.float32 because most neural networks operate in float32.
      semantic_map = tf.cast(semantic_map, tf.float32)       

      return x, semantic_map

主要部分

dataset = tf.data.Dataset.from_tensor_slices((train_image_filenames, train_label_filenames))

dataset = dataset.apply(tf.contrib.data.map_and_batch(
            preprocess_fn, batch_size,
            num_parallel_batches=4,  # cpu cores
            drop_remainder=True if is_training    
dataset = dataset.repeat()
dataset = dataset.prefetch(tf.contrib.data.AUTOTUNE) # automatically picks best buffer_size

您的数据处理管道如何完全如此？您是否考虑过省略一些可能过于昂贵的步骤？你的数据是如何存储的？它是按需加载的普通图像文件还是之前已将它们预先加载到内存中？通常加载JPG / PNG图像非常昂贵.

如果在model.fit_generator()中增加max_queue_size,你能看到任何改进吗？

最后,您能否对数据处理管道的实际速度进行基准测试,例如生成几千个批次并计算每批次的时间？

除此之外,我自己的经验是,当您的模型相对较小/计算成本不高时,可能会观察到低GPU利用率.由于新数据必须在批次之间提供给GPU,因此只有一个您无法避免的开销.当此开销与单次通过的实际计算时间之间的比率很高时,您可能会发现您的整体GPU确定性相对较低,甚至经常获得0％的值.

编辑：
您能否向我们提供有关您使用的模型的更多信息,尤其是它主要由哪种层组成.例如,相对较小的CNN的单次通过的计算时间可能太短,以至于通过在批次之间重新供给GPU而不是实际计算来使用更多时间.

更新：
在您添加有关处理管道的更多信息之后,我会说您的主要瓶颈是加载和解码PNG图像. PNG解压缩(甚至压缩甚至更多)通常非常昂贵(根据this源,大约是JPEG的5倍).要检查这个假设,您可以通过确定每个处理步骤(解码,调整大小,裁剪等)需要多少时间以及主要贡献者来分析您的处理流程.

现在有很多方法可以优化您的处理管道：

>您似乎加载了具有不同图像大小的普通,未处理的PNG图像.您至少可以将每个图像文件的大小调整为最终大小.这将节省存储并且应该减少加载/解码开销.>改用JPEG.如果它是“真实世界”的图像,JPEG和PNG之间应该有任何明显的质量差异,但JPEG占用的空间更少,解码成本更低.>如果您有足够的可用存储空间,则可以将整批图像保存为最终格式的压缩Numpy数组.这可能会占用更多空间,但也会大大减少装载时间.

上一篇：性能 – 为什么Iterable.sum()在Kotlin中很慢？
下一篇：包含从其他Rcpp包导出的代码时性能下降

tensorflow – CPU端的性能瓶颈

相关文章