从线程调度和内存带宽的角度来看,这两个块大小(1024×1对32×32)是如何实现的?这2个块大小的性能是否有任何预期的差异?请注意,每个块使用1024个线程. Threadblock维度,特别是当我们讨论
线程仍然是grouped for execution into warps.线程块尺寸的唯一直接影响是更改内置变量,例如传递给每个线程的threadIdx.x,blockIdx.x等,这不是性能问题.
线程仍然是grouped for execution into warps.线程块尺寸的唯一直接影响是更改内置变量,例如传递给每个线程的threadIdx.x,blockIdx.x等,这不是性能问题.