我正在写CUDA的第一个程序.它是素数发生器.它可以工作,但它比同等的单线程C代码快50%. CPU版本使用100%的一个核心. GPU版本仅使用20%的GPU. CPU是i5(2310). GPU是GF104. 如何提高此算法的性
如何提高此算法的性能?
我的完整程序如下.
int* d_C; using namespace std; __global__ void primo(int* C, int N, int multi) { int i = blockIdx.x*blockDim.x + threadIdx.x; if (i < N) { if(i%2==0||i%3==0||i%5==0||i%7==0) { C[i]=0; } else { C[i]=i+N*multi; } } } int main() { cout<<"Prime numbers \n"; int N=1000; int h_C[1000]; size_t size=N* sizeof(int); cudaMalloc((void**)&d_C, size); int threadsPerBlock = 1024; int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock; vector<int> lista(100000000); int c_z=0; for(int i=0;i<100000;i++) { primo<<<blocksPerGrid, threadsPerBlock>>>(d_C, N,i); cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost); for(int c=0;c<N;c++) { if(h_C[c]!=0) { lista[c+N*i-c_z]=h_C[c]; } else { c_z++; } } } lista.resize(lista.size()-c_z+1); return(0); }
我尝试在内核中使用2D数组和for循环,但无法获得正确的结果.
欢迎来到Stack Overflow.以下是一些潜在问题:
> N = 1000太低了.由于你有1024个ThreadPerBlock,你的内核只能运行一个块,这不足以使用GPU.尝试N = 1000000,这样你的内核启动将近1000个块.
>你在GPU上做的工作非常少(每个测试数量的4个模数运算).因此,在CPU上执行这些操作可能比从GPU(通过PCIe总线)复制它们更快.
为了使用GPU来查找素数是值得的,我认为你需要在GPU上实现整个算法,而不仅仅是模数运算.