Merge pull request #703 from peastman/multigpu

Further improvements to multi-GPU performance

Merge pull request #703 from peastman/multigpu
Further improvements to multi-GPU performance
4ab3b428 · peastman · 924af739 · 67a3b4c0 · 4ab3b428 · 4ab3b428
Commit 4ab3b428 authored Nov 05, 2014 by peastman
Showing with 10 additions and 8 deletions

platforms/cuda/include/CudaParallelKernels.h platforms/cuda/include/CudaParallelKernels.h +1 -0

platforms/cuda/src/CudaParallelKernels.cpp platforms/cuda/src/CudaParallelKernels.cpp +9 -8

No files found.
--- a/platforms/cuda/include/CudaParallelKernels.h
+++ b/platforms/cuda/include/CudaParallelKernels.h
@@ -86,6 +86,7 @@ private:
    long long* pinnedForceBuffer;
    CUfunction sumKernel;
    CUevent event;
+    CUstream peerCopyStream;
 };
 /**

--- a/platforms/cuda/src/CudaParallelKernels.cpp
+++ b/platforms/cuda/src/CudaParallelKernels.cpp
@@ -71,10 +71,9 @@ public:
        cu.setAsCurrent();
        if (cu.getContextIndex() > 0) {
-            if (!cu.getPlatformData().peerAccessSupported) {
+            cuStreamWaitEvent(cu.getCurrentStream(), event, 0);
-                cuStreamWaitEvent(cu.getCurrentStream(), event, 0);
+            if (!cu.getPlatformData().peerAccessSupported)
                cu.getPosq().upload(pinnedMemory, false);
-            }
        }
        kernel.beginComputation(context, includeForce, includeEnergy, groups);
    }
@@ -146,6 +145,7 @@ CudaParallelCalcForcesAndEnergyKernel::~CudaParallelCalcForcesAndEnergyKernel()
    if (pinnedForceBuffer != NULL)
        cuMemFreeHost(pinnedForceBuffer);
    cuEventDestroy(event);
+    cuStreamDestroy(peerCopyStream);
 }
 void CudaParallelCalcForcesAndEnergyKernel::initialize(const System& system) {
@@ -158,6 +158,7 @@ void CudaParallelCalcForcesAndEnergyKernel::initialize(const System& system) {
    for (int i = 0; i < (int) contextNonbondedFractions.size(); i++)
        contextNonbondedFractions[i] = 1/(double) contextNonbondedFractions.size();
    CHECK_RESULT(cuEventCreate(&event, 0), "Error creating event");
+    CHECK_RESULT(cuStreamCreate(&peerCopyStream, CU_STREAM_NON_BLOCKING), "Error creating stream");
 }
 void CudaParallelCalcForcesAndEnergyKernel::beginComputation(ContextImpl& context, bool includeForce, bool includeEnergy, int groups) {
@@ -177,11 +178,11 @@ void CudaParallelCalcForcesAndEnergyKernel::beginComputation(ContextImpl& contex
    }
    else {
        int numBytes = cu.getPosq().getSize()*cu.getPosq().getElementSize();
-        for (int i = 1; i < (int) data.contexts.size(); i++) {
+        cuEventRecord(event, cu.getCurrentStream());
-            data.contexts[i]->setAsCurrent();
+        cuStreamWaitEvent(peerCopyStream, event, 0);
-            CHECK_RESULT(cuMemcpyAsync(data.contexts[i]->getPosq().getDevicePointer(), cu.getPosq().getDevicePointer(), numBytes, 0), "Error copying positions");
+        for (int i = 1; i < (int) data.contexts.size(); i++)
-        }
+            CHECK_RESULT(cuMemcpyAsync(data.contexts[i]->getPosq().getDevicePointer(), cu.getPosq().getDevicePointer(), numBytes, peerCopyStream), "Error copying positions");
-        cu.setAsCurrent();
+        cuEventRecord(event, peerCopyStream);
    }
    for (int i = 0; i < (int) data.contexts.size(); i++) {
        data.contextEnergy[i] = 0.0;