Reduced number of force buffers to one per work group. Increased work group...

Reduced number of force buffers to one per work group. Increased work group size for nonbonded interactions.

Reduced number of force buffers to one per work group. Increased work group...
Reduced number of force buffers to one per work group. Increased work group size for nonbonded interactions.
80eb063d · Peter Eastman · f9dc3dd0 · 80eb063d · 80eb063d · 80eb063d
Commit 80eb063d authored Apr 29, 2011 by Peter Eastman
16 changed files
--- a/platforms/opencl/src/OpenCLContext.cpp
+++ b/platforms/opencl/src/OpenCLContext.cpp
@@ -205,7 +205,7 @@ void OpenCLContext::initialize(const System& system) {
    forceBuffers = new OpenCLArray<mm_float4>(*this, paddedNumAtoms*numForceBuffers, "forceBuffers", false);
    addAutoclearBuffer(forceBuffers->getDeviceBuffer(), forceBuffers->getSize()*4);
    force = new OpenCLArray<mm_float4>(*this, &forceBuffers->getDeviceBuffer(), paddedNumAtoms, "force", true);
-    energyBuffer = new OpenCLArray<cl_float>(*this, numThreadBlocks*ThreadBlockSize, "energyBuffer", true);
+    energyBuffer = new OpenCLArray<cl_float>(*this, max(numThreadBlocks*ThreadBlockSize, nonbonded->getNumEnergyBuffers()), "energyBuffer", true);
    addAutoclearBuffer(energyBuffer->getDeviceBuffer(), energyBuffer->getSize());
    atomIndex = new OpenCLArray<cl_int>(*this, paddedNumAtoms, "atomIndex", true);
    for (int i = 0; i < paddedNumAtoms; ++i)

--- a/platforms/opencl/src/OpenCLKernels.cpp
+++ b/platforms/opencl/src/OpenCLKernels.cpp
@@ -1751,8 +1751,9 @@ double OpenCLCalcGBSAOBCForceKernel::execute(ContextImpl& context, bool includeF
        computeBornSumKernel.setArg<cl::Buffer>(index++, bornSum->getDeviceBuffer());
        computeBornSumKernel.setArg<cl::Buffer>(index++, cl.getPosq().getDeviceBuffer());
        computeBornSumKernel.setArg<cl::Buffer>(index++, params->getDeviceBuffer());
-        computeBornSumKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*13*sizeof(cl_float), NULL);
-        computeBornSumKernel.setArg(index++, (deviceIsCpu ? 1 : OpenCLContext::ThreadBlockSize)*sizeof(cl_float), NULL);
+        computeBornSumKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*13*sizeof(cl_float), NULL);
+        computeBornSumKernel.setArg(index++, (deviceIsCpu ? 1 : nb.getForceThreadBlockSize())*sizeof(cl_float), NULL);
+        computeBornSumKernel.setArg<cl::Buffer>(index++, nb.getForceBufferFlags().getDeviceBuffer());
        if (nb.getUseCutoff()) {
            computeBornSumKernel.setArg<cl::Buffer>(index++, nb.getInteractingTiles().getDeviceBuffer());
            computeBornSumKernel.setArg<cl::Buffer>(index++, nb.getInteractionCount().getDeviceBuffer());
@@ -1770,8 +1771,9 @@ double OpenCLCalcGBSAOBCForceKernel::execute(ContextImpl& context, bool includeF
        force1Kernel.setArg<cl::Buffer>(index++, cl.getPosq().getDeviceBuffer());
        force1Kernel.setArg<cl::Buffer>(index++, bornRadii->getDeviceBuffer());
        force1Kernel.setArg<cl::Buffer>(index++, bornForce->getDeviceBuffer());
-        force1Kernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*13*sizeof(cl_float), NULL);
-        force1Kernel.setArg(index++, (deviceIsCpu ? 1 : OpenCLContext::ThreadBlockSize)*sizeof(mm_float4), NULL);
+        force1Kernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*13*sizeof(cl_float), NULL);
+        force1Kernel.setArg(index++, (deviceIsCpu ? 1 : nb.getForceThreadBlockSize())*sizeof(mm_float4), NULL);
+        force1Kernel.setArg<cl::Buffer>(index++, nb.getForceBufferFlags().getDeviceBuffer());
        if (nb.getUseCutoff()) {
            force1Kernel.setArg<cl::Buffer>(index++, nb.getInteractingTiles().getDeviceBuffer());
            force1Kernel.setArg<cl::Buffer>(index++, nb.getInteractionCount().getDeviceBuffer());
@@ -1803,20 +1805,19 @@ double OpenCLCalcGBSAOBCForceKernel::execute(ContextImpl& context, bool includeF
        reduceBornForceKernel.setArg<cl::Buffer>(6, obcChain->getDeviceBuffer());
    }
    if (nb.getUseCutoff()) {
-        computeBornSumKernel.setArg<mm_float4>(7, cl.getPeriodicBoxSize());
-        computeBornSumKernel.setArg<mm_float4>(8, cl.getInvPeriodicBoxSize());
-        force1Kernel.setArg<mm_float4>(9, cl.getPeriodicBoxSize());
-        force1Kernel.setArg<mm_float4>(10, cl.getInvPeriodicBoxSize());
+        computeBornSumKernel.setArg<mm_float4>(8, cl.getPeriodicBoxSize());
+        computeBornSumKernel.setArg<mm_float4>(9, cl.getInvPeriodicBoxSize());
+        force1Kernel.setArg<mm_float4>(10, cl.getPeriodicBoxSize());
+        force1Kernel.setArg<mm_float4>(11, cl.getInvPeriodicBoxSize());
        if (maxTiles < nb.getInteractingTiles().getSize()) {
            maxTiles = nb.getInteractingTiles().getSize();
-            computeBornSumKernel.setArg<cl_uint>(9, maxTiles);
-            force1Kernel.setArg<cl_uint>(11, maxTiles);
+            computeBornSumKernel.setArg<cl_uint>(10, maxTiles);
+            force1Kernel.setArg<cl_uint>(12, maxTiles);
        }
    }
-    int numTiles = cl.getNumAtomBlocks()*(cl.getNumAtomBlocks()+1)/2;
-    cl.executeKernel(computeBornSumKernel, numTiles*OpenCLContext::TileSize, deviceIsCpu ? 1 : -1);
+    cl.executeKernel(computeBornSumKernel, nb.getNumForceThreadBlocks()*nb.getForceThreadBlockSize(), nb.getForceThreadBlockSize());
    cl.executeKernel(reduceBornSumKernel, cl.getPaddedNumAtoms());
-    cl.executeKernel(force1Kernel, numTiles*OpenCLContext::TileSize, deviceIsCpu ? 1 : -1);
+    cl.executeKernel(force1Kernel, nb.getNumForceThreadBlocks()*nb.getForceThreadBlockSize(), nb.getForceThreadBlockSize());
    cl.executeKernel(reduceBornForceKernel, cl.getPaddedNumAtoms());
    return 0.0;
 }
@@ -2046,6 +2047,8 @@ void OpenCLCalcCustomGBForceKernel::initialize(const System& system, const Custo
            defines["USE_PERIODIC"] = "1";
        if (useExclusionsForValue)
            defines["USE_EXCLUSIONS"] = "1";
+        if (cl.getSIMDWidth() == 32)
+            defines["WARPS_PER_GROUP"] = OpenCLExpressionUtilities::intToString(cl.getNonbondedUtilities().getForceThreadBlockSize()/OpenCLContext::TileSize);
        defines["CUTOFF_SQUARED"] = doubleToString(force.getCutoffDistance()*force.getCutoffDistance());
        defines["NUM_ATOMS"] = intToString(cl.getNumAtoms());
        defines["PADDED_NUM_ATOMS"] = intToString(cl.getPaddedNumAtoms());
@@ -2199,6 +2202,8 @@ void OpenCLCalcCustomGBForceKernel::initialize(const System& system, const Custo
            defines["USE_PERIODIC"] = "1";
        if (anyExclusions)
            defines["USE_EXCLUSIONS"] = "1";
+        if (cl.getSIMDWidth() == 32)
+            defines["WARPS_PER_GROUP"] = OpenCLExpressionUtilities::intToString(cl.getNonbondedUtilities().getForceThreadBlockSize()/OpenCLContext::TileSize);
        defines["CUTOFF_SQUARED"] = doubleToString(force.getCutoffDistance()*force.getCutoffDistance());
        defines["NUM_ATOMS"] = intToString(cl.getNumAtoms());
        defines["PADDED_NUM_ATOMS"] = intToString(cl.getPaddedNumAtoms());
@@ -2470,13 +2475,14 @@ double OpenCLCalcCustomGBForceKernel::execute(ContextImpl& context, bool include
        cl.clearBuffer(*valueBuffers);
        int index = 0;
        pairValueKernel.setArg<cl::Buffer>(index++, cl.getPosq().getDeviceBuffer());
-        pairValueKernel.setArg(index++, OpenCLContext::ThreadBlockSize*sizeof(cl_float4), NULL);
+        pairValueKernel.setArg(index++, nb.getForceThreadBlockSize()*sizeof(cl_float4), NULL);
        pairValueKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusions().getDeviceBuffer());
        pairValueKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusionIndices().getDeviceBuffer());
        pairValueKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusionRowIndices().getDeviceBuffer());
        pairValueKernel.setArg<cl::Buffer>(index++, valueBuffers->getDeviceBuffer());
-        pairValueKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*sizeof(cl_float), NULL);
-        pairValueKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*sizeof(cl_float), NULL);
+        pairValueKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*sizeof(cl_float), NULL);
+        pairValueKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*sizeof(cl_float), NULL);
+        pairValueKernel.setArg<cl::Buffer>(index++, nb.getForceBufferFlags().getDeviceBuffer());
        if (nb.getUseCutoff()) {
            pairValueKernel.setArg<cl::Buffer>(index++, nb.getInteractingTiles().getDeviceBuffer());
            pairValueKernel.setArg<cl::Buffer>(index++, nb.getInteractionCount().getDeviceBuffer());
@@ -2492,7 +2498,7 @@ double OpenCLCalcCustomGBForceKernel::execute(ContextImpl& context, bool include
        for (int i = 0; i < (int) params->getBuffers().size(); i++) {
            const OpenCLNonbondedUtilities::ParameterInfo& buffer = params->getBuffers()[i];
            pairValueKernel.setArg<cl::Memory>(index++, buffer.getMemory());
-            pairValueKernel.setArg(index++, OpenCLContext::ThreadBlockSize*buffer.getSize(), NULL);
+            pairValueKernel.setArg(index++, nb.getForceThreadBlockSize()*buffer.getSize(), NULL);
        }
        if (tabulatedFunctionParams != NULL) {
            for (int i = 0; i < (int) tabulatedFunctions.size(); i++)
@@ -2518,13 +2524,14 @@ double OpenCLCalcCustomGBForceKernel::execute(ContextImpl& context, bool include
        index = 0;
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getForceBuffers().getDeviceBuffer());
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getEnergyBuffer().getDeviceBuffer());
-        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*sizeof(cl_float4), NULL);
+        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*sizeof(cl_float4), NULL);
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getPosq().getDeviceBuffer());
-        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*sizeof(cl_float4), NULL);
+        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*sizeof(cl_float4), NULL);
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusions().getDeviceBuffer());
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusionIndices().getDeviceBuffer());
        pairEnergyKernel.setArg<cl::Buffer>(index++, cl.getNonbondedUtilities().getExclusionRowIndices().getDeviceBuffer());
-        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*sizeof(cl_float4), NULL);
+        pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*sizeof(cl_float4), NULL);
+        pairEnergyKernel.setArg<cl::Buffer>(index++, nb.getForceBufferFlags().getDeviceBuffer());
        if (nb.getUseCutoff()) {
            pairEnergyKernel.setArg<cl::Buffer>(index++, nb.getInteractingTiles().getDeviceBuffer());
            pairEnergyKernel.setArg<cl::Buffer>(index++, nb.getInteractionCount().getDeviceBuffer());
@@ -2540,17 +2547,17 @@ double OpenCLCalcCustomGBForceKernel::execute(ContextImpl& context, bool include
        for (int i = 0; i < (int) params->getBuffers().size(); i++) {
            const OpenCLNonbondedUtilities::ParameterInfo& buffer = params->getBuffers()[i];
            pairEnergyKernel.setArg<cl::Memory>(index++, buffer.getMemory());
-            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*buffer.getSize(), NULL);
+            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*buffer.getSize(), NULL);
        }
        for (int i = 0; i < (int) computedValues->getBuffers().size(); i++) {
            const OpenCLNonbondedUtilities::ParameterInfo& buffer = computedValues->getBuffers()[i];
            pairEnergyKernel.setArg<cl::Memory>(index++, buffer.getMemory());
-            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*buffer.getSize(), NULL);
+            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*buffer.getSize(), NULL);
        }
        for (int i = 0; i < (int) energyDerivs->getBuffers().size(); i++) {
            const OpenCLNonbondedUtilities::ParameterInfo& buffer = energyDerivs->getBuffers()[i];
            pairEnergyKernel.setArg<cl::Memory>(index++, buffer.getMemory());
-            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : OpenCLContext::ThreadBlockSize)*buffer.getSize(), NULL);
+            pairEnergyKernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize : nb.getForceThreadBlockSize())*buffer.getSize(), NULL);
        }
        if (tabulatedFunctionParams != NULL) {
            for (int i = 0; i < (int) tabulatedFunctions.size(); i++)
@@ -2602,20 +2609,19 @@ double OpenCLCalcCustomGBForceKernel::execute(ContextImpl& context, bool include
            globals->upload(globalParamValues);
    }
    if (nb.getUseCutoff()) {
-        pairValueKernel.setArg<mm_float4>(10, cl.getPeriodicBoxSize());
-        pairValueKernel.setArg<mm_float4>(11, cl.getInvPeriodicBoxSize());
-        pairEnergyKernel.setArg<mm_float4>(11, cl.getPeriodicBoxSize());
-        pairEnergyKernel.setArg<mm_float4>(12, cl.getInvPeriodicBoxSize());
+        pairValueKernel.setArg<mm_float4>(11, cl.getPeriodicBoxSize());
+        pairValueKernel.setArg<mm_float4>(12, cl.getInvPeriodicBoxSize());
+        pairEnergyKernel.setArg<mm_float4>(12, cl.getPeriodicBoxSize());
+        pairEnergyKernel.setArg<mm_float4>(13, cl.getInvPeriodicBoxSize());
        if (maxTiles < nb.getInteractingTiles().getSize()) {
            maxTiles = nb.getInteractingTiles().getSize();
-            pairValueKernel.setArg<cl_uint>(12, maxTiles);
-            pairEnergyKernel.setArg<cl_uint>(13, maxTiles);
+            pairValueKernel.setArg<cl_uint>(13, maxTiles);
+            pairEnergyKernel.setArg<cl_uint>(14, maxTiles);
        }
    }
-    int numTiles = cl.getNumAtomBlocks()*(cl.getNumAtomBlocks()+1)/2;
-    cl.executeKernel(pairValueKernel, numTiles*OpenCLContext::TileSize, deviceIsCpu ? 1 : -1);
+    cl.executeKernel(pairValueKernel, nb.getNumForceThreadBlocks()*nb.getForceThreadBlockSize(), nb.getForceThreadBlockSize());
    cl.executeKernel(perParticleValueKernel, cl.getPaddedNumAtoms());
-    cl.executeKernel(pairEnergyKernel, numTiles*OpenCLContext::TileSize, deviceIsCpu ? 1 : -1);
+    cl.executeKernel(pairEnergyKernel, nb.getNumForceThreadBlocks()*nb.getForceThreadBlockSize(), nb.getForceThreadBlockSize());
    cl.executeKernel(perParticleEnergyKernel, cl.getPaddedNumAtoms());
    if (needParameterGradient)
        cl.executeKernel(gradientChainRuleKernel, cl.getPaddedNumAtoms());

--- a/platforms/opencl/src/OpenCLNonbondedUtilities.cpp
+++ b/platforms/opencl/src/OpenCLNonbondedUtilities.cpp
@@ -6,7 +6,7 @@
 * Biological Structures at Stanford, funded under the NIH Roadmap for        *
 * Medical Research, grant U54 GM072970. See https://simtk.org.               *
 *                                                                            *
- * Portions copyright (c) 2009-2010 Stanford University and the Authors.      *
+ * Portions copyright (c) 2009-2011 Stanford University and the Authors.      *
 * Authors: Peter Eastman                                                     *
 * Contributors:                                                              *
 *                                                                            *
@@ -37,15 +37,25 @@ using namespace std;

 OpenCLNonbondedUtilities::OpenCLNonbondedUtilities(OpenCLContext& context) : context(context), cutoff(-1.0), useCutoff(false),
        numForceBuffers(0), exclusionIndices(NULL), exclusionRowIndices(NULL), exclusions(NULL), interactingTiles(NULL), interactionFlags(NULL),
-        interactionCount(NULL), blockCenter(NULL), blockBoundingBox(NULL) {
-    // Decide how many force buffers to use.
+        interactionCount(NULL), blockCenter(NULL), blockBoundingBox(NULL), forceBufferFlags(NULL) {
+    // Decide how many thread blocks and force buffers to use.

    deviceIsCpu = (context.getDevice().getInfo<CL_DEVICE_TYPE>() == CL_DEVICE_TYPE_CPU);
    forceBufferPerAtomBlock = false;
-    if (deviceIsCpu)
-        numForceBuffers = context.getNumThreadBlocks();
+    if (deviceIsCpu) {
+        numForceThreadBlocks = context.getNumThreadBlocks();
+        forceThreadBlockSize = 1;
+        numForceBuffers = numForceThreadBlocks;
+    }
+    else if (context.getSIMDWidth() == 32) {
+        numForceThreadBlocks = 2*context.getDevice().getInfo<CL_DEVICE_MAX_COMPUTE_UNITS>();
+        forceThreadBlockSize = 256;
+        numForceBuffers = numForceThreadBlocks;
+    }
    else {
-        numForceBuffers = context.getNumThreadBlocks()*OpenCLContext::ThreadBlockSize/OpenCLContext::TileSize;
+        numForceThreadBlocks = context.getNumThreadBlocks();
+        forceThreadBlockSize = OpenCLContext::ThreadBlockSize;
+        numForceBuffers = numForceThreadBlocks*forceThreadBlockSize/OpenCLContext::TileSize;
        if (numForceBuffers >= context.getNumAtomBlocks()) {
            // For small systems, it is more efficient to have one force buffer per block of 32 atoms instead of one per warp.

@@ -72,6 +82,8 @@ OpenCLNonbondedUtilities::~OpenCLNonbondedUtilities() {
        delete blockCenter;
    if (blockBoundingBox != NULL)
        delete blockBoundingBox;
+    if (forceBufferFlags != NULL)
+        delete forceBufferFlags;
 }

 void OpenCLNonbondedUtilities::addInteraction(bool usesCutoff, bool usesPeriodic, bool usesExclusions, double cutoffDistance, const vector<vector<int> >& exclusionList, const string& kernel) {
@@ -227,6 +239,12 @@ void OpenCLNonbondedUtilities::initialize(const System& system) {
        interactionCount->upload();
    }

+    // Create the flags for reserving force buffers.
+    
+    forceBufferFlags = new OpenCLArray<cl_uint>(context, numAtomBlocks*numForceThreadBlocks, "forceBufferFlags", false);
+    vector<cl_uint> forceBufferFlagsVec(forceBufferFlags->getSize(), 0);
+    forceBufferFlags->upload(forceBufferFlagsVec);
+
    // Create kernels.

    forceKernel = createInteractionKernel(kernelSource, parameters, arguments, true, true);
@@ -302,10 +320,10 @@ void OpenCLNonbondedUtilities::prepareInteractions() {
 void OpenCLNonbondedUtilities::computeInteractions() {
    if (cutoff != -1.0) {
        if (useCutoff) {
-            forceKernel.setArg<mm_float4>(12, context.getPeriodicBoxSize());
-            forceKernel.setArg<mm_float4>(13, context.getInvPeriodicBoxSize());
+            forceKernel.setArg<mm_float4>(13, context.getPeriodicBoxSize());
+            forceKernel.setArg<mm_float4>(14, context.getInvPeriodicBoxSize());
        }
-        context.executeKernel(forceKernel, (context.getNumAtomBlocks()*(context.getNumAtomBlocks()+1)/2)*OpenCLContext::TileSize, deviceIsCpu ? 1 : -1);
+        context.executeKernel(forceKernel, numForceThreadBlocks*forceThreadBlockSize, forceThreadBlockSize);
    }
 }

@@ -325,14 +343,14 @@ void OpenCLNonbondedUtilities::updateNeighborListSize() {
        newSize = numTiles;
    delete interactingTiles;
    interactingTiles = new OpenCLArray<mm_ushort2>(context, newSize, "interactingTiles");
-    forceKernel.setArg<cl::Buffer>(10, interactingTiles->getDeviceBuffer());
-    forceKernel.setArg<cl_uint>(14, newSize);
+    forceKernel.setArg<cl::Buffer>(11, interactingTiles->getDeviceBuffer());
+    forceKernel.setArg<cl_uint>(15, newSize);
    findInteractingBlocksKernel.setArg<cl::Buffer>(6, interactingTiles->getDeviceBuffer());
    findInteractingBlocksKernel.setArg<cl_uint>(9, newSize);
    if (context.getSIMDWidth() == 32 || deviceIsCpu) {
        delete interactionFlags;
        interactionFlags = new OpenCLArray<cl_uint>(context, deviceIsCpu ? 2*newSize : newSize, "interactionFlags");
-        forceKernel.setArg<cl::Buffer>(15, interactionFlags->getDeviceBuffer());
+        forceKernel.setArg<cl::Buffer>(16, interactionFlags->getDeviceBuffer());
        findInteractingBlocksKernel.setArg<cl::Buffer>(7, interactionFlags->getDeviceBuffer());
        findInteractionsWithinBlocksKernel.setArg<cl::Buffer>(4, interactingTiles->getDeviceBuffer());
        findInteractionsWithinBlocksKernel.setArg<cl::Buffer>(7, interactionFlags->getDeviceBuffer());
@@ -456,6 +474,8 @@ cl::Kernel OpenCLNonbondedUtilities::createInteractionKernel(const string& sourc
        defines["USE_EXCLUSIONS"] = "1";
    if (isSymmetric)
        defines["USE_SYMMETRIC"] = "1";
+    if (context.getSIMDWidth() == 32)
+        defines["WARPS_PER_GROUP"] = OpenCLExpressionUtilities::intToString(forceThreadBlockSize/OpenCLContext::TileSize);
    defines["CUTOFF_SQUARED"] = OpenCLExpressionUtilities::doubleToString(cutoff*cutoff);
    defines["NUM_ATOMS"] = OpenCLExpressionUtilities::intToString(context.getNumAtoms());
    defines["PADDED_NUM_ATOMS"] = OpenCLExpressionUtilities::intToString(context.getPaddedNumAtoms());
@@ -479,10 +499,11 @@ cl::Kernel OpenCLNonbondedUtilities::createInteractionKernel(const string& sourc
    kernel.setArg<cl::Buffer>(index++, exclusions->getDeviceBuffer());
    kernel.setArg<cl::Buffer>(index++, exclusionIndices->getDeviceBuffer());
    kernel.setArg<cl::Buffer>(index++, exclusionRowIndices->getDeviceBuffer());
-    kernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize*localDataSize : OpenCLContext::ThreadBlockSize*localDataSize), NULL);
-    kernel.setArg(index++, 4*OpenCLContext::ThreadBlockSize*sizeof(cl_float), NULL);
+    kernel.setArg(index++, (deviceIsCpu ? OpenCLContext::TileSize*localDataSize : forceThreadBlockSize*localDataSize), NULL);
+    kernel.setArg(index++, 4*forceThreadBlockSize*sizeof(cl_float), NULL);
    kernel.setArg<cl_uint>(index++, startTileIndex);
    kernel.setArg<cl_uint>(index++, startTileIndex+numTiles);
+    kernel.setArg<cl::Buffer>(index++, forceBufferFlags->getDeviceBuffer());
    if (useCutoff) {
        kernel.setArg<cl::Buffer>(index++, interactingTiles->getDeviceBuffer());
        kernel.setArg<cl::Buffer>(index++, interactionCount->getDeviceBuffer());

--- a/platforms/opencl/src/OpenCLNonbondedUtilities.h
+++ b/platforms/opencl/src/OpenCLNonbondedUtilities.h
@@ -94,6 +94,12 @@ public:
    int getNumForceBuffers() {
        return numForceBuffers;
    }
+    /**
+     * Get the number of energy buffers required for nonbonded forces.
+     */
+    int getNumEnergyBuffers() {
+        return numForceThreadBlocks*forceThreadBlockSize;
+    }
    /**
     * Get whether a cutoff is being used.
     */
@@ -112,6 +118,18 @@ public:
    bool getForceBufferPerAtomBlock() {
        return forceBufferPerAtomBlock;
    }
+    /**
+     * Get the number of work groups used for computing nonbonded forces.
+     */
+    int getNumForceThreadBlocks() {
+        return numForceThreadBlocks;
+    }
+    /**
+     * Get the size of each work group used for computing nonbonded forces.
+     */
+    int getForceThreadBlockSize() {
+        return forceThreadBlockSize;
+    }
    /**
     * Get the cutoff distance.
     */
@@ -178,6 +196,12 @@ public:
    OpenCLArray<cl_uint>& getExclusionRowIndices() {
        return *exclusionRowIndices;
    }
+    /**
+     * Get the array which contains flags for reserving force buffers.
+     */
+    OpenCLArray<cl_uint>& getForceBufferFlags() {
+        return *forceBufferFlags;
+    }
    /**
     * Get the index of the first tile this context is responsible for processing.
     */
@@ -221,6 +245,7 @@ private:
    OpenCLArray<cl_uint>* interactionCount;
    OpenCLArray<mm_float4>* blockCenter;
    OpenCLArray<mm_float4>* blockBoundingBox;
+    OpenCLArray<cl_uint>* forceBufferFlags;
    std::vector<std::vector<int> > atomExclusions;
    std::vector<ParameterInfo> parameters;
    std::vector<ParameterInfo> arguments;
@@ -228,7 +253,7 @@ private:
    std::map<std::string, std::string> kernelDefines;
    double cutoff;
    bool useCutoff, usePeriodic, forceBufferPerAtomBlock, deviceIsCpu;
-    int numForceBuffers, startTileIndex, numTiles;
+    int numForceBuffers, startTileIndex, numTiles, numForceThreadBlocks, forceThreadBlockSize;
 };

 /**

--- a/platforms/opencl/src/kernels/customGBEnergyN2_cpu.cl
+++ b/platforms/opencl/src/kernels/customGBEnergyN2_cpu.cl
@@ -8,7 +8,7 @@

 __kernel void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer, __local float4* local_force,
 	__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions, __global unsigned int* exclusionIndices,
-        __global unsigned int* exclusionRowIndices, __local float4* tempBuffer,
+        __global unsigned int* exclusionRowIndices, __local float4* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else

--- a/platforms/opencl/src/kernels/customGBEnergyN2_default.cl
+++ b/platforms/opencl/src/kernels/customGBEnergyN2_default.cl
@@ -9,7 +9,7 @@
 __kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
 void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer, __local float4* local_force,
 	__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions, __global unsigned int* exclusionIndices,
-        __global unsigned int* exclusionRowIndices, __local float4* tempForceBuffer,
+        __global unsigned int* exclusionRowIndices, __local float4* tempForceBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles
 #else

--- a/platforms/opencl/src/kernels/customGBEnergyN2_nvidia.cl
+++ b/platforms/opencl/src/kernels/customGBEnergyN2_nvidia.cl
+#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
 #define TILE_SIZE 32
 #define STORE_DERIVATIVE_1(INDEX) derivBuffers##INDEX[offset1] += deriv##INDEX##_1;
 #define STORE_DERIVATIVE_2(INDEX) derivBuffers##INDEX[offset2] += local_deriv##INDEX[get_local_id(0)];

 /**
- * Compute a force based on pair interactions.
+ * Mark that a block in the force buffer is in use.
 */
+void reserveBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        while (atom_cmpxchg(&forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)], 0, 1) != 0)
+            ;
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+}

-__kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer, __local float4* local_force,
+/**
+ * Mark that a block in the force buffer is no longer in use.
+ */
+void releaseBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)] = 0;
+}
+
+/**
+ * Compute a force based on pair interactions.
+ */
+__kernel void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer, __local float4* local_force,
 	__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions, __global unsigned int* exclusionIndices,
-        __global unsigned int* exclusionRowIndices, __local float4* tempBuffer,
+        __global unsigned int* exclusionRowIndices, __local float4* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else
@@ -28,8 +46,8 @@ void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer
 #endif
    float energy = 0.0f;
    unsigned int lasty = 0xFFFFFFFF;
-    __local unsigned int exclusionRange[4];
-    __local int exclusionIndex[2];
+    __local unsigned int exclusionRange[2*WARPS_PER_GROUP];
+    __local int exclusionIndex[WARPS_PER_GROUP];

    while (pos < end) {
        // Extract the coordinates of this tile
@@ -50,8 +68,9 @@ void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer
                x = (pos-y*NUM_BLOCKS+y*(y+1)/2);
            }
        }
-        unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
-        unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
+        const unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int localGroupIndex = get_local_id(0)/TILE_SIZE;
        unsigned int atom1 = x*TILE_SIZE + tgx;
        float4 force = 0.0f;
        float4 posq1 = posq[atom1];
@@ -60,7 +79,6 @@ void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer
        // Locate the exclusion data for this tile.

 #ifdef USE_EXCLUSIONS
-        int localGroupIndex = get_local_id(0)/TILE_SIZE;
        if (tgx < 2)
            exclusionRange[2*localGroupIndex+tgx] = exclusionRowIndices[x+tgx];
        if (tgx == 0)
@@ -118,13 +136,12 @@ void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset1].xyz += force.xyz;
            STORE_DERIVATIVES_1
+            releaseBuffer(x, forceBufferFlags);
        }
        else {
            // This is an off-diagonal tile.
@@ -194,17 +211,17 @@ void computeN2Energy(__global float4* forceBuffers, __global float* energyBuffer
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + y*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset1].xyz += force.xyz;
-            forceBuffers[offset2].xyz += local_force[get_local_id(0)].xyz;
            STORE_DERIVATIVES_1
+            releaseBuffer(x, forceBufferFlags);
+            reserveBuffer(y, forceBufferFlags);
+            unsigned int offset2 = y*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
+            forceBuffers[offset2].xyz += local_force[get_local_id(0)].xyz;
            STORE_DERIVATIVES_2
+            releaseBuffer(y, forceBufferFlags);
        }
        lasty = y;
        pos++;

--- a/platforms/opencl/src/kernels/customGBValueN2_cpu.cl
+++ b/platforms/opencl/src/kernels/customGBValueN2_cpu.cl
@@ -6,7 +6,7 @@

 __kernel void computeN2Value(__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __global float* global_value, __local float* local_value,
-        __local float* tempBuffer,
+        __local float* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else

--- a/platforms/opencl/src/kernels/customGBValueN2_default.cl
+++ b/platforms/opencl/src/kernels/customGBValueN2_default.cl
@@ -7,7 +7,7 @@
 __kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
 void computeN2Value(__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __global float* global_value, __local float* local_value,
-        __local float* tempBuffer,
+        __local float* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles
 #else

--- a/platforms/opencl/src/kernels/customGBValueN2_nvidia.cl
+++ b/platforms/opencl/src/kernels/customGBValueN2_nvidia.cl
+#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
 #define TILE_SIZE 32

 /**
- * Compute a value based on pair interactions.
+ * Mark that a block in the value buffer is in use.
+ */
+void reserveBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        while (atom_cmpxchg(&forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)], 0, 1) != 0)
+            ;
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+}
+
+/**
+ * Mark that a block in the value buffer is no longer in use.
 */
+void releaseBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)] = 0;
+}

-__kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeN2Value(__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions,
+/**
+ * Compute a value based on pair interactions.
+ */
+__kernel void computeN2Value(__global float4* posq, __local float4* local_posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __global float* global_value, __local float* local_value,
-        __local float* tempBuffer,
+        __local float* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else
@@ -26,8 +44,8 @@ void computeN2Value(__global float4* posq, __local float4* local_posq, __global
 #endif
    float energy = 0.0f;
    unsigned int lasty = 0xFFFFFFFF;
-    __local unsigned int exclusionRange[4];
-    __local int exclusionIndex[2];
+    __local unsigned int exclusionRange[2*WARPS_PER_GROUP];
+    __local int exclusionIndex[WARPS_PER_GROUP];

    while (pos < end) {
        // Extract the coordinates of this tile
@@ -48,8 +66,9 @@ void computeN2Value(__global float4* posq, __local float4* local_posq, __global
                x = (pos-y*NUM_BLOCKS+y*(y+1)/2);
            }
        }
-        unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
-        unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
+        const unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int localGroupIndex = get_local_id(0)/TILE_SIZE;
        unsigned int atom1 = x*TILE_SIZE + tgx;
        float value = 0.0f;
        float4 posq1 = posq[atom1];
@@ -58,7 +77,6 @@ void computeN2Value(__global float4* posq, __local float4* local_posq, __global
        // Locate the exclusion data for this tile.

 #ifdef USE_EXCLUSIONS
-        int localGroupIndex = get_local_id(0)/TILE_SIZE;
        if (tgx < 2)
            exclusionRange[2*localGroupIndex+tgx] = exclusionRowIndices[x+tgx];
        if (tgx == 0)
@@ -117,12 +135,11 @@ void computeN2Value(__global float4* posq, __local float4* local_posq, __global
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset = x*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_value[offset] += value;
+            releaseBuffer(x, forceBufferFlags);
        }
        else {
            // This is an off-diagonal tile.
@@ -234,15 +251,15 @@ void computeN2Value(__global float4* posq, __local float4* local_posq, __global
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + y*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_value[offset1] += value;
+            releaseBuffer(x, forceBufferFlags);
+            reserveBuffer(y, forceBufferFlags);
+            unsigned int offset2 = y*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_value[offset2] += local_value[get_local_id(0)];
+            releaseBuffer(y, forceBufferFlags);
        }
        lasty = y;
        pos++;

--- a/platforms/opencl/src/kernels/gbsaObc_cpu.cl
+++ b/platforms/opencl/src/kernels/gbsaObc_cpu.cl
@@ -14,7 +14,8 @@ typedef struct {
 * Compute the Born sum.
 */

-__kernel void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params, __local AtomData* localData, __local float* tempBuffer,
+__kernel void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params,
+        __local AtomData* localData, __local float* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags) {
 #else
@@ -190,8 +191,8 @@ __kernel void computeBornSum(__global float* global_bornSum, __global float4* po
 */

 __kernel void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuffer,
-        __global float4* posq, __global float* global_bornRadii,
-        __global float* global_bornForce, __local AtomData* localData, __local float4* tempBuffer,
+        __global float4* posq, __global float* global_bornRadii, __global float* global_bornForce,
+        __local AtomData* localData, __local float4* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags) {
 #else

--- a/platforms/opencl/src/kernels/gbsaObc_default.cl
+++ b/platforms/opencl/src/kernels/gbsaObc_default.cl
@@ -15,7 +15,8 @@ typedef struct {
 */

 __kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params, __local AtomData* localData, __local float* tempBuffer,
+void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params,
+        __local AtomData* localData, __local float* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles) {
 #else
@@ -96,6 +97,7 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo

            // Sum the forces and write results.

+
            if (get_local_id(0) >= TILE_SIZE)
                tempBuffer[get_local_id(0)] = bornSum;
            barrier(CLK_LOCAL_MEM_FENCE);
@@ -200,8 +202,8 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo

 __kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
 void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuffer,
-        __global float4* posq, __global float* global_bornRadii,
-        __global float* global_bornForce, __local AtomData* localData, __local float4* tempBuffer,
+        __global float4* posq, __global float* global_bornRadii, __global float* global_bornForce,
+        __local AtomData* localData, __local float4* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles) {
 #else

--- a/platforms/opencl/src/kernels/gbsaObc_nvidia.cl
+++ b/platforms/opencl/src/kernels/gbsaObc_nvidia.cl
+#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
 #define TILE_SIZE 32

 typedef struct {
@@ -11,11 +12,29 @@ typedef struct {
 } AtomData;

 /**
- * Compute the Born sum.
+ * Mark that a block in the force buffer is in use.
+ */
+void reserveBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        while (atom_cmpxchg(&forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)], 0, 1) != 0)
+            ;
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+}
+
+/**
+ * Mark that a block in the force buffer is no longer in use.
 */
+void releaseBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)] = 0;
+}

-__kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params, __local AtomData* localData, __local float* tempBuffer,
+/**
+ * Compute the Born sum.
+ */
+__kernel void computeBornSum(__global float* global_bornSum, __global float4* posq, __global float2* global_params,
+        __local AtomData* localData, __local float* tempBuffer,  __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags) {
 #else
@@ -52,8 +71,9 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo
                x = (pos-y*NUM_BLOCKS+y*(y+1)/2);
            }
        }
-        unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
-        unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
+        const unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int localGroupIndex = get_local_id(0)/TILE_SIZE;
        unsigned int atom1 = x*TILE_SIZE + tgx;
        float bornSum = 0.0f;
        float4 posq1 = posq[atom1];
@@ -99,12 +119,11 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset = x*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_bornSum[offset] += bornSum;
+            releaseBuffer(x, forceBufferFlags);
        }
        else {
            // This is an off-diagonal tile.
@@ -244,16 +263,15 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo
            }

            // Write results
-            float4 of;
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + y*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_bornSum[offset1] += bornSum;
+            releaseBuffer(x, forceBufferFlags);
+            reserveBuffer(y, forceBufferFlags);
+            unsigned int offset2 = y*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            global_bornSum[offset2] += localData[get_local_id(0)].bornSum;
+            releaseBuffer(y, forceBufferFlags);
        }
        lasty = y;
        pos++;
@@ -264,10 +282,9 @@ void computeBornSum(__global float* global_bornSum, __global float4* posq, __glo
 * First part of computing the GBSA interaction.
 */

-__kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuffer,
-        __global float4* posq, __global float* global_bornRadii,
-        __global float* global_bornForce, __local AtomData* localData, __local float4* tempBuffer,
+__kernel void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuffer,
+        __global float4* posq, __global float* global_bornRadii, __global float* global_bornForce,
+        __local AtomData* localData, __local float4* tempBuffer, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags) {
 #else
@@ -305,8 +322,9 @@ void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuff
                x = (pos-y*NUM_BLOCKS+y*(y+1)/2);
            }
        }
-        unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
-        unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
+        const unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int localGroupIndex = get_local_id(0)/TILE_SIZE;
        unsigned int atom1 = x*TILE_SIZE + tgx;
        float4 force = 0.0f;
        float4 posq1 = posq[atom1];
@@ -356,13 +374,12 @@ void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuff
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset = x*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset].xyz += force.xyz;
            global_bornForce[offset] += force.w;
+            releaseBuffer(x, forceBufferFlags);
        }
        else {
            // This is an off-diagonal tile.
@@ -496,17 +513,17 @@ void computeGBSAForce1(__global float4* forceBuffers, __global float* energyBuff
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + y*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset1].xyz += force.xyz;
-            forceBuffers[offset2] += (float4) (localData[get_local_id(0)].fx, localData[get_local_id(0)].fy, localData[get_local_id(0)].fz, 0);
            global_bornForce[offset1] += force.w;
+            releaseBuffer(x, forceBufferFlags);
+            reserveBuffer(y, forceBufferFlags);
+            unsigned int offset2 = y*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
+            forceBuffers[offset2] += (float4) (localData[get_local_id(0)].fx, localData[get_local_id(0)].fy, localData[get_local_id(0)].fz, 0);
            global_bornForce[offset2] += localData[get_local_id(0)].fw;
+            releaseBuffer(y, forceBufferFlags);
        }
        lasty = y;
        pos++;

--- a/platforms/opencl/src/kernels/nonbonded_cpu.cl
+++ b/platforms/opencl/src/kernels/nonbonded_cpu.cl
@@ -13,7 +13,7 @@ typedef struct {

 __kernel void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffer, __global float4* posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __local AtomData* localData, __local float4* tempBuffer,
-        unsigned int startTileIndex, unsigned int endTileIndex,
+        unsigned int startTileIndex, unsigned int endTileIndex, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else

--- a/platforms/opencl/src/kernels/nonbonded_default.cl
+++ b/platforms/opencl/src/kernels/nonbonded_default.cl
@@ -14,7 +14,7 @@ typedef struct {
 __kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
 void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffer, __global float4* posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __local AtomData* localData, __local float4* tempBuffer,
-        unsigned int startTileIndex, unsigned int endTileIndex,
+        unsigned int startTileIndex, unsigned int endTileIndex, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else

--- a/platforms/opencl/src/kernels/nonbonded_nvidia.cl
+++ b/platforms/opencl/src/kernels/nonbonded_nvidia.cl
+#pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable
 #define TILE_SIZE 32

 typedef struct {
@@ -8,13 +9,30 @@ typedef struct {
 } AtomData;

 /**
- * Compute nonbonded interactions.
+ * Mark that a block in the force buffer is in use.
+ */
+void reserveBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        while (atom_cmpxchg(&forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)], 0, 1) != 0)
+            ;
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+}
+
+/**
+ * Mark that a block in the force buffer is no longer in use.
 */
+void releaseBuffer(unsigned int block, __global unsigned int* forceBufferFlags) {
+    mem_fence(CLK_GLOBAL_MEM_FENCE);
+    if ((get_local_id(0)&(TILE_SIZE-1)) == 0)
+        forceBufferFlags[block+NUM_BLOCKS*get_group_id(0)] = 0;
+}

-__kernel __attribute__((reqd_work_group_size(WORK_GROUP_SIZE, 1, 1)))
-void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffer, __global float4* posq, __global unsigned int* exclusions,
+/**
+ * Compute nonbonded interactions.
+ */
+__kernel void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffer, __global float4* posq, __global unsigned int* exclusions,
        __global unsigned int* exclusionIndices, __global unsigned int* exclusionRowIndices, __local AtomData* localData, __local float* tempBuffer,
-        unsigned int startTileIndex, unsigned int endTileIndex,
+        unsigned int startTileIndex, unsigned int endTileIndex, __global unsigned int* forceBufferFlags,
 #ifdef USE_CUTOFF
        __global ushort2* tiles, __global unsigned int* interactionCount, float4 periodicBoxSize, float4 invPeriodicBoxSize, unsigned int maxTiles, __global unsigned int* interactionFlags
 #else
@@ -33,8 +51,8 @@ void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffe
 #endif
    float energy = 0.0f;
    unsigned int lasty = 0xFFFFFFFF;
-    __local unsigned int exclusionRange[4];
-    __local int exclusionIndex[2];
+    __local unsigned int exclusionRange[2*WARPS_PER_GROUP];
+    __local int exclusionIndex[WARPS_PER_GROUP];

    while (pos < end) {
        // Extract the coordinates of this tile
@@ -55,8 +73,9 @@ void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffe
                x = (pos-y*NUM_BLOCKS+y*(y+1)/2);
            }
        }
-        unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
-        unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int tgx = get_local_id(0) & (TILE_SIZE-1);
+        const unsigned int tbx = get_local_id(0) - tgx;
+        const unsigned int localGroupIndex = get_local_id(0)/TILE_SIZE;
        unsigned int atom1 = x*TILE_SIZE + tgx;
        float4 force = 0.0f;
        float4 posq1 = posq[atom1];
@@ -65,7 +84,6 @@ void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffe
        // Locate the exclusion data for this tile.

 #ifdef USE_EXCLUSIONS
-        int localGroupIndex = get_local_id(0)/TILE_SIZE;
        if (tgx < 2)
            exclusionRange[2*localGroupIndex+tgx] = exclusionRowIndices[x+tgx];
        if (tgx == 0)
@@ -124,12 +142,11 @@ void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffe
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset = x*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset].xyz += force.xyz;
+            releaseBuffer(x, forceBufferFlags);
        }
        else {
            // This is an off-diagonal tile.
@@ -282,15 +299,15 @@ void computeNonbonded(__global float4* forceBuffers, __global float* energyBuffe
            }

            // Write results
-#ifdef USE_OUTPUT_BUFFER_PER_BLOCK
-            unsigned int offset1 = x*TILE_SIZE + tgx + y*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + x*PADDED_NUM_ATOMS;
-#else
-            unsigned int offset1 = x*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-            unsigned int offset2 = y*TILE_SIZE + tgx + warp*PADDED_NUM_ATOMS;
-#endif
+
+            reserveBuffer(x, forceBufferFlags);
+            unsigned int offset1 = x*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset1].xyz += force.xyz;
+            releaseBuffer(x, forceBufferFlags);
+            reserveBuffer(y, forceBufferFlags);
+            unsigned int offset2 = y*TILE_SIZE + tgx + get_group_id(0)*PADDED_NUM_ATOMS;
            forceBuffers[offset2] += (float4) (localData[get_local_id(0)].fx, localData[get_local_id(0)].fy, localData[get_local_id(0)].fz, 0.0f);
+            releaseBuffer(y, forceBufferFlags);
        }
        lasty = y;
        pos++;