lammps/lib/cuda/atom_vec_cuda_kernel.cu

/* ----------------------------------------------------------------------
   LAMMPS - Large-scale Atomic/Molecular Massively Parallel Simulator

   Original Version:
   http://lammps.sandia.gov, Sandia National Laboratories
   Steve Plimpton, sjplimp@sandia.gov

   See the README file in the top-level LAMMPS directory.

   -----------------------------------------------------------------------

   USER-CUDA Package and associated modifications:
   https://sourceforge.net/projects/lammpscuda/

   Christian Trott, christian.trott@tu-ilmenau.de
   Lars Winterfeld, lars.winterfeld@tu-ilmenau.de
   Theoretical Physics II, University of Technology Ilmenau, Germany

   See the README file in the USER-CUDA directory.

   This software is distributed under the GNU General Public License.
------------------------------------------------------------------------- */
#define RIMLARGER 1.000001
#define RIMSMALLER 0.999999
#define SMALL 1e-5

extern __shared__ int shared[];

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_PackComm_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, void* buffer)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;
  int* list = sendlist + iswap * maxlistlength;

  if(i < n) {
    int j = list[i];

    if(j > _nmax) _flag[0] = 1;

    int k = 0;

    if(data_mask & X_MASK) {
      ((X_FLOAT*) buffer)[i + k * n] = _x[j] + dx;
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _x[j + _nmax] + dy;
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _x[j + 2 * _nmax] + dz;
      k++;
    }

    if(data_mask & V_MASK) {
      ((X_FLOAT*) buffer)[i + k * n] = _v[j];
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _v[j + _nmax];
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _v[j + 2 * _nmax];
      k++;
    }

    if(data_mask & OMEGA_MASK) {
      ((X_FLOAT*) buffer)[i + k * n] = _omega[j];
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _omega[j + _nmax];
      k++;
      ((X_FLOAT*) buffer)[i + k * n] = _omega[j + 2 * _nmax];
      k++;
    }

    if(data_mask & RADIUS_MASK)((X_FLOAT*) buffer)[i + k * n] = _radius[j];

    k++;

    if(data_mask & RMASS_MASK)((X_FLOAT*) buffer)[i + k * n] = _rmass[j];

    k++;
  }
}

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_PackComm_Self_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, int first)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;

  int* list = sendlist + iswap * maxlistlength;

  if(i < n) {
    int j = i;
    j = list[i];

    if(data_mask & X_MASK) {
      _x[i + first] = _x[j] + dx;
      _x[i + first + _nmax] = _x[j + _nmax] + dy;
      _x[i + first + 2 * _nmax] = _x[j + 2 * _nmax] + dz;
    }

    if(data_mask & V_MASK) {
      _v[i + first] = _v[j];
      _v[i + first + _nmax] = _v[j + _nmax];
      _v[i + first + 2 * _nmax] = _v[j + 2 * _nmax];
    }

    if(data_mask & OMEGA_MASK) {
      _omega[i + first] = _omega[j];
      _omega[i + first + _nmax] = _omega[j + _nmax];
      _omega[i + first + 2 * _nmax] = _omega[j + 2 * _nmax];
    }

    if(data_mask & RADIUS_MASK) _radius[i + first] = _radius[j];

    if(data_mask & RMASS_MASK) _rmass[i + first] = _rmass[j];
  }
}


template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_UnpackComm_Kernel(int n, int first, void* buffer)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;

  if(i < n) {
    int k = 0;

    if(data_mask & X_MASK) {
      _x[i + first] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _x[i + first + _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _x[i + first + 2 * _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
    }

    if(data_mask & V_MASK) {
      _v[i + first] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _v[i + first + _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _v[i + first + 2 * _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
    }

    if(data_mask & OMEGA_MASK) {
      _omega[i + first] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _omega[i + first + _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
      _omega[i + first + 2 * _nmax] = ((X_FLOAT*) buffer)[i + k * n];
      k++;
    }

    if(data_mask & RADIUS_MASK) _radius[i + first] = ((X_FLOAT*) buffer)[i + k * n];

    k++;

    if(data_mask & RMASS_MASK) _rmass[i + first] = ((X_FLOAT*) buffer)[i + k * n];

    k++;
  }
}


__global__ void Cuda_AtomVecCuda_PackExchangeList_Kernel(int n, int dim)
{
  double* buf = (double*) _buffer;
  buf = &buf[1];

  //X_FLOAT lo=slablo[iswap];
  //X_FLOAT hi=slabhi[iswap];

  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;
  bool add = false;

  if(i < _nlocal) {
    double xdim_tmp = static_cast <double>(_x[i + dim * _nmax]);

    if(xdim_tmp < _sublo[dim] || xdim_tmp >= _subhi[dim]) {
      add = true;
    }
  }

  shared[threadIdx.x] = add ? 1 : 0;
  __syncthreads();
  int nsend = 0;

  if(threadIdx.x == 0) {
    for(int k = 0; k < blockDim.x; k++) {
      if(shared[k]) {
        nsend++;
        shared[k] = nsend;
      }
    }

    shared[blockDim.x] = atomicAdd((int*) _buffer, nsend);
  }

  __syncthreads();

  nsend = shared[blockDim.x] + shared[threadIdx.x] - 1;

  if(add && nsend + 1 < n)
    buf[nsend] = i;
}

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_PackExchange_Kernel(int nsend, int* copylist)
{
  double* buf = (double*) _buffer;
  int k = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;

  if(k >= nsend) return;

  buf = &buf[1 + k];

  int i = static_cast <int>(buf[0]);
  int j = copylist[k];

  int m = 1;

  if(data_mask & X_MASK) {
    buf[(m++)*nsend] = static_cast <double>(_x[i]);
    buf[(m++)*nsend] = static_cast <double>(_x[i + _nmax]);
    buf[(m++)*nsend] = static_cast <double>(_x[i + 2 * _nmax]);
  }

  if(data_mask & V_MASK) {
    buf[(m++)*nsend] = _v[i];
    buf[(m++)*nsend] = _v[i + _nmax];
    buf[(m++)*nsend] = _v[i + 2 * _nmax];
  }

  if(data_mask & TAG_MASK) 		buf[(m++)*nsend] = _tag[i];

  if(data_mask & TYPE_MASK) 	buf[(m++)*nsend] = _type[i];

  if(data_mask & MASK_MASK) 	buf[(m++)*nsend] = _mask[i];

  if(data_mask & IMAGE_MASK) 	buf[(m++)*nsend] = _image[i];

  if(data_mask & Q_MASK) 		buf[(m++)*nsend] = _q[i];

  if(data_mask & MOLECULE_MASK) buf[(m++)*nsend] = _molecule[i];

  if(data_mask & RADIUS_MASK) 	buf[(m++)*nsend] = _radius[i];

  if(data_mask & DENSITY_MASK) 	buf[(m++)*nsend] = _density[i];

  if(data_mask & RMASS_MASK) 	buf[(m++)*nsend] = _rmass[i];

  if(data_mask & OMEGA_MASK) {
    buf[(m++)*nsend] = _omega[i];
    buf[(m++)*nsend] = _omega[i + _nmax];
    buf[(m++)*nsend] = _omega[i + 2 * _nmax];
  }

  /*  if(data_mask & NSPECIAL_MASK)
    {
    	buf[(m++)*nsend] = _nspecial[i];
    	buf[(m++)*nsend] = _nspecial[i+_nmax];
    	buf[(m++)*nsend] = _nspecial[i+2* _nmax];
    }*/

  if(i >= _nlocal) return;

  if(data_mask & X_MASK) {
    _x[i] = _x[j];
    _x[i + _nmax] = _x[j + _nmax];
    _x[i + 2 * _nmax] = _x[j + 2 * _nmax];
  }

  if(data_mask & V_MASK) {
    _v[i] = _v[j];
    _v[i + _nmax] = _v[j + _nmax];
    _v[i + 2 * _nmax] = _v[j + 2 * _nmax];
  }

  if(data_mask & TAG_MASK)		_tag[i] 	= _tag[j];

  if(data_mask & TYPE_MASK)		_type[i] 	= _type[j];

  if(data_mask & MASK_MASK)		_mask[i] 	= _mask[j];

  if(data_mask & IMAGE_MASK)	_image[i] 	= _image[j];

  if(data_mask & Q_MASK) 		_q[i] 		= _q[j];

  if(data_mask & MOLECULE_MASK) _molecule[i] = _molecule[j];

  if(data_mask & RADIUS_MASK) 	_radius[i] 	= _radius[j];

  if(data_mask & DENSITY_MASK) 	_density[i] = _density[j];

  if(data_mask & RMASS_MASK) 	_rmass[i] 	= _rmass[j];

  if(data_mask & OMEGA_MASK) {
    _omega[i] = _omega[j];
    _omega[i + _nmax] = _omega[j + _nmax];
    _omega[i + 2 * _nmax] = _omega[j + 2 * _nmax];
  }

  /* if(data_mask & NSPECIAL_MASK)
  {
  _nspecial[i] = _nspecial[j];
  _nspecial[i+_nmax] = _nspecial[j+_nmax];
  _nspecial[i+2* _nmax] = _nspecial[j+2* _nmax];
  }*/
}

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_UnpackExchange_Kernel(int dim, int nsend, int* copylist)
{
  double* buf = (double*) _buffer;
  int k = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;

  if(k >= nsend) return;

  buf = &buf[1 + k];
  int i = -1;
  double xdim_tmp = buf[(1 + dim) * nsend];

  if(xdim_tmp >= _sublo[dim] - SMALL && xdim_tmp < _subhi[dim] + SMALL) {
    i = atomicAdd(_flag, 1) + _nlocal;

    int m = 1;

    if(data_mask & X_MASK) {
      _x[i] = buf[(m++) * nsend];
      _x[i + _nmax] = buf[(m++) * nsend];
      _x[i + 2 * _nmax] = buf[(m++) * nsend];
    }

    if(data_mask & V_MASK) {
      _v[i] = buf[(m++) * nsend];
      _v[i + _nmax] = buf[(m++) * nsend];
      _v[i + 2 * _nmax] = buf[(m++) * nsend];
    }

    if(data_mask & TAG_MASK) 	_tag[i] = buf[(m++) * nsend];

    if(data_mask & TYPE_MASK) 	_type[i] = buf[(m++) * nsend];

    if(data_mask & MASK_MASK) 	_mask[i] = buf[(m++) * nsend];

    if(data_mask & IMAGE_MASK) _image[i] = buf[(m++) * nsend];

    if(data_mask & Q_MASK) _q[i] = buf[(m++) * nsend];

    if(data_mask & MOLECULE_MASK) _molecule[i] = buf[(m++) * nsend];

    if(data_mask & RADIUS_MASK) _radius[i] = buf[(m++) * nsend];

    if(data_mask & DENSITY_MASK) _density[i] = buf[(m++) * nsend];

    if(data_mask & RMASS_MASK) _rmass[i] = buf[(m++) * nsend];

    if(data_mask & OMEGA_MASK) {
      _omega[i] = buf[(m++) * nsend];
      _omega[i + _nmax] = buf[(m++) * nsend];
      _omega[i + 2 * _nmax] = buf[(m++) * nsend];
    }

    /*  if(data_mask & NSPECIAL_MASK)
      {
       _nspecial[i] = buf[(m++)*nsend];
       _nspecial[i+_nmax] = buf[(m++)*nsend];
       _nspecial[i+2*_nmax] = buf[(m++)*nsend];
      }*/
  }

  copylist[k] = i;
}

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_PackBorder_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;
  int* list = sendlist + iswap * maxlistlength;

  if(i < n) {
    int j = list[i];
    int m = 0;

    if(data_mask & X_MASK) {
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _x[j] + dx;
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _x[j + _nmax] + dy;
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _x[j + 2 * _nmax] + dz;
    }

    if(data_mask & V_MASK) {
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _v[j];
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _v[j + _nmax];
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _v[j + 2 * _nmax];
    }

    if(data_mask & TAG_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _tag[j];

    if(data_mask & TYPE_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _type[j];

    if(data_mask & MASK_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _mask[j];

    if(data_mask & Q_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _q[j];

    if(data_mask & MOLECULE_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _molecule[j];

    if(data_mask & RADIUS_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _radius[i];

    if(data_mask & DENSITY_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _density[i];

    if(data_mask & RMASS_MASK)((X_FLOAT*) _buffer)[i + (m++)*n] = _rmass[i];

    if(data_mask & OMEGA_MASK) {
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _omega[i];
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _omega[i + _nmax];
      ((X_FLOAT*) _buffer)[i + (m++)*n] = _omega[i + 2 * _nmax];
    }
  }
}


template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_PackBorder_Self_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, int first)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;
  int* list = sendlist + iswap * maxlistlength;

  if(i < n) {
    int j = list[i];

    if(data_mask & X_MASK) {
      _x[i + first] = _x[j] + dx;
      _x[i + first + _nmax] = _x[j + _nmax] + dy;
      _x[i + first + 2 * _nmax] = _x[j + 2 * _nmax] + dz;
    }

    if(data_mask & V_MASK) {
      _v[i + first] = _v[j];
      _v[i + first + _nmax] = _v[j + _nmax];
      _v[i + first + 2 * _nmax] =  _v[j + 2 * _nmax];
    }

    if(data_mask & TAG_MASK) _tag[i + first] = _tag[j];

    if(data_mask & TYPE_MASK) _type[i + first] = _type[j];

    if(data_mask & MASK_MASK) _mask[i + first] = _mask[j];

    if(data_mask & Q_MASK) _q[i + first] = _q[j];

    if(data_mask & MOLECULE_MASK) _molecule[i + first] = _molecule[j];

    if(data_mask & RADIUS_MASK) _radius[i + first] = _radius[j];

    if(data_mask & DENSITY_MASK) _density[i + first] = _density[j];

    if(data_mask & RMASS_MASK) _rmass[i + first] = _rmass[j];

    if(data_mask & OMEGA_MASK) {
      _omega[i + first] = _omega[j];
      _omega[i + first + _nmax] = _omega[j + _nmax];
      _omega[i + first + 2 * _nmax] =  _omega[j + 2 * _nmax];
    }
  }
}

template <const unsigned int data_mask>
__global__ void Cuda_AtomVecCuda_UnpackBorder_Kernel(int n, int first)
{
  int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;

  if(i < n) {
    if(i + first < _nmax) {
      int m = 0;

      if(data_mask & X_MASK) {
        _x[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _x[i + first + _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _x[i + first + 2 * _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
      }

      if(data_mask & V_MASK) {
        _v[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _v[i + first + _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _v[i + first + 2 * _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
      }

      if(data_mask & TAG_MASK) _tag[i + first] = static_cast<int>(((X_FLOAT*) _buffer)[i + (m++) * n]);

      if(data_mask & TYPE_MASK) _type[i + first] = static_cast<int>(((X_FLOAT*) _buffer)[i + (m++) * n]);

      if(data_mask & MASK_MASK) _mask[i + first] = static_cast<int>(((X_FLOAT*) _buffer)[i + (m++) * n]);

      if(data_mask & Q_MASK) _q[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];

      if(data_mask & MOLECULE_MASK) _molecule[i + first] = static_cast<int>(((X_FLOAT*) _buffer)[i + (m++) * n]);

      if(data_mask & RADIUS_MASK) _radius[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];

      if(data_mask & DENSITY_MASK) _density[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];

      if(data_mask & RMASS_MASK) _rmass[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];

      if(data_mask & OMEGA_MASK) {
        _omega[i + first] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _omega[i + first + _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
        _omega[i + first + 2 * _nmax] = ((X_FLOAT*) _buffer)[i + (m++) * n];
      }
    } else {
      _flag[0] = 1;
    }
  }
}
git-svn-id: svn://svn.icms.temple.edu/lammps-ro/trunk@8922 f3b2605a-c512-4ea7-a41b-209d697bcdaa 2012-10-08 23:29:55 +08:00			`/* ----------------------------------------------------------------------`
			`LAMMPS - Large-scale Atomic/Molecular Massively Parallel Simulator`

			`Original Version:`
			`http://lammps.sandia.gov, Sandia National Laboratories`
			`Steve Plimpton, sjplimp@sandia.gov`

			`See the README file in the top-level LAMMPS directory.`

			`-----------------------------------------------------------------------`

			`USER-CUDA Package and associated modifications:`
			`https://sourceforge.net/projects/lammpscuda/`

			`Christian Trott, christian.trott@tu-ilmenau.de`
			`Lars Winterfeld, lars.winterfeld@tu-ilmenau.de`
			`Theoretical Physics II, University of Technology Ilmenau, Germany`

			`See the README file in the USER-CUDA directory.`

			`This software is distributed under the GNU General Public License.`
			`------------------------------------------------------------------------- */`
			`#define RIMLARGER 1.000001`
			`#define RIMSMALLER 0.999999`
			`#define SMALL 1e-5`

			`extern __shared__ int shared[];`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_PackComm_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, void* buffer)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`
			`int* list = sendlist + iswap * maxlistlength;`

			`if(i < n) {`
			`int j = list[i];`

			`if(j > _nmax) _flag[0] = 1;`

			`int k = 0;`

			`if(data_mask & X_MASK) {`
			`((X_FLOAT) buffer)[i + k n] = _x[j] + dx;`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _x[j + _nmax] + dy;`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _x[j + 2 * _nmax] + dz;`
			`k++;`
			`}`

			`if(data_mask & V_MASK) {`
			`((X_FLOAT) buffer)[i + k n] = _v[j];`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _v[j + _nmax];`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _v[j + 2 * _nmax];`
			`k++;`
			`}`

			`if(data_mask & OMEGA_MASK) {`
			`((X_FLOAT) buffer)[i + k n] = _omega[j];`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _omega[j + _nmax];`
			`k++;`
			`((X_FLOAT) buffer)[i + k n] = _omega[j + 2 * _nmax];`
			`k++;`
			`}`

			`if(data_mask & RADIUS_MASK)((X_FLOAT) buffer)[i + k n] = _radius[j];`

			`k++;`

			`if(data_mask & RMASS_MASK)((X_FLOAT) buffer)[i + k n] = _rmass[j];`

			`k++;`
			`}`
			`}`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_PackComm_Self_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, int first)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`

			`int* list = sendlist + iswap * maxlistlength;`

			`if(i < n) {`
			`int j = i;`
			`j = list[i];`

			`if(data_mask & X_MASK) {`
			`_x[i + first] = _x[j] + dx;`
			`_x[i + first + _nmax] = _x[j + _nmax] + dy;`
			`_x[i + first + 2 * _nmax] = _x[j + 2 * _nmax] + dz;`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i + first] = _v[j];`
			`_v[i + first + _nmax] = _v[j + _nmax];`
			`_v[i + first + 2 * _nmax] = _v[j + 2 * _nmax];`
			`}`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i + first] = _omega[j];`
			`_omega[i + first + _nmax] = _omega[j + _nmax];`
			`_omega[i + first + 2 * _nmax] = _omega[j + 2 * _nmax];`
			`}`

			`if(data_mask & RADIUS_MASK) _radius[i + first] = _radius[j];`

			`if(data_mask & RMASS_MASK) _rmass[i + first] = _rmass[j];`
			`}`
			`}`


			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_UnpackComm_Kernel(int n, int first, void* buffer)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`

			`if(i < n) {`
			`int k = 0;`

			`if(data_mask & X_MASK) {`
			`_x[i + first] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_x[i + first + _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_x[i + first + 2 * _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i + first] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_v[i + first + _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_v[i + first + 2 * _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`}`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i + first] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_omega[i + first + _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`_omega[i + first + 2 * _nmax] = ((X_FLOAT) buffer)[i + k n];`
			`k++;`
			`}`

			`if(data_mask & RADIUS_MASK) _radius[i + first] = ((X_FLOAT) buffer)[i + k n];`

			`k++;`

			`if(data_mask & RMASS_MASK) _rmass[i + first] = ((X_FLOAT) buffer)[i + k n];`

			`k++;`
			`}`
			`}`


			`__global__ void Cuda_AtomVecCuda_PackExchangeList_Kernel(int n, int dim)`
			`{`
			`double* buf = (double*) _buffer;`
			`buf = &buf[1];`

			`//X_FLOAT lo=slablo[iswap];`
			`//X_FLOAT hi=slabhi[iswap];`

			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`
			`bool add = false;`

			`if(i < _nlocal) {`
			`double xdim_tmp = static_cast <double>(_x[i + dim * _nmax]);`

			`if(xdim_tmp < _sublo[dim] \|\| xdim_tmp >= _subhi[dim]) {`
			`add = true;`
			`}`
			`}`

			`shared[threadIdx.x] = add ? 1 : 0;`
			`__syncthreads();`
			`int nsend = 0;`

			`if(threadIdx.x == 0) {`
			`for(int k = 0; k < blockDim.x; k++) {`
			`if(shared[k]) {`
			`nsend++;`
			`shared[k] = nsend;`
			`}`
			`}`

			`shared[blockDim.x] = atomicAdd((int*) _buffer, nsend);`
			`}`

			`__syncthreads();`

			`nsend = shared[blockDim.x] + shared[threadIdx.x] - 1;`

			`if(add && nsend + 1 < n)`
			`buf[nsend] = i;`
			`}`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_PackExchange_Kernel(int nsend, int* copylist)`
			`{`
			`double* buf = (double*) _buffer;`
			`int k = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`

			`if(k >= nsend) return;`

			`buf = &buf[1 + k];`

			`int i = static_cast <int>(buf[0]);`
			`int j = copylist[k];`

			`int m = 1;`

			`if(data_mask & X_MASK) {`
			`buf[(m++)*nsend] = static_cast <double>(_x[i]);`
			`buf[(m++)*nsend] = static_cast <double>(_x[i + _nmax]);`
			`buf[(m++)nsend] = static_cast <double>(_x[i + 2 _nmax]);`
			`}`

			`if(data_mask & V_MASK) {`
			`buf[(m++)*nsend] = _v[i];`
			`buf[(m++)*nsend] = _v[i + _nmax];`
			`buf[(m++)nsend] = _v[i + 2 _nmax];`
			`}`

			`if(data_mask & TAG_MASK) buf[(m++)*nsend] = _tag[i];`

			`if(data_mask & TYPE_MASK) buf[(m++)*nsend] = _type[i];`

			`if(data_mask & MASK_MASK) buf[(m++)*nsend] = _mask[i];`

			`if(data_mask & IMAGE_MASK) buf[(m++)*nsend] = _image[i];`

			`if(data_mask & Q_MASK) buf[(m++)*nsend] = _q[i];`

			`if(data_mask & MOLECULE_MASK) buf[(m++)*nsend] = _molecule[i];`

			`if(data_mask & RADIUS_MASK) buf[(m++)*nsend] = _radius[i];`

			`if(data_mask & DENSITY_MASK) buf[(m++)*nsend] = _density[i];`

			`if(data_mask & RMASS_MASK) buf[(m++)*nsend] = _rmass[i];`

			`if(data_mask & OMEGA_MASK) {`
			`buf[(m++)*nsend] = _omega[i];`
			`buf[(m++)*nsend] = _omega[i + _nmax];`
			`buf[(m++)nsend] = _omega[i + 2 _nmax];`
			`}`

			`/* if(data_mask & NSPECIAL_MASK)`
			`{`
			`buf[(m++)*nsend] = _nspecial[i];`
			`buf[(m++)*nsend] = _nspecial[i+_nmax];`
			`buf[(m++)nsend] = _nspecial[i+2 _nmax];`
			`}*/`

			`if(i >= _nlocal) return;`

			`if(data_mask & X_MASK) {`
			`_x[i] = _x[j];`
			`_x[i + _nmax] = _x[j + _nmax];`
			`_x[i + 2 * _nmax] = _x[j + 2 * _nmax];`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i] = _v[j];`
			`_v[i + _nmax] = _v[j + _nmax];`
			`_v[i + 2 * _nmax] = _v[j + 2 * _nmax];`
			`}`

			`if(data_mask & TAG_MASK) _tag[i] = _tag[j];`

			`if(data_mask & TYPE_MASK) _type[i] = _type[j];`

			`if(data_mask & MASK_MASK) _mask[i] = _mask[j];`

			`if(data_mask & IMAGE_MASK) _image[i] = _image[j];`

			`if(data_mask & Q_MASK) _q[i] = _q[j];`

			`if(data_mask & MOLECULE_MASK) _molecule[i] = _molecule[j];`

			`if(data_mask & RADIUS_MASK) _radius[i] = _radius[j];`

			`if(data_mask & DENSITY_MASK) _density[i] = _density[j];`

			`if(data_mask & RMASS_MASK) _rmass[i] = _rmass[j];`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i] = _omega[j];`
			`_omega[i + _nmax] = _omega[j + _nmax];`
			`_omega[i + 2 * _nmax] = _omega[j + 2 * _nmax];`
			`}`

			`/* if(data_mask & NSPECIAL_MASK)`
			`{`
			`_nspecial[i] = _nspecial[j];`
			`_nspecial[i+_nmax] = _nspecial[j+_nmax];`
			`_nspecial[i+2* _nmax] = _nspecial[j+2* _nmax];`
			`}*/`
			`}`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_UnpackExchange_Kernel(int dim, int nsend, int* copylist)`
			`{`
			`double* buf = (double*) _buffer;`
			`int k = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`

			`if(k >= nsend) return;`

			`buf = &buf[1 + k];`
			`int i = -1;`
			`double xdim_tmp = buf[(1 + dim) * nsend];`

			`if(xdim_tmp >= _sublo[dim] - SMALL && xdim_tmp < _subhi[dim] + SMALL) {`
			`i = atomicAdd(_flag, 1) + _nlocal;`

			`int m = 1;`

			`if(data_mask & X_MASK) {`
			`_x[i] = buf[(m++) * nsend];`
			`_x[i + _nmax] = buf[(m++) * nsend];`
			`_x[i + 2 * _nmax] = buf[(m++) * nsend];`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i] = buf[(m++) * nsend];`
			`_v[i + _nmax] = buf[(m++) * nsend];`
			`_v[i + 2 * _nmax] = buf[(m++) * nsend];`
			`}`

			`if(data_mask & TAG_MASK) _tag[i] = buf[(m++) * nsend];`

			`if(data_mask & TYPE_MASK) _type[i] = buf[(m++) * nsend];`

			`if(data_mask & MASK_MASK) _mask[i] = buf[(m++) * nsend];`

			`if(data_mask & IMAGE_MASK) _image[i] = buf[(m++) * nsend];`

			`if(data_mask & Q_MASK) _q[i] = buf[(m++) * nsend];`

			`if(data_mask & MOLECULE_MASK) _molecule[i] = buf[(m++) * nsend];`

			`if(data_mask & RADIUS_MASK) _radius[i] = buf[(m++) * nsend];`

			`if(data_mask & DENSITY_MASK) _density[i] = buf[(m++) * nsend];`

			`if(data_mask & RMASS_MASK) _rmass[i] = buf[(m++) * nsend];`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i] = buf[(m++) * nsend];`
			`_omega[i + _nmax] = buf[(m++) * nsend];`
			`_omega[i + 2 * _nmax] = buf[(m++) * nsend];`
			`}`

			`/* if(data_mask & NSPECIAL_MASK)`
			`{`
			`_nspecial[i] = buf[(m++)*nsend];`
			`_nspecial[i+_nmax] = buf[(m++)*nsend];`
			`_nspecial[i+2_nmax] = buf[(m++)nsend];`
			`}*/`
			`}`

			`copylist[k] = i;`
			`}`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_PackBorder_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`
			`int* list = sendlist + iswap * maxlistlength;`

			`if(i < n) {`
			`int j = list[i];`
			`int m = 0;`

			`if(data_mask & X_MASK) {`
			`((X_FLOAT) _buffer)[i + (m++)n] = _x[j] + dx;`
			`((X_FLOAT) _buffer)[i + (m++)n] = _x[j + _nmax] + dy;`
			`((X_FLOAT) _buffer)[i + (m++)n] = _x[j + 2 * _nmax] + dz;`
			`}`

			`if(data_mask & V_MASK) {`
			`((X_FLOAT) _buffer)[i + (m++)n] = _v[j];`
			`((X_FLOAT) _buffer)[i + (m++)n] = _v[j + _nmax];`
			`((X_FLOAT) _buffer)[i + (m++)n] = _v[j + 2 * _nmax];`
			`}`

			`if(data_mask & TAG_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _tag[j];`

			`if(data_mask & TYPE_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _type[j];`

			`if(data_mask & MASK_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _mask[j];`

			`if(data_mask & Q_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _q[j];`

			`if(data_mask & MOLECULE_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _molecule[j];`

			`if(data_mask & RADIUS_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _radius[i];`

			`if(data_mask & DENSITY_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _density[i];`

			`if(data_mask & RMASS_MASK)((X_FLOAT) _buffer)[i + (m++)n] = _rmass[i];`

			`if(data_mask & OMEGA_MASK) {`
			`((X_FLOAT) _buffer)[i + (m++)n] = _omega[i];`
			`((X_FLOAT) _buffer)[i + (m++)n] = _omega[i + _nmax];`
			`((X_FLOAT) _buffer)[i + (m++)n] = _omega[i + 2 * _nmax];`
			`}`
			`}`
			`}`



			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_PackBorder_Self_Kernel(int* sendlist, int n, int maxlistlength, int iswap, X_FLOAT dx, X_FLOAT dy, X_FLOAT dz, int first)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`
			`int* list = sendlist + iswap * maxlistlength;`

			`if(i < n) {`
			`int j = list[i];`

			`if(data_mask & X_MASK) {`
			`_x[i + first] = _x[j] + dx;`
			`_x[i + first + _nmax] = _x[j + _nmax] + dy;`
			`_x[i + first + 2 * _nmax] = _x[j + 2 * _nmax] + dz;`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i + first] = _v[j];`
			`_v[i + first + _nmax] = _v[j + _nmax];`
			`_v[i + first + 2 * _nmax] = _v[j + 2 * _nmax];`
			`}`

			`if(data_mask & TAG_MASK) _tag[i + first] = _tag[j];`

			`if(data_mask & TYPE_MASK) _type[i + first] = _type[j];`

			`if(data_mask & MASK_MASK) _mask[i + first] = _mask[j];`

			`if(data_mask & Q_MASK) _q[i + first] = _q[j];`

			`if(data_mask & MOLECULE_MASK) _molecule[i + first] = _molecule[j];`

			`if(data_mask & RADIUS_MASK) _radius[i + first] = _radius[j];`

			`if(data_mask & DENSITY_MASK) _density[i + first] = _density[j];`

			`if(data_mask & RMASS_MASK) _rmass[i + first] = _rmass[j];`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i + first] = _omega[j];`
			`_omega[i + first + _nmax] = _omega[j + _nmax];`
			`_omega[i + first + 2 * _nmax] = _omega[j + 2 * _nmax];`
			`}`
			`}`
			`}`

			`template <const unsigned int data_mask>`
			`__global__ void Cuda_AtomVecCuda_UnpackBorder_Kernel(int n, int first)`
			`{`
			`int i = (blockIdx.x * gridDim.y + blockIdx.y) * blockDim.x + threadIdx.x;`

			`if(i < n) {`
			`if(i + first < _nmax) {`
			`int m = 0;`

			`if(data_mask & X_MASK) {`
			`_x[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_x[i + first + _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_x[i + first + 2 * _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`}`

			`if(data_mask & V_MASK) {`
			`_v[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_v[i + first + _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_v[i + first + 2 * _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`}`

			`if(data_mask & TAG_MASK) _tag[i + first] = static_cast<int>(((X_FLOAT) _buffer)[i + (m++) n]);`

			`if(data_mask & TYPE_MASK) _type[i + first] = static_cast<int>(((X_FLOAT) _buffer)[i + (m++) n]);`

			`if(data_mask & MASK_MASK) _mask[i + first] = static_cast<int>(((X_FLOAT) _buffer)[i + (m++) n]);`

			`if(data_mask & Q_MASK) _q[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`

			`if(data_mask & MOLECULE_MASK) _molecule[i + first] = static_cast<int>(((X_FLOAT) _buffer)[i + (m++) n]);`

			`if(data_mask & RADIUS_MASK) _radius[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`

			`if(data_mask & DENSITY_MASK) _density[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`

			`if(data_mask & RMASS_MASK) _rmass[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`

			`if(data_mask & OMEGA_MASK) {`
			`_omega[i + first] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_omega[i + first + _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`_omega[i + first + 2 * _nmax] = ((X_FLOAT) _buffer)[i + (m++) n];`
			`}`
			`} else {`
			`_flag[0] = 1;`
			`}`
			`}`
			`}`