coreylowman · coreylowman · Feb 9, 2023 · Feb 9, 2023
diff --git a/Cargo.toml b/Cargo.toml
@@ -31,7 +31,7 @@ matrixmultiply = { version = "0.3.2", default-features = false }
 zip = { version = "0.6.2", default-features = false, optional = true }
 cblas-sys = { version = "0.1.4", default-features = false, optional = true }
 libc = { version = "0.2", default-features = false, optional = true }
-cudarc = { version = "0.6.1", default-features = false, optional = true }
+cudarc = { version = "0.7.0", default-features = false, optional = true }
 
 [features]
 default = ["std", "numpy"]

diff --git a/build.rs b/build.rs
@@ -18,7 +18,6 @@ fn main() {
 #[cfg(feature = "cuda")]
 mod cuda {
     pub fn build_ptx() {
-        // TODO build ptx file in source tree and don't call nvcc if so
         let out_dir = std::env::var("OUT_DIR").unwrap();
         let kernel_paths: Vec<std::path::PathBuf> = glob::glob("src/**/*.cu")
             .unwrap()

diff --git a/src/tensor_ops/boolean/cuda_kernels.rs b/src/tensor_ops/boolean/cuda_kernels.rs
@@ -1,6 +1,6 @@
 use super::BooleanKernel;
 use crate::prelude::{cuda::CudaArray, *};
-use cudarc::prelude::*;
+use cudarc::driver::*;
 
 use std::sync::Arc;
 
@@ -24,10 +24,8 @@ impl Cuda {
         let strides = lhs.shape.strides();
         let numel = shape.num_elements();
 
-        let mut storage = self.dev.take_async(std::vec![false; numel])?;
+        let mut storage = unsafe { self.dev.alloc_async(numel) }?;
 
-        // TODO: modify this to be `self.dev.alloc_zeros_async(numel)?` once cudarc implements
-        // ValidAsZeroBits for bool
         let dims: CudaSlice<usize> = self.dev.take_async(shape.concrete().into())?;
         let lhs_strides: CudaSlice<usize> = self.dev.take_async(lhs.strides.into())?;
         let rhs_strides: CudaSlice<usize> = self.dev.take_async(rhs.strides.into())?;
@@ -64,9 +62,7 @@ impl BooleanKernel for Cuda {
         }
 
         let numel = inp.data.len();
-        // TODO: modify this to be `self.dev.alloc_zeros_async(numel)?` once cudarc implements
-        // ValidAsZeroBits for bool
-        let mut storage = self.dev.take_async(std::vec![false; numel])?;
+        let mut storage = unsafe { self.dev.alloc_async(numel) }?;
 
         let fwd_fn = self.dev.get_func(MODULE_NAME, "boolean_not").unwrap();
         let cfg = LaunchConfig::for_num_elems(numel as u32);

diff --git a/src/tensor_ops/choose/cuda_kernel.rs b/src/tensor_ops/choose/cuda_kernel.rs
@@ -28,7 +28,7 @@ impl ChooseKernel<f32> for Cuda {
         let strides = lhs.shape.strides();
         let numel = shape.num_elements();
 
-        let mut storage = self.dev.alloc_zeros_async::<f32>(numel)?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(numel) }?;
 
         let dims: CudaSlice<usize> = self.dev.take_async(shape.concrete().into())?;
         let cond_strides: CudaSlice<usize> = self.dev.take_async(cond.strides.into())?;

diff --git a/src/tensor_ops/dropout/cuda_kernel.rs b/src/tensor_ops/dropout/cuda_kernel.rs
@@ -36,7 +36,7 @@ impl UnaryKernel<super::DropoutKernelOp, f32> for Cuda {
         }
 
         let numel = inp.data.len();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(numel)?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(numel) }?;
 
         let fwd_fn = self.dev.get_func(MODULE_NAME, FWD_FN_NAME).unwrap();
         let cfg = LaunchConfig::for_num_elems(numel as u32);

diff --git a/src/tensor_ops/matmul/cuda_kernel.rs b/src/tensor_ops/matmul/cuda_kernel.rs
@@ -164,7 +164,7 @@ impl super::VecVecKernel<f32> for Cuda {
         let k = Const::<1>;
         let shape = (m, n);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         unsafe {
             sgemm(
@@ -239,7 +239,7 @@ impl super::VecMatKernel<f32> for Cuda {
         let (k, n) = rhs.shape;
         let shape = (n,);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         unsafe {
             sgemm(
@@ -312,7 +312,7 @@ impl super::MatMatKernel<f32> for Cuda {
         let (k, n) = rhs.shape;
         let shape = (m, n);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         unsafe {
             sgemm(
@@ -386,7 +386,7 @@ impl super::MatMatBrKernel<f32> for Cuda {
         let (k, n) = rhs.shape;
         let shape = (batch, m, n);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         unsafe {
             sgemm_batch(
@@ -465,7 +465,7 @@ impl super::MatMatBatch3Kernel<f32> for Cuda {
         let (_, k, n) = rhs.shape;
         let shape = (batch, m, n);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         unsafe {
             sgemm_batch(
@@ -539,7 +539,7 @@ impl super::MatMatBatch4Kernel<f32> for Cuda {
         let (_, _, k, n) = rhs.shape;
         let shape = (batch, seq, m, n);
         let strides = shape.strides();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(shape.num_elements())?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(shape.num_elements()) }?;
 
         for b in 0..batch.size() {
             // TODO: use separate streams

diff --git a/src/tensor_ops/max_to/cuda_kernel.rs b/src/tensor_ops/max_to/cuda_kernel.rs
@@ -28,14 +28,15 @@ impl super::MaxReduceKernel<f32> for Cuda {
                 .load_ptx(PTX_SRC.into(), MODULE_NAME, &ALL_FN_NAMES)?;
         }
 
-        let mut storage = self.dev.alloc_zeros_async::<f32>(dst.num_elements())?;
         let fill_fn = self.dev.get_func(MODULE_NAME, "fill_with").unwrap();
-        unsafe {
+        let mut storage = unsafe {
+            let mut storage = self.dev.alloc_async::<f32>(dst.num_elements())?;
             fill_fn.launch_async(
                 LaunchConfig::for_num_elems(dst.num_elements() as u32),
                 (&mut storage, f32::NEG_INFINITY, dst.num_elements()),
-            )
-        }?;
+            )?;
+            storage
+        };
 
         let fwd_fn = self.dev.get_func(MODULE_NAME, FWD_FN_NAME).unwrap();
 

diff --git a/src/tensor_ops/min_to/cuda_kernel.rs b/src/tensor_ops/min_to/cuda_kernel.rs
@@ -28,14 +28,15 @@ impl super::MinReduceKernel<f32> for Cuda {
                 .load_ptx(PTX_SRC.into(), MODULE_NAME, &ALL_FN_NAMES)?;
         }
 
-        let mut storage = self.dev.alloc_zeros_async::<f32>(dst.num_elements())?;
         let fill_fn = self.dev.get_func(MODULE_NAME, "fill_with").unwrap();
-        unsafe {
+        let mut storage = unsafe {
+            let mut storage = self.dev.alloc_async::<f32>(dst.num_elements())?;
             fill_fn.launch_async(
                 LaunchConfig::for_num_elems(dst.num_elements() as u32),
                 (&mut storage, f32::INFINITY, dst.num_elements()),
-            )
-        }?;
+            )?;
+            storage
+        };
 
         let fwd_fn = self.dev.get_func(MODULE_NAME, FWD_FN_NAME).unwrap();
 

diff --git a/src/tensor_ops/reshape_to/cuda_kernel.rs b/src/tensor_ops/reshape_to/cuda_kernel.rs
@@ -26,7 +26,7 @@ impl super::ReshapeKernel<f32> for Cuda {
         }
 
         let numel = inp.data.len();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(numel)?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(numel) }?;
 
         let inp_dims: CudaSlice<usize> = self.dev.take_async(inp.shape.concrete().into())?;
         let dst_dims: CudaSlice<usize> = self.dev.take_async(dst.concrete().into())?;

diff --git a/src/tensor_ops/utilities/cuda_kernels.rs b/src/tensor_ops/utilities/cuda_kernels.rs
@@ -34,7 +34,7 @@ impl<K: UnaryOpCudaKernel + AsKernelParam> UnaryKernel<K, f32> for Cuda {
         }
 
         let numel = inp.data.len();
-        let mut storage = self.dev.alloc_zeros_async::<f32>(numel)?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(numel) }?;
 
         let fwd_fn = self.dev.get_func(K::MODULE_NAME, K::FWD_FN_NAME).unwrap();
         let cfg = LaunchConfig::for_num_elems(numel as u32);
@@ -107,7 +107,7 @@ impl<K: BinaryOpCudaKernel + AsKernelParam> BinaryKernel<K, f32> for Cuda {
         let strides = lhs.shape.strides();
         let numel = shape.num_elements();
 
-        let mut storage = self.dev.alloc_zeros_async::<f32>(numel)?;
+        let mut storage = unsafe { self.dev.alloc_async::<f32>(numel) }?;
 
         let dims: CudaSlice<usize> = self.dev.take_async(shape.concrete().into())?;
         let lhs_strides: CudaSlice<usize> = self.dev.take_async(lhs.strides.into())?;