NVIDIA · razajafri · Mar 23, 2022 · Mar 19, 2022 · Mar 22, 2022 · Mar 22, 2022
diff --git a/.../src/main/311+-all/scala/com/nvidia/spark/rapids/shims/ParquetCachedBatchSerializer.scala b/.../src/main/311+-all/scala/com/nvidia/spark/rapids/shims/ParquetCachedBatchSerializer.scala
@@ -327,6 +327,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
       conf: SQLConf): RDD[CachedBatch] = {
 
     val rapidsConf = new RapidsConf(conf)
+    val useCompression = conf.useCompression
     val bytesAllowedPerBatch = getBytesAllowedPerBatch(conf)
     val (schemaWithUnambiguousNames, _) = getSupportedSchemaFromUnsupported(schema)
     val structSchema = schemaWithUnambiguousNames.toStructType
@@ -349,7 +350,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
         } else {
           withResource(putOnGpuIfNeeded(batch)) { gpuCB =>
             compressColumnarBatchWithParquet(gpuCB, structSchema, schema.toStructType,
-              bytesAllowedPerBatch)
+              bytesAllowedPerBatch, useCompression)
           }
         }
       })
@@ -367,7 +368,8 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
       oldGpuCB: ColumnarBatch,
       schema: StructType,
       origSchema: StructType,
-      bytesAllowedPerBatch: Long): List[ParquetCachedBatch] = {
+      bytesAllowedPerBatch: Long,
+      useCompression: Boolean): List[ParquetCachedBatch] = {
     val estimatedRowSize = scala.Range(0, oldGpuCB.numCols()).map { idx =>
       oldGpuCB.column(idx).asInstanceOf[GpuColumnVector]
           .getBase.getDeviceMemorySize / oldGpuCB.numRows()
@@ -418,7 +420,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
 
           for (i <- splitVectors.head.indices) {
             withResource(makeTableForIndex(i)) { table =>
-              val buffer = writeTableToCachedBatch(table, schema)
+              val buffer = writeTableToCachedBatch(table, schema, useCompression)
               buffers += ParquetCachedBatch(buffer)
             }
           }
@@ -427,7 +429,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
         }
       } else {
         withResource(GpuColumnVector.from(gpuCB)) { table =>
-          val buffer = writeTableToCachedBatch(table, schema)
+          val buffer = writeTableToCachedBatch(table, schema, useCompression)
           buffers += ParquetCachedBatch(buffer)
         }
       }
@@ -437,12 +439,17 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
 
   private def writeTableToCachedBatch(
       table: Table,
-      schema: StructType): ParquetBufferConsumer = {
+      schema: StructType,
+      useCompression: Boolean): ParquetBufferConsumer = {
     val buffer = new ParquetBufferConsumer(table.getRowCount.toInt)
-    val opts = SchemaUtils
-        .writerOptionsFromSchema(ParquetWriterOptions.builder(), schema, writeInt96 = false)
-        .withStatisticsFrequency(StatisticsFrequency.ROWGROUP).build()
-    withResource(Table.writeParquetChunked(opts, buffer)) { writer =>
+    val optsBuilder = SchemaUtils
+      .writerOptionsFromSchema(ParquetWriterOptions.builder(), schema, writeInt96 = false)
+      .withCompressionType(CompressionType.NONE)
+      .withStatisticsFrequency(StatisticsFrequency.ROWGROUP)
+    if (useCompression) {
+      optsBuilder.withCompressionType(CompressionType.SNAPPY)
+    }
+    withResource(Table.writeParquetChunked(optsBuilder.build(), buffer)) { writer =>
       writer.write(table)
     }
     buffer
@@ -1454,6 +1461,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
       conf: SQLConf): RDD[CachedBatch] = {
 
     val rapidsConf = new RapidsConf(conf)
+    val useCompression = conf.useCompression
     val bytesAllowedPerBatch = getBytesAllowedPerBatch(conf)
     val (schemaWithUnambiguousNames, _) = getSupportedSchemaFromUnsupported(schema)
     if (rapidsConf.isSqlEnabled && rapidsConf.isSqlExecuteOnGPU &&
@@ -1465,7 +1473,7 @@ protected class ParquetCachedBatchSerializer extends GpuCachedBatchSerializer wi
       })
       columnarBatchRdd.flatMap(cb => {
         withResource(cb)(cb => compressColumnarBatchWithParquet(cb, structSchema,
-          schema.toStructType, bytesAllowedPerBatch))
+          schema.toStructType, bytesAllowedPerBatch, useCompression))
       })
     } else {
       val broadcastedConf = SparkSession.active.sparkContext.broadcast(conf.getAllConfs)

diff --git a/...s-spark310+/src/test/scala/com/nvidia/spark/rapids/shims/Spark310ParquetWriterSuite.scala b/...s-spark310+/src/test/scala/com/nvidia/spark/rapids/shims/Spark310ParquetWriterSuite.scala
@@ -149,7 +149,8 @@ class Spark310ParquetWriterSuite extends SparkQueryCompareTestSuite {
         Array(StructField("empty", ByteType, false),
           StructField("empty", ByteType, false),
           StructField("empty", ByteType, false)))
-      ser.compressColumnarBatchWithParquet(cb, dummySchema, dummySchema, BYTES_ALLOWED_PER_BATCH)
+      ser.compressColumnarBatchWithParquet(cb, dummySchema, dummySchema,
+        BYTES_ALLOWED_PER_BATCH, false)
       theTableMock.close()
     }
   }