NVIDIA · andygrove · Sep 17, 2020 · Sep 17, 2020 · Sep 17, 2020 · Sep 17, 2020
diff --git a/integration_tests/src/main/scala/com/nvidia/spark/rapids/tests/common/BenchUtils.scala b/integration_tests/src/main/scala/com/nvidia/spark/rapids/tests/common/BenchUtils.scala
@@ -22,12 +22,14 @@ import java.util.concurrent.TimeUnit.NANOSECONDS
 
 import scala.collection.convert.ImplicitConversions.`iterator asScala`
 import scala.collection.mutable.ListBuffer
+import scala.util.Try
 
 import org.json4s.DefaultFormats
 import org.json4s.jackson.JsonMethods.parse
 import org.json4s.jackson.Serialization.writePretty
 
 import org.apache.spark.{SPARK_BUILD_USER, SPARK_VERSION}
+import org.apache.spark.scheduler.{SparkListener, SparkListenerStageCompleted}
 import org.apache.spark.sql.{DataFrame, Row, SaveMode, SparkSession}
 import org.apache.spark.sql.execution.{InputAdapter, QueryExecution, SparkPlan, WholeStageCodegenExec}
 import org.apache.spark.sql.execution.adaptive.{AdaptiveSparkPlanExec, QueryStageExec}
@@ -127,14 +129,16 @@ object BenchUtils {
     val queryStartTime = Instant.now()
 
     val queryPlansWithMetrics = new ListBuffer[SparkPlanNode]()
+    val stageMetrics = new ListBuffer[StageMetrics]()
 
     var df: DataFrame = null
     val queryTimes = new ListBuffer[Long]()
     for (i <- 0 until iterations) {
 
-      // capture spark plan metrics on the final run
+      // capture spark metrics on the final run
       if (i+1 == iterations) {
         spark.listenerManager.register(new BenchmarkListener(queryPlansWithMetrics))
+        spark.sparkContext.addSparkListener(new BenchSparkListener(stageMetrics))
       }
 
       println(s"*** Start iteration $i:")
@@ -211,6 +215,7 @@ object BenchUtils {
         queryDescription,
         queryPlan,
         queryPlansWithMetrics,
+        stageMetrics,
         queryTimes)
 
       case w: WriteCsv => BenchmarkReport(
@@ -223,6 +228,7 @@ object BenchUtils {
         queryDescription,
         queryPlan,
         queryPlansWithMetrics,
+        stageMetrics,
         queryTimes)
 
       case w: WriteParquet => BenchmarkReport(
@@ -235,6 +241,7 @@ object BenchUtils {
         queryDescription,
         queryPlan,
         queryPlansWithMetrics,
+        stageMetrics,
         queryTimes)
     }
 
@@ -549,6 +556,42 @@ class BenchmarkListener(list: ListBuffer[SparkPlanNode]) extends QueryExecutionL
   }
 }
 
+class BenchSparkListener(executionMetrics: ListBuffer[StageMetrics]) extends SparkListener {
+  override def onStageCompleted(stageCompleted: SparkListenerStageCompleted): Unit = {
+    val stageInfo = stageCompleted.stageInfo
+    val taskMetrics = stageInfo.taskMetrics
+
+    val stageMetrics = stageInfo.accumulables.map(acc => Try {
+      val name = acc._2.name.getOrElse("")
+      val value = acc._2.value.getOrElse(0L).asInstanceOf[Long]
+      name -> value
+    }).filter(_.isSuccess)
+        .map(_.get)
+        .filter(_._1.nonEmpty)
+        .toMap
+
+    val taskMetricsSummary = Map(
+      "executorDeserializeTime" -> taskMetrics.executorDeserializeTime,
+      "executorDeserializeCpuTime" -> taskMetrics.executorDeserializeCpuTime,
+      "executorRunTime" -> taskMetrics.executorRunTime,
+      "executorCpuTime" -> taskMetrics.executorCpuTime,
+      "resultSize" -> taskMetrics.resultSize,
+      "jvmGCTime" -> taskMetrics.jvmGCTime,
+      "resultSerializationTime" -> taskMetrics.resultSerializationTime,
+      "memoryBytesSpilled" -> taskMetrics.memoryBytesSpilled,
+      "diskBytesSpilled" -> taskMetrics.diskBytesSpilled,
+      "peakExecutionMemory" -> taskMetrics.peakExecutionMemory
+    )
+
+    executionMetrics += StageMetrics(
+      stageInfo.stageId,
+      stageInfo.parentIds,
+      stageInfo.numTasks,
+      stageMetrics,
+      taskMetricsSummary)
+  }
+}
+
 /** Top level benchmark report class */
 case class BenchmarkReport(
     filename: String,
@@ -560,6 +603,7 @@ case class BenchmarkReport(
     query: String,
     queryPlan: QueryPlan,
     queryPlans: Seq[SparkPlanNode],
+    stageMetrics: Seq[StageMetrics],
     queryTimes: Seq[Long])
 
 /** Configuration options that affect how the tests are run */
@@ -584,6 +628,15 @@ case class SparkSQLMetric(
     metricType: String,
     value: Any)
 
+/** Summary of stage-level metrics */
+case class StageMetrics(
+    stageId: Int,
+    parentIds: Seq[Int],
+    taskCount: Int,
+    stageMetrics: Map[String, Long],
+    taskMetrics: Map[String, Long]
+)
+
 /** Details about the environment where the benchmark ran */
 case class Environment(
     envVars: Map[String, String],

diff --git a/integration_tests/src/test/scala/com/nvidia/spark/rapids/tests/common/BenchUtilsSuite.scala b/integration_tests/src/test/scala/com/nvidia/spark/rapids/tests/common/BenchUtilsSuite.scala
@@ -21,6 +21,8 @@ import com.nvidia.spark.rapids.AdaptiveQueryExecSuite.TEST_FILES_ROOT
 import com.nvidia.spark.rapids.TestUtils
 import org.scalatest.{BeforeAndAfterEach, FunSuite}
 
+import org.apache.spark.sql.SparkSession
+
 object BenchUtilsSuite {
   val TEST_FILES_ROOT: File = TestUtils.getTempDir(this.getClass.getSimpleName)
 }
@@ -35,6 +37,29 @@ class BenchUtilsSuite extends FunSuite with BeforeAndAfterEach {
     org.apache.commons.io.FileUtils.deleteDirectory(TEST_FILES_ROOT)
   }
 
+  test("collect metrics") {
+    val spark = SparkSession.builder().master("local[*]").getOrCreate()
+
+    val filenameStub = s"test-collect-metrics"
+
+    BenchUtils.runBench(
+      spark,
+      spark => spark.range(100).toDF("a"),
+      Collect(),
+      queryDescription = "test",
+      filenameStub = new File(TEST_FILES_ROOT, filenameStub).getAbsolutePath,
+      iterations = 1,
+      gcBetweenRuns = false
+    )
+
+    val files = TEST_FILES_ROOT.list((_: File, s: String) => s.startsWith(filenameStub))
+    assert(files.length==1)
+
+    val report = BenchUtils.readReport(new File(TEST_FILES_ROOT, files.head))
+    assert(report.stageMetrics.nonEmpty)
+  }
+
+
   test("round-trip serialize benchmark results") {
 
     val report = BenchmarkReport(
@@ -50,6 +75,7 @@ class BenchUtilsSuite extends FunSuite with BeforeAndAfterEach {
       query = "q1",
       queryPlan = QueryPlan("logical", "physical"),
       Seq.empty,
+      Seq.empty,
       queryTimes = Seq(99, 88, 77))
 
     val filename = s"$TEST_FILES_ROOT/BenchUtilsSuite-${System.currentTimeMillis()}.json"