NVIDIA · res-life · Mar 18, 2022 · Feb 25, 2022 · Mar 10, 2022 · Mar 11, 2022
diff --git a/integration_tests/src/main/python/csv_test.py b/integration_tests/src/main/python/csv_test.py
@@ -266,7 +266,29 @@ def test_basic_csv_read(std_input_path, name, schema, options, read_func, v1_ena
         pytest.param(double_gen),
         pytest.param(FloatGen(no_nans=False)),
         pytest.param(float_gen),
-        TimestampGen()]
+        TimestampGen(),
+        # 365 days * 5000 is about 5000 years
+        DayTimeIntervalGen(start_field="day", end_field="day", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="day", end_field="hour", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="day", end_field="minute", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="day", end_field="second", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="hour", end_field="hour", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="hour", end_field="minute", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="hour", end_field="second", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="minute", end_field="minute", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="minute", end_field="second", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="second", end_field="second", max_days=365 * 5000, allow_negative=True),
+        DayTimeIntervalGen(start_field="day", end_field="day", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="day", end_field="hour", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="day", end_field="minute", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="day", end_field="second", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="hour", end_field="hour", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="hour", end_field="minute", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="hour", end_field="second", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="minute", end_field="minute", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="minute", end_field="second", max_days=365 * 5000),
+        DayTimeIntervalGen(start_field="second", end_field="second", max_days=365 * 5000),
+]
 
 @approximate_float
 @pytest.mark.parametrize('data_gen', csv_supported_gens, ids=idfn)

diff --git a/integration_tests/src/main/python/data_gen.py b/integration_tests/src/main/python/data_gen.py
@@ -613,31 +613,112 @@ def make_null():
         self._start(rand, make_null)
 
 # DayTimeIntervalGen is for Spark 3.3.0+
-# DayTimeIntervalType(startField, endField): Represents a day-time interval which is made up of a contiguous subset of the following fields:
+# DayTimeIntervalType(startField, endField):
+# Represents a day-time interval which is made up of a contiguous subset of the following fields:
 #   SECOND, seconds within minutes and possibly fractions of a second [0..59.999999],
+#   Note Spark now uses 99 as max second, see issue https://issues.apache.org/jira/browse/SPARK-38324
+#   If second is start field, it's max value is long.max / microseconds in one second
 #   MINUTE, minutes within hours [0..59],
+#   If minute is start field, it's max value is long.max / microseconds in one minute
 #   HOUR, hours within days [0..23],
-#   DAY, days in the range [0..106751991].
+#   If hour is start field, it's max value is long.max / microseconds in one hour
+#   DAY, days in the range [0..106751991]. 106751991 is long.max / microseconds in one day
 # For more details: https://spark.apache.org/docs/latest/sql-ref-datatypes.html
-# Note: 106751991/365 = 292471 years which is much bigger than 9999 year, seems something is wrong
+# Note: 106751991/365 = 292471 years which is much bigger than 9999 year
 class DayTimeIntervalGen(DataGen):
     """Generate DayTimeIntervalType values"""
-    def __init__(self, max_days = None, nullable=True, special_cases =[timedelta(seconds = 0)]):
+    def __init__(self, max_days=None, start_field="day", end_field="second", allow_negative=False, nullable=True,
+                 special_cases=[timedelta(seconds=0)]):
         super().__init__(DayTimeIntervalType(), nullable=nullable, special_cases=special_cases)
         if max_days is None:
             self._max_days = 106751991
         else:
+            assert 106751991 >= max_days > 0
             self._max_days = max_days
+        self._allow_negative = allow_negative
+        self._start_field = start_field
+        self._end_field = end_field
+
+        fields = ["day", "hour", "minute", "second"]
+        start_index = fields.index(start_field)
+        end_index = fields.index(end_field)
+        if start_index > end_index:
+            raise RuntimeError('Start field {}, end field {}, valid fields is {}, start field should <= end field'.format(start_field, end_field, fields))
+
+        super().__init__(DayTimeIntervalType(start_index, end_index), nullable=nullable, special_cases=special_cases)
+
+    def _gen_random(self, rand, start_field, end_field):
+        micros_per_second = 1000 * 1000
+        micros_per_minute = 60 * micros_per_second
+        micros_per_hour = 60 * micros_per_minute
+        micros_per_day = 24 * micros_per_hour
+
+        max_micros = self._max_days * micros_per_day
+
+        # set default value
+        days = 0
+        hours = 0
+        minutes = 0
+        seconds = 0
+        microseconds = 0
+
+        if (start_field, end_field) == ("day", "day"):
+            days = rand.randint(0, self._max_days)
+        if (start_field, end_field) == ("day", "hour"):
+            days = rand.randint(0, self._max_days)
+            hours_remaining = (max_micros - days * micros_per_day) / micros_per_hour
+            hours = rand.randint(0, min(23, hours_remaining))
+        if (start_field, end_field) == ("day", "minute"):
+            days = rand.randint(0, self._max_days)
+            hours_remaining = (max_micros - days * micros_per_day) / micros_per_hour
+            hours = rand.randint(0, min(23, hours_remaining))
+            minutes_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour) / micros_per_minute
+            minutes = rand.randint(0, min(59, minutes_remaining))
+        if (start_field, end_field) == ("day", "second"):
+            days = rand.randint(0, self._max_days)
+            hours_remaining = (max_micros - days * micros_per_day) / micros_per_hour
+            hours = rand.randint(0, min(23, hours_remaining))
+            minutes_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour) / micros_per_minute
+            minutes = rand.randint(0, min(59, minutes_remaining))
+            seconds_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute ) / micros_per_second
+            seconds = rand.randint(0, min(99, seconds_remaining))
+            microseconds_remaining = max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute - seconds * micros_per_second
+            microseconds = rand.randint(0, min(999999, microseconds_remaining))
+        if (start_field, end_field) == ("hour", "hour"):
+            hours = rand.randint(0, max_micros / micros_per_hour)
+        if (start_field, end_field) == ("hour", "minute"):
+            hours = rand.randint(0, max_micros / micros_per_hour)
+            minutes_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour) / micros_per_minute
+            minutes = rand.randint(0, min(59, minutes_remaining))
+        if (start_field, end_field) == ("hour", "second"):
+            hours = rand.randint(0, max_micros / micros_per_hour)
+            minutes_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour) / micros_per_minute
+            minutes = rand.randint(0, min(59, minutes_remaining))
+            seconds_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute ) / micros_per_second
+            seconds = rand.randint(0, min(99, seconds_remaining))
+            microseconds_remaining = max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute - seconds * micros_per_second
+            microseconds = rand.randint(0, min(999999, microseconds_remaining))
+        if (start_field, end_field) == ("minute", "minute"):
+            minutes = rand.randint(0, max_micros / micros_per_minute)
+        if (start_field, end_field) == ("minute", "second"):
+            minutes = rand.randint(0, max_micros / micros_per_minute)
+            seconds_remaining = (max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute ) / micros_per_second
+            seconds = rand.randint(0, min(99, seconds_remaining))
+            microseconds_remaining = max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute - seconds * micros_per_second
+            microseconds = rand.randint(0, min(999999, microseconds_remaining))
+        if (start_field, end_field) == ("second", "second"):
+            seconds = rand.randint(0, max_micros / micros_per_second)
+            microseconds_remaining = max_micros - days * micros_per_day - hours * micros_per_hour - minutes * micros_per_minute - seconds * micros_per_second
+            microseconds = rand.randint(0, min(999999, microseconds_remaining))
+
+        if self._allow_negative:
+            sign = 1 if (rand.randint(0, 1) == 0) else -1
+        else:
+            sign = 1
+        return timedelta(microseconds * sign, seconds * sign, minutes * sign, hours * sign, days * sign)
+
     def start(self, rand):
-        self._start(rand,
-            lambda : timedelta(
-                microseconds = rand.randint(0, 999999),
-                seconds = rand.randint(0, 59),
-                minutes = rand.randint(0, 59),
-                hours = rand.randint(0, 23),
-                days = rand.randint(0, self._max_days),
-            )
-        )
+        self._start(rand, lambda: self._gen_random(rand, self._start_field, self._end_field))
 
 def skip_if_not_utc():
     if (not is_tz_utc()):

diff --git a/sql-plugin/src/main/301until330-all/scala/com/nvidia/spark/rapids/shims/GpuTypeShims.scala b/sql-plugin/src/main/301until330-all/scala/com/nvidia/spark/rapids/shims/GpuTypeShims.scala
@@ -15,6 +15,7 @@
  */
 package com.nvidia.spark.rapids.shims
 
+import ai.rapids.cudf.ColumnVector
-import ai.rapids.cudf.ColumnVector
+import ai.rapids.cudf
-import ai.rapids.cudf.ColumnVector
+import ai.rapids.cudf
 import ai.rapids.cudf.DType
 import com.nvidia.spark.rapids.GpuRowToColumnConverter.TypeConverter
 
@@ -46,4 +47,9 @@ object GpuTypeShims {
    * @return the cuDF type if the Shim supports
    */
   def toRapidsOrNull(t: DataType): DType = null
+
+  def supportCsvRead(dt: DataType) : Boolean = false
+
+  def csvRead(cv: ColumnVector, dt: DataType): ColumnVector =
-  def csvRead(cv: ColumnVector, dt: DataType): ColumnVector =
+  def csvRead(cv: cudf.ColumnVector, dt: DataType): cudf.ColumnVector =
-  def csvRead(cv: ColumnVector, dt: DataType): ColumnVector =
+  def csvRead(cv: cudf.ColumnVector, dt: DataType): cudf.ColumnVector =
+    throw new RuntimeException(s"Not support type $dt.")
 }