rapidsai · rapids-bot · Oct 14, 2021 · Sep 20, 2021 · Sep 20, 2021 · Sep 21, 2021
@@ -24,9 +24,8 @@ def set_index_post(df, index_name, drop, column_dtype):
 
 def _set_partitions_pre(s, divisions):
     partitions = divisions.searchsorted(s, side="right") - 1
-    partitions[
-        divisions.tail(1).searchsorted(s, side="right").astype("bool")
-    ] = (len(divisions) - 2)
+    partitions[partitions < 0] = 0
+    partitions[partitions >= len(divisions) - 1] = len(divisions) - 2
     return partitions
 
 
@@ -201,7 +200,7 @@ def quantile_divisions(df, by, npartitions):
                 divisions[col].iloc[-1] = chr(
                     ord(divisions[col].iloc[-1][0]) + 1
                 )
-        divisions = divisions.drop_duplicates()
+        divisions = divisions.drop_duplicates().sort_index()
 divisions = sorted( 
     divisions.drop_duplicates().astype(dtype).to_arrow().tolist(), 
     key=lambda x: (x is None, x), 
 ) 
 df3 = rearrange_by_column( 
     df2, 
     "_partitions", 
     max_branch=max_branch, 
     npartitions=len(divisions) - 1, 
     shuffle="tasks", 
     ignore_index=ignore_index, 
 ).drop(columns=["_partitions"]) 
 divisions = sorted( 
     divisions.drop_duplicates().astype(dtype).to_arrow().tolist(), 
     key=lambda x: (x is None, x), 
 ) 
 df3 = rearrange_by_column( 
     df2, 
     "_partitions", 
     max_branch=max_branch, 
     npartitions=len(divisions) - 1, 
     shuffle="tasks", 
     ignore_index=ignore_index, 
 ).drop(columns=["_partitions"]) 
     return divisions
 
 

@@ -7,7 +7,6 @@
 import cudf
 
 import dask_cudf
-from dask_cudf.sorting import quantile_divisions
 
 
 @pytest.mark.parametrize("by", ["a", "b", "c", "d", ["a", "b"], ["c", "d"]])
@@ -25,7 +24,7 @@ def test_sort_values(nelem, nparts, by):
     with dask.config.set(scheduler="single-threaded"):
         got = ddf.sort_values(by=by)
     expect = df.sort_values(by=by)
-    dd.assert_eq(got, expect, check_index=False)
+    dd.assert_eq(got.reset_index(), expect.reset_index(), check_index=False)
 
 
 @pytest.mark.parametrize("by", ["a", "b", ["a", "b"]])
@@ -53,23 +52,21 @@ def test_sort_repartition():
 
 
 @pytest.mark.parametrize("by", ["a", "b", ["a", "b"]])
-def test_sort_values_with_nulls(by):
-    df = cudf.DataFrame(
+@pytest.mark.parametrize(
+    "data",
+    [
         {
             "a": list(range(50)) + [None] * 50 + list(range(50, 100)),
             "b": [None] * 100 + list(range(100, 150)),
-        }
-    )
-    ddf = dd.from_pandas(df, npartitions=10)
-
-    # assert that quantile divisions of dataframe contains nulls
-    divisions = quantile_divisions(ddf, by, ddf.npartitions)
-    if isinstance(divisions, list):
-        assert None in divisions
-    else:
-        assert all([divisions[col].has_nulls for col in by])
+        },
+        {"a": list(range(15)) + [None] * 5, "b": list(reversed(range(20)))},
+    ],
+)
+def test_sort_values_with_nulls(data, by):
+    df = cudf.DataFrame(data)
+    ddf = dd.from_pandas(df, npartitions=5)
 
     got = ddf.sort_values(by=by)
     expect = df.sort_values(by=by)
 
-    dd.assert_eq(got, expect)
+    dd.assert_eq(got.reset_index(), expect.reset_index(), check_index=False)