TEST-#7076: Explicitly check for exceptions in test_map_metadata.py (#7077)

anmyachev · web-flow · commit 2ed2d498477b · 2024-03-13T16:57:46.000+01:00
Signed-off-by: Anatoly Myachev &lt;anatoly.myachev@intel.com&gt;
diff --git a/modin/pandas/test/dataframe/test_map_metadata.py b/modin/pandas/test/dataframe/test_map_metadata.py
@@ -35,8 +35,6 @@
     eval_general,
     indices_keys,
     indices_values,
-    int_arg_keys,
-    int_arg_values,
     name_contains,
     numeric_dfs,
     random_state,
@@ -448,13 +446,17 @@ def test_astype():
 @pytest.mark.parametrize("errors", ["raise", "ignore"])
 def test_astype_errors(errors):
     data = {"a": ["a", 2, -1]}
-    modin_df, pandas_df = pd.DataFrame(data), pandas.DataFrame(data)
+    modin_df, pandas_df = create_test_dfs(data)
+    raising_exceptions = None
+    if errors == "raise":
+        pytest.xfail(reason="https://github.com/modin-project/modin/issues/7025")
     eval_general(
         modin_df,
         pandas_df,
         lambda df: df.astype("int", errors=errors),
         # https://github.com/modin-project/modin/issues/5962
         comparator_kwargs={"check_dtypes": errors != "ignore"},
+        raising_exceptions=raising_exceptions,
     )
 
 
@@ -565,8 +567,6 @@ def test_astype_int64_to_astype_category_github_issue_6259():
             index=["a", "b", "c", "d", "e"],
         ),
         lambda df: df["c0"].astype("Int64").astype("category"),
-        # work around https://github.com/modin-project/modin/issues/6016
-        raising_exceptions=(Exception,),
     )
 
 
@@ -1276,32 +1276,48 @@ def test_dropna_subset(request, data):
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
 @pytest.mark.parametrize("axis,subset", [(0, list("EF")), (1, [4, 5])])
 def test_dropna_subset_error(data, axis, subset):
-    eval_general(*create_test_dfs(data), lambda df: df.dropna(axis=axis, subset=subset))
+    eval_general(
+        *create_test_dfs(data),
+        lambda df: df.dropna(axis=axis, subset=subset),
+        raising_exceptions=KeyError(["E", "F"]),
+    )
 
 
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
 @pytest.mark.parametrize("astype", ["category", "int32", "float"])
-def test_insert_dtypes(data, astype):
+def test_insert_dtypes(data, astype, request):
     modin_df, pandas_df = pd.DataFrame(data), pandas.DataFrame(data)
 
     # categories with NaN works incorrect for now
     if astype == "category" and pandas_df.iloc[:, 0].isnull().any():
         return
 
+    raising_exceptions = None
+    if "int32-float_nan_data" in request.node.callspec.id:
+        pytest.xfail(reason="https://github.com/modin-project/modin/issues/7026")
     eval_insert(
         modin_df,
         pandas_df,
         col="TypeSaver",
         value=lambda df: df.iloc[:, 0].astype(astype),
+        raising_exceptions=raising_exceptions,
     )
 
 
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
-@pytest.mark.parametrize("loc", int_arg_values, ids=arg_keys("loc", int_arg_keys))
+@pytest.mark.parametrize("loc", [-3, 0, 3])
 def test_insert_loc(data, loc):
     modin_df, pandas_df = pd.DataFrame(data), pandas.DataFrame(data)
-
-    eval_insert(modin_df, pandas_df, loc=loc, value=lambda df: df.iloc[:, 0])
+    raising_exceptions = None
+    if loc == -3:
+        raising_exceptions = ValueError("unbounded slice")
+    eval_insert(
+        modin_df,
+        pandas_df,
+        loc=loc,
+        value=lambda df: df.iloc[:, 0],
+        raising_exceptions=raising_exceptions,
+    )
 
 
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
@@ -1312,18 +1328,14 @@ def test_insert(data):
         modin_df, pandas_df, col="Duplicate", value=lambda df: df[df.columns[0]]
     )
     eval_insert(modin_df, pandas_df, col="Scalar", value=100)
-    eval_insert(
-        pd.DataFrame(columns=list("ab")),
-        pandas.DataFrame(columns=list("ab")),
-        col=lambda df: df.columns[0],
-        value=lambda df: df[df.columns[0]],
-    )
-    eval_insert(
-        pd.DataFrame(index=modin_df.index),
-        pandas.DataFrame(index=pandas_df.index),
-        col=lambda df: df.columns[0],
-        value=lambda df: df[df.columns[0]],
-    )
+    if StorageFormat.get() != "Hdk":
+        # FIXME: https://github.com/modin-project/modin/issues/7027
+        eval_insert(
+            pd.DataFrame(columns=list("ab")),
+            pandas.DataFrame(columns=list("ab")),
+            col=lambda df: df.columns[0],
+            value=lambda df: df[df.columns[0]],
+        )
     eval_insert(
         modin_df,
         pandas_df,
@@ -1358,25 +1370,32 @@ def test_insert(data):
         pandas_df,
         col="Too Short",
         value=lambda df: list(df[df.columns[0]])[:-1],
+        raising_exceptions=ValueError(
+            f"Length of values ({len(pandas_df)-1}) does not match length of index ({len(pandas_df)})"
+        ),
     )
     eval_insert(
         modin_df,
         pandas_df,
         col=lambda df: df.columns[0],
         value=lambda df: df[df.columns[0]],
+        raising_exceptions=ValueError("cannot insert 2d list insert, already exists"),
     )
     eval_insert(
         modin_df,
         pandas_df,
         loc=lambda df: len(df.columns) + 100,
         col="Bad Loc",
         value=100,
+        raising_exceptions=IndexError(
+            f"index {len(pandas_df.columns) + 100} is out of bounds for axis 0 with size {len(pandas_df.columns)}"
+        ),
     )
 
 
 def test_insert_4407():
     data = {"col1": [1, 2, 3], "col2": [2, 3, 4]}
-    modin_df, pandas_df = pd.DataFrame(data), pandas.DataFrame(data)
+    modin_df, pandas_df = create_test_dfs(data)
 
     def comparator(df1, df2):
         assert_series_equal(df1.dtypes, df2.dtypes, check_index=False)
@@ -1385,13 +1404,22 @@ def comparator(df1, df2):
     for idx, value in enumerate(
         (pandas_df.to_numpy(), np.array([[1]] * 3), np.array([[1, 2, 3], [4, 5, 6]]))
     ):
+        raising_exceptions = None
+        if idx == 0:
+            raising_exceptions = ValueError(
+                "Expected a 1D array, got an array with shape (3, 2)"
+            )
+        elif idx == 2:
+            # FIXME: https://github.com/modin-project/modin/issues/7080
+            raising_exceptions = False
         eval_insert(
             modin_df,
             pandas_df,
             loc=0,
             col=f"test_col{idx}",
             value=value,
             comparator=lambda df1, df2: comparator(df1, df2),
+            raising_exceptions=raising_exceptions,
         )
 
 
@@ -1604,7 +1632,9 @@ def test_transpose(data):
 def test_update(data, other_data, errors):
     modin_df, pandas_df = create_test_dfs(data)
     other_modin_df, other_pandas_df = create_test_dfs(other_data)
-
+    raising_exceptions = None
+    if errors == "raise":
+        raising_exceptions = ValueError("Data overlaps.")
     eval_general(
         modin_df,
         pandas_df,
@@ -1614,6 +1644,7 @@ def test_update(data, other_data, errors):
             else df.update(other_pandas_df, errors=errors)
         ),
         __inplace__=True,
+        raising_exceptions=raising_exceptions,
     )
 
 
@@ -1633,10 +1664,14 @@ def test___neg__(request, data):
 
 
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
-def test___invert__(data):
-    modin_df = pd.DataFrame(data)
-    pandas_df = pandas.DataFrame(data)
-    eval_general(modin_df, pandas_df, lambda df: ~df)
+def test___invert__(data, request):
+    raising_exceptions = None
+    if "float_nan_data" in request.node.callspec.id:
+        # FIXME: https://github.com/modin-project/modin/issues/7081
+        raising_exceptions = False
+    eval_general(
+        *create_test_dfs(data), lambda df: ~df, raising_exceptions=raising_exceptions
+    )
 
 
 def test___invert___bool():
@@ -1648,13 +1683,6 @@ def test___invert___bool():
     df_equals(modin_result, pandas_result)
 
 
-def test___hash__():
-    data = test_data_values[0]
-    pandas_df = pandas.DataFrame(data)
-    modin_df = pd.DataFrame(data)
-    eval_general(modin_df, pandas_df, hash)
-
-
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
 def test___delitem__(request, data):
     modin_df = pd.DataFrame(data)