Removed Arrow support

andremcorreia · andremcorreia · commit 4f11daba1d17 · 2024-06-11T02:48:56.000+01:00
diff --git a/pandas/core/arrays/arrow/array.py b/pandas/core/arrays/arrow/array.py
@@ -2215,9 +2215,7 @@ def _replace_with_mask(
     def _to_masked(self):
         pa_dtype = self._pa_array.type
 
-        if pa.types.is_floating(pa_dtype):
-            na_value = np.nan
-        elif pa.types.is_integer(pa_dtype):
+        if pa.types.is_floating(pa_dtype) or pa.types.is_integer(pa_dtype):
             na_value = 1
         elif pa.types.is_boolean(pa_dtype):
             na_value = True
@@ -2239,6 +2237,12 @@ def _groupby_op(
         ids: npt.NDArray[np.intp],
         **kwargs,
     ):
+        if how in ["sum", "prod", "mean", "median", "var", "sem", "std", "nim", "max"]:
+            if "skipna" in kwargs and not kwargs["skipna"]:
+                raise NotImplementedError(
+                    f"method '{how}' with skipna=False not implemented for Arrow dtypes"
+                )
+
         if isinstance(self.dtype, StringDtype):
             return super()._groupby_op(
                 how=how,
diff --git a/pandas/tests/groupby/test_reductions.py b/pandas/tests/groupby/test_reductions.py
@@ -3,7 +3,6 @@
 from string import ascii_lowercase
 
 import numpy as np
-import pyarrow as pa
 import pytest
 
 from pandas._libs.tslibs import iNaT
@@ -1057,27 +1056,11 @@ def scipy_sem(*args, **kwargs):
             "sum",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "sum",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         ("min", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         (
             "min",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "min",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         (
             "min",
             [
@@ -1105,14 +1088,6 @@ def scipy_sem(*args, **kwargs):
             "max",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "max",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         (
             "max",
             [
@@ -1140,14 +1115,6 @@ def scipy_sem(*args, **kwargs):
             "mean",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "mean",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         (
             "mean",
             [
@@ -1175,14 +1142,6 @@ def scipy_sem(*args, **kwargs):
             "median",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "median",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         (
             "median",
             [
@@ -1210,53 +1169,21 @@ def scipy_sem(*args, **kwargs):
             "prod",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "prod",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         ("sem", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         (
             "sem",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "sem",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         ("std", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         (
             "std",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "std",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         ("var", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         (
             "var",
             Series(pd.array([-1.0, 1.2, -1.1, 1.5, np.nan, 1.0], dtype="Float64")),
         ),
-        (
-            "var",
-            Series(
-                pd.array(
-                    [1.0, 2.0, 3.0, np.nan, 4.0, 5.0], dtype=pd.ArrowDtype(pa.float64())
-                )
-            ),
-        ),
         ("any", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         ("all", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
         ("skew", [-1.0, 1.2, -1.1, 1.5, np.nan, 1.0]),
@@ -1419,4 +1346,4 @@ def test_groupby_std_datetimelike():
     td4 = pd.Timedelta("2886 days 00:42:34.664668096")
     exp_ser = Series([td1 * 2, td1, td1, td1, td4], index=np.arange(5))
     expected = DataFrame({"A": exp_ser, "B": exp_ser, "C": exp_ser})
-    tm.assert_frame_equal(result, expected)
+    tm.assert_frame_equal(result, expected)