[python-package] deprecate support for H2O 'datatable' (#6670)

Co-authored-by: Nikita Titov <nekit94-08@mail.ru>

[python-package] deprecate support for H2O 'datatable' (#6670)
Co-authored-by: Nikita Titov <nekit94-08@mail.ru>
668bf5da · James Lamb · GitHub · 5b675461 · 668bf5da · 668bf5da
Unverified Commit 668bf5da authored Oct 15, 2024 by James Lamb Committed by GitHub Oct 15, 2024
Showing with 26 additions and 10 deletions

docs/Python-Intro.rst docs/Python-Intro.rst +1 -1

python-package/lightgbm/basic.py python-package/lightgbm/basic.py +22 -6

python-package/lightgbm/sklearn.py python-package/lightgbm/sklearn.py +3 -3

No files found.
--- a/docs/Python-Intro.rst
+++ b/docs/Python-Intro.rst
@@ -35,7 +35,7 @@ The LightGBM Python module can load data from:

 -  LibSVM (zero-based) / TSV / CSV format text file

-  NumPy 2D array(s), pandas DataFrame, H2O DataTable's Frame, SciPy sparse matrix
+-  NumPy 2D array(s), pandas DataFrame, H2O DataTable's Frame (deprecated), SciPy sparse matrix

 -  LightGBM binary file


--- a/python-package/lightgbm/basic.py
+++ b/python-package/lightgbm/basic.py
@@ -559,6 +559,15 @@ class LGBMDeprecationWarning(FutureWarning):
    pass


+def _emit_datatable_deprecation_warning() -> None:
+    msg = (
+        "Support for 'datatable' in LightGBM is deprecated, and will be removed in a future release. "
+        "To avoid this warning, convert 'datatable' inputs to a supported format "
+        "(for example, use the 'to_numpy()' method)."
+    )
+    warnings.warn(msg, category=LGBMDeprecationWarning, stacklevel=2)
+
+
 class _ConfigAliases:
    # lazy evaluation to allow import without dynamic library, e.g., for docs generation
    aliases = None
@@ -1086,7 +1095,7 @@ class _InnerPredictor:

        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, pyarrow Table, H2O DataTable's Frame or scipy.sparse
+        data : str, pathlib.Path, numpy array, pandas DataFrame, pyarrow Table, H2O DataTable's Frame (deprecated) or scipy.sparse
            Data source for prediction.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM).
        start_iteration : int, optional (default=0)
@@ -1200,6 +1209,7 @@ class _InnerPredictor:
                predict_type=predict_type,
            )
        elif isinstance(data, dt_DataTable):
+            _emit_datatable_deprecation_warning()
            preds, nrow = self.__pred_for_np2d(
                mat=data.to_numpy(),
                start_iteration=start_iteration,
@@ -1766,7 +1776,7 @@ class Dataset:

        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame, scipy.sparse, Sequence, list of Sequence, list of numpy array or pyarrow Table
+        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, Sequence, list of Sequence, list of numpy array or pyarrow Table
            Data source of Dataset.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM) or a LightGBM Dataset binary file.
        label : list, numpy 1-D array, pandas Series / one-column DataFrame, pyarrow Array, pyarrow ChunkedArray or None, optional (default=None)
@@ -2172,6 +2182,7 @@ class Dataset:
        elif isinstance(data, Sequence):
            self.__init_from_seqs([data], ref_dataset)
        elif isinstance(data, dt_DataTable):
+            _emit_datatable_deprecation_warning()
            self.__init_from_np2d(data.to_numpy(), params_str, ref_dataset)
        else:
            try:
@@ -2598,7 +2609,7 @@ class Dataset:

        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame, scipy.sparse, Sequence, list of Sequence or list of numpy array
+        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, Sequence, list of Sequence or list of numpy array
            Data source of Dataset.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM) or a LightGBM Dataset binary file.
        label : list, numpy 1-D array, pandas Series / one-column DataFrame, pyarrow Array, pyarrow ChunkedArray or None, optional (default=None)
@@ -3255,7 +3266,7 @@ class Dataset:

        Returns
        -------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame, scipy.sparse, Sequence, list of Sequence or list of numpy array or None
+        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, Sequence, list of Sequence or list of numpy array or None
            Raw data used in the Dataset construction.
        """
        if self._handle is None:
@@ -3268,6 +3279,7 @@ class Dataset:
                elif isinstance(self.data, pd_DataFrame):
                    self.data = self.data.iloc[self.used_indices].copy()
                elif isinstance(self.data, dt_DataTable):
+                    _emit_datatable_deprecation_warning()
                    self.data = self.data[self.used_indices, :]
                elif isinstance(self.data, Sequence):
                    self.data = self.data[self.used_indices]
@@ -3456,6 +3468,7 @@ class Dataset:
                elif isinstance(other.data, pd_DataFrame):
                    self.data = np.hstack((self.data, other.data.values))
                elif isinstance(other.data, dt_DataTable):
+                    _emit_datatable_deprecation_warning()
                    self.data = np.hstack((self.data, other.data.to_numpy()))
                else:
                    self.data = None
@@ -3466,6 +3479,7 @@ class Dataset:
                elif isinstance(other.data, pd_DataFrame):
                    self.data = scipy.sparse.hstack((self.data, other.data.values), format=sparse_format)
                elif isinstance(other.data, dt_DataTable):
+                    _emit_datatable_deprecation_warning()
                    self.data = scipy.sparse.hstack((self.data, other.data.to_numpy()), format=sparse_format)
                else:
                    self.data = None
@@ -3483,10 +3497,12 @@ class Dataset:
                elif isinstance(other.data, pd_DataFrame):
                    self.data = concat((self.data, other.data), axis=1, ignore_index=True)
                elif isinstance(other.data, dt_DataTable):
+                    _emit_datatable_deprecation_warning()
                    self.data = concat((self.data, pd_DataFrame(other.data.to_numpy())), axis=1, ignore_index=True)
                else:
                    self.data = None
            elif isinstance(self.data, dt_DataTable):
+                _emit_datatable_deprecation_warning()
                if isinstance(other.data, np.ndarray):
                    self.data = dt_DataTable(np.hstack((self.data.to_numpy(), other.data)))
                elif isinstance(other.data, scipy.sparse.spmatrix):
@@ -4688,7 +4704,7 @@ class Booster:

        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, pyarrow Table, H2O DataTable's Frame or scipy.sparse
+        data : str, pathlib.Path, numpy array, pandas DataFrame, pyarrow Table, H2O DataTable's Frame (deprecated) or scipy.sparse
            Data source for prediction.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM).
        start_iteration : int, optional (default=0)
@@ -4769,7 +4785,7 @@ class Booster:

        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame, scipy.sparse, Sequence, list of Sequence or list of numpy array
+        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, Sequence, list of Sequence or list of numpy array
            Data source for refit.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM).
        label : list, numpy 1-D array, pandas Series / one-column DataFrame, pyarrow Array or pyarrow ChunkedArray

--- a/python-package/lightgbm/sklearn.py
+++ b/python-package/lightgbm/sklearn.py
@@ -1043,7 +1043,7 @@ class LGBMModel(_LGBMModelBase):

    fit.__doc__ = (
        _lgbmmodel_doc_fit.format(
-            X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame , scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
+            X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
            y_shape="numpy array, pandas DataFrame, pandas Series, list of int or float of shape = [n_samples]",
            sample_weight_shape="numpy array, pandas Series, list of int or float of shape = [n_samples] or None, optional (default=None)",
            init_score_shape="numpy array, pandas DataFrame, pandas Series, list of int or float of shape = [n_samples] or shape = [n_samples * n_classes] (for multi-class task) or shape = [n_samples, n_classes] (for multi-class task) or None, optional (default=None)",
@@ -1120,7 +1120,7 @@ class LGBMModel(_LGBMModelBase):

    predict.__doc__ = _lgbmmodel_doc_predict.format(
        description="Return the predicted value for each sample.",
-        X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame , scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
+        X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
        output_name="predicted_result",
        predicted_result_shape="array-like of shape = [n_samples] or shape = [n_samples, n_classes]",
        X_leaves_shape="array-like of shape = [n_samples, n_trees] or shape = [n_samples, n_trees * n_classes]",
@@ -1509,7 +1509,7 @@ class LGBMClassifier(_LGBMClassifierBase, LGBMModel):

    predict_proba.__doc__ = _lgbmmodel_doc_predict.format(
        description="Return the predicted probability for each class for each sample.",
-        X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame , scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
+        X_shape="numpy array, pandas DataFrame, H2O DataTable's Frame (deprecated), scipy.sparse, list of lists of int or float of shape = [n_samples, n_features]",
        output_name="predicted_probability",
        predicted_result_shape="array-like of shape = [n_samples] or shape = [n_samples, n_classes]",
        X_leaves_shape="array-like of shape = [n_samples, n_trees] or shape = [n_samples, n_trees * n_classes]",