[python-package] add type hints on raw data passed to Dataset and Booster (#5752)

eb34762e · James Lamb · GitHub · 356a7806 · eb34762e
Unverified Commit eb34762e authored Feb 27, 2023 by James Lamb Committed by GitHub Feb 27, 2023
Show whitespace changes
Inline Side-by-side

Showing with 17 additions and 6 deletions

python-package/lightgbm/basic.py python-package/lightgbm/basic.py +17 -6

No files found.
--- a/python-package/lightgbm/basic.py
+++ b/python-package/lightgbm/basic.py
@@ -35,6 +35,17 @@ _LGBM_BoosterBestScoreType = Dict[str, Dict[str, float]]
 _LGBM_BoosterEvalMethodResultType = Tuple[str, str, float, bool]
 _LGBM_CategoricalFeatureConfiguration = Union[List[str], List[int], str]
 _LGBM_FeatureNameConfiguration = Union[List[str], str]
+_LGBM_TrainDataType = Union[
+    str,
+    Path,
+    np.ndarray,
+    pd_DataFrame,
+    dt_DataTable,
+    scipy.sparse.spmatrix,
+    "Sequence",
+    List["Sequence"],
+    List[np.ndarray]
+]
 _LGBM_LabelType = Union[
    list,
    np.ndarray,
@@ -1400,7 +1411,7 @@ class Dataset:
    def __init__(
        self,
-        data,
+        data: _LGBM_TrainDataType,
        label: Optional[_LGBM_LabelType] = None,
        reference: Optional["Dataset"] = None,
        weight=None,
@@ -1708,7 +1719,7 @@ class Dataset:
    def _lazy_init(
        self,
-        data,
+        data: Optional[_LGBM_TrainDataType],
        label: Optional[_LGBM_LabelType] = None,
        reference: Optional["Dataset"] = None,
        weight=None,
@@ -2146,7 +2157,7 @@ class Dataset:
    def create_valid(
        self,
-        data,
+        data: _LGBM_TrainDataType,
        label: Optional[_LGBM_LabelType] = None,
        weight=None,
        group=None,
@@ -2673,7 +2684,7 @@ class Dataset:
            self.init_score = self.get_field('init_score')
        return self.init_score
-    def get_data(self):
+    def get_data(self) -> Optional[_LGBM_TrainDataType]:
        """Get the raw data of the Dataset.
        Returns
@@ -4016,7 +4027,7 @@ class Booster:
    def refit(
        self,
-        data,
+        data: _LGBM_TrainDataType,
        label,
        decay_rate: float = 0.9,
        reference: Optional[Dataset] = None,
@@ -4034,7 +4045,7 @@ class Booster:
        Parameters
        ----------
-        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame or scipy.sparse
+        data : str, pathlib.Path, numpy array, pandas DataFrame, H2O DataTable's Frame, scipy.sparse, Sequence, list of Sequence or list of numpy array
            Data source for refit.
            If str or pathlib.Path, it represents the path to a text file (CSV, TSV, or LibSVM).
        label : list, numpy 1-D array or pandas Series / one-column DataFrame