def make_preprocessor(features):
    ...

from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ('standard_scaler', numeric_preprocessor, numeric_columns)
])


def make_preprocessor(features):
    from sklearn.compose import ColumnTransformer

    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])


import pandas as pd
fake_features = pd.read_csv('../data/planes.csv')


preprocessor = make_preprocessor(fake_features)

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/var/folders/9w/9m3mzyd96fbdm8q4sy2pjpdw0000gn/T/ipykernel_61981/3965947682.py in <module>
----> 1 preprocessor = make_preprocessor(fake_features)

/var/folders/9w/9m3mzyd96fbdm8q4sy2pjpdw0000gn/T/ipykernel_61981/2727407406.py in make_preprocessor(features)
      3 
      4     preprocessor = ColumnTransformer([
----> 5         ('one-hot-encoder', categorical_preprocessor, categorical_columns),
      6         ('standard_scaler', numeric_preprocessor, numeric_columns)
      7     ])

NameError: name 'categorical_preprocessor' is not defined


def make_preprocessor(features):
    from sklearn.compose import ColumnTransformer
    from sklearn.preprocessing import OneHotEncoder, StandardScaler
    
    categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
    numeric_preprocessor = StandardScaler()
    
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns

    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])


preprocessor = make_preprocessor(fake_features)


preprocessor


type(preprocessor)

NoneType


from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

def make_preprocessor(features):
    categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
    numeric_preprocessor = StandardScaler()
    
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns

    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])
    
    return preprocessor


preprocessor = make_preprocessor(fake_features)
preprocessor

ColumnTransformer(transformers=[('one-hot-encoder',
                                 OneHotEncoder(handle_unknown='ignore'),
                                 Index(['tailnum', 'type', 'manufacturer', 'model', 'engine'], dtype='object')),
                                ('standard_scaler', StandardScaler(),
                                 Index(['year', 'engines', 'seats', 'speed'], dtype='object'))])


type(preprocessor)

sklearn.compose._column_transformer.ColumnTransformer


import numpy as np
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

def get_features_and_target(csv_file, target_col):
    '''Split a CSV into a DF of numeric features and a target column.'''
    adult_census = pd.read_csv(csv_file)
    
    raw_features = adult_census.drop(columns=target_col)
    numeric_features = raw_features.select_dtypes(np.number)
    feature_cols = numeric_features.columns.values

    features = adult_census[feature_cols]
    target = adult_census[target_col]
    return (features, target)

def make_preprocessor(features):
    '''Create a column transformer that applies sensible preprocessing procedures.'''
    categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
    numeric_preprocessor = StandardScaler()
    
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns

    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])
    return preprocessor


import my_module

features, target = my_module.get_features_and_target(
    csv_file='../data/adult-census.csv',
    target_col='class',
)

# Drop education-num as discussed before, because it's redundant.
features = features.drop('education-num', axis=1)

preprocessor = my_module.make_preprocessor(features)


from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestRegressor

# If we want a logistic regression
model = make_pipeline(preprocessor, LogisticRegression())
# or perhaps we prefer a random forest?
#model = make_pipeline(RandomForestRegressor())


from sklearn.model_selection import train_test_split

# one small addition: the target column is encoded as a string in our data so we need to convert to 1s and 0s.
target = target.str.contains('>50K').astype(int)

X_train, X_test, y_train, y_test = train_test_split(features, target, random_state=123)

# fit our model
_ = model.fit(X_train, y_train)

# score on test set
model.score(X_test, y_test)

0.7988698714274015


def make_preprocessor(features):
    '''Create a column transformer that applies sensible preprocessing procedures.'''
    categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
    numeric_preprocessor = StandardScaler()
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns
    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])
    return preprocessor


def make_preprocessor(features, categorical_preprocessor, numeric_preprocessor):
    '''Create a column transformer that applies sensible preprocessing procedures.'''
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns
    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])
    return preprocessor


# Will work the same as the original
preprocessor = make_preprocessor(
    fake_features,
    categorical_preprocessor=OneHotEncoder(handle_unknown="ignore"),
    numeric_preprocessor=StandardScaler(),
)


from sklearn.preprocessing import Normalizer, OrdinalEncoder
# Uses different strategies
preprocessor = make_preprocessor(
    fake_features,
    categorical_preprocessor=OrdinalEncoder(),
    numeric_preprocessor=Normalizer(),
)


preprocessor = make_preprocessor(fake_features)

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/var/folders/9w/9m3mzyd96fbdm8q4sy2pjpdw0000gn/T/ipykernel_61981/3965947682.py in <module>
----> 1 preprocessor = make_preprocessor(fake_features)

TypeError: make_preprocessor() missing 2 required positional arguments: 'categorical_preprocessor' and 'numeric_preprocessor'


def make_preprocessor(features, categorical_preprocessor=None, numeric_preprocessor=None):
    '''Create a column transformer that applies sensible preprocessing procedures.'''
    
    if categorical_preprocessor is None:
        categorical_preprocessor = OneHotEncoder(handle_unknown='ignore')
    if numeric_preprocessor is None:
        numeric_preprocessor = StandardScaler()
        
    numeric_columns = features.select_dtypes(exclude=object).columns
    categorical_columns = features.select_dtypes(include=object).columns
    preprocessor = ColumnTransformer([
        ('one-hot-encoder', categorical_preprocessor, categorical_columns),
        ('standard_scaler', numeric_preprocessor, numeric_columns)
    ])
    return preprocessor


preprocessor = make_preprocessor(fake_features)


import my_module

features, target = my_module.get_features_and_target(
    csv_file='../data/adult-census.csv',
    target_col='class',
)
features = features.drop('education-num', axis=1)
target = target.str.contains('>50K').astype(int)

preprocessor = my_module.make_preprocessor(features, numeric_preprocessor=Normalizer())
model = make_pipeline(preprocessor, LogisticRegression())

X_train, X_test, y_train, y_test = train_test_split(features, target, random_state=123)

_ = model.fit(X_train, y_train)
model.score(X_test, y_test)

0.7806076488412087

Modular Code, Part 2¶

Writing a Preprocessor Function¶

Remember GitHub?¶

Questions¶