【Season3-24】Binary Prediction of Smoker Status using Bio-Signals【データコンペ05】

コンペ概要

Your Goal: For this Episode of the Series, your task is to use binary classification to predict a patient's smoking status given information about various other health indicators. Good luck!

コンペ概要
- コンペ詳細
学習の目的
- 選択理由
- 目標・目的
分析
振り返り
反省点
最後に

コンペ詳細

目標

smoking is the binary target
喫煙者かどうか

not smoker：0
smoker：１

データ

train.csv
test.csv
sample_submission.csv

課題種別：分類
学習データサンプル数： 159256
説明変数の数：23
欠損値：なし

Column	Dtype	Explanation
id	int64	ID
age	int64	年齢
height(cm)	int64	身長
weight(kg)	int64	体重
waist(cm)	float64	ウエスト
eyesight(left)	float64	視力(左)
eyesight(right)	float64	視力(右)
hearing(left)	int64	聴力(左)
hearing(right)	int64	聴力(右)
systolic	int64	血圧(高)
relaxation	int64	血圧(低)
fasting blood sugar	int64	空腹時血糖
Cholesterol	int64	コレステロール
triglyceride	int64	中性脂肪
HDL	int64	コレステロールの種類
LDL	int64	コレステロールの種類
hemoglobin	float64	ヘモグロビン
Urine protein	int64	尿タンパク
serum creatinine	float64	血清中クレアチニン
AST	int64	アスパラギン酸アミノトランスフェラーゼ
ALT	int64	アラニンアミノトランスフェラーゼ
Gtp	int64	γ-GTP
dental caries	int64	虫歯
smoking	int64	喫煙(目的変数)

評価指標

Submissions are evaluated on area under the ROC curve between the predicted probability and the observed target.

AUC：0から1までの値をとり、値が1に近いほど判別が高い。
判別がランダムであるとき、AUC = 0.5

情報公開ポリシー

A Data Access and Use.
Competition Use and Commercial: You may access and use the Competition Data for any purpose, whether commercial or non-commercial, including for participating in the Competition and on Kaggle.com forums, and for academic research and education.

A データのアクセスと使用。
コンテストでの使用および商用: お客様は、コンテストや Kaggle.com フォーラムへの参加、学術研究や教育など、商用か非商用かを問わず、あらゆる目的でコンテストデータにアクセスして使用することができます。

学習の目的

選択理由

SIGNATEでコンペに参加をしたのでKaggleでも参加してコンペの幅を広げるため
簡単めであるPlayground Seriesから最新のコンペを選択

目標・目的

Kaggleに慣れる
前回振り返ったデータの確認やそこからの予測
順位的なことは気にしない

分析

コンペの流れ

ベースライン作成
とりあえず全体を粗削りながらも通してやってみる。そこで問題点や注意点に気づくもよし。とりあえず流れを抑える。
データの確認
データを詳しく確認しながら予測を立てる。(重点的に意識)
特徴量生成
有効な特徴量を作る。振り返りで特徴の作り方など見ていくのでなんとなくで。(振り返りはここを意識)
振り返り
一番大事な奴。英語なので読むのは大変かもしれないが公開されるであろうコードを読み解いていきたい。

ベースライン作成

簡易的なデータの確認をしてからベースラインの作成をしていきます。データが大きいのでメモリを削減するコードを実行しています。

気になる点はinfo()で確認した型の揺れ。おそらくメモリ削減の際に揺れてしまったのでしょう。これはいいことなのか。いまいち判断しかねます。

今回の場合describe()で確認した際にmeanがnan表記になっていたことを考えるとよくなかったかもしれません。おそらく桁数が大きすぎた結果?

欠損値は前もってあった情報通りなし。

>コードを表示する

df_train.info()
"""
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   id                   159256 non-null  int32  
 1   age                  159256 non-null  int8   
 2   height               159256 non-null  int16  
 3   weight               159256 non-null  int16  
 4   waist                159256 non-null  float16
 5   eyesight(left)       159256 non-null  float16
 6   eyesight(right)      159256 non-null  float16
 7   hearing(left)        159256 non-null  int8   
 8   hearing(right)       159256 non-null  int8   
 9   systolic             159256 non-null  int16  
 10  relaxation           159256 non-null  int16  
 11  fasting blood sugar  159256 non-null  int16  
 12  Cholesterol          159256 non-null  int16  
 13  triglyceride         159256 non-null  int16  
 14  HDL                  159256 non-null  int16  
 15  LDL                  159256 non-null  int16  
 16  hemoglobin           159256 non-null  float16
 17  Urine protein        159256 non-null  int8   
 18  serum creatinine     159256 non-null  float16
 19  AST                  159256 non-null  int16  
 20  ALT                  159256 non-null  int16  
 21  Gtp                  159256 non-null  int16  
 22  dental caries        159256 non-null  int8   
 23  smoking              159256 non-null  int8   
dtypes: float16(5), int16(12), int32(1), int8(6)
"""

df_train["waist(cm)"].describe()
"""
count    159256.0
mean          NaN
std           0.0
min          51.0
25%          77.0
50%          83.0
75%          89.0
max         127.0
"""

df_train.isnull().sum()
"""
id                     0
age                    0
height                 0
weight                 0
waist                  0
eyesight(left)         0
eyesight(right)        0
hearing(left)          0
hearing(right)         0
systolic               0
relaxation             0
fasting blood sugar    0
Cholesterol            0
triglyceride           0
HDL                    0
LDL                    0
hemoglobin             0
Urine protein          0
serum creatinine       0
AST                    0
ALT                    0
Gtp                    0
dental caries          0
smoking                0
"""

目標値であるsmokingのばらつきはそこまで大きくないといえるでしょう。
ベースラインの説明変数には血圧や肥満度に関係がある特徴量を3つ‘["systolic","triglyceride","HDL",]`選択し進めていきます。

>コードを表示する

df_train["smoking"].mean()
#0.4373649972371528

#バリデーション検証用に分ける
df_train2, df_val2 = train_test_split(df_train, stratify=df_train["smoking"], test_size=0.2, shuffle=True, random_state=123)
print([i.shape for i in [df_train2, df_val2]])
#[(127404, 24), (31852, 24)]

#データセット作成
df_X = df_train2[["systolic","triglyceride","HDL",]].reset_index(drop=True)
df_y = df_train2["smoking"].reset_index(drop=True)
df_id = df_train2["id"]

#クロスバリデーション
n_sp = 5
cv = list(StratifiedKFold(n_splits=n_sp, shuffle=True, random_state=123).split(df_X, df_y))

#0番目でベースラインの動きを確認していく
idx_tr, idx_val = cv[0][0], cv[0][1]
X_tr, y_tr = df_X.loc[idx_tr, :], df_y[idx_tr]
X_val, y_val = df_X.loc[idx_val, :], df_y[idx_val]

#パラメータ設定
params = {
    "boosting_type":"gbdt",
    "objective":"binary",
    "metric":"auc",
    "learning_rate":0.1,
    "num_leaves":16,
    "n_estimators":100000,
    "random_state":123,
    "importance_type":"gain",
}

#モデル学習
model = lgb.LGBMClassifier(**params)
model.fit(X_tr, y_tr,
         eval_set=[(X_tr, y_tr), (X_val, y_val)],
         callbacks=[lgb.early_stopping(stopping_rounds=100, verbose=True),lgb.log_evaluation(100)])

#予測値を確認
y_tr_pred = model.predict_proba(X_tr)[:,1]
y_val_pred = model.predict_proba(X_val)[:,1]
metric_tr = roc_auc_score(y_tr, y_tr_pred)
metric_val = roc_auc_score(y_val, y_val_pred)
print(metric_tr, metric_val)
#0.7513092442000292  , 0.7272637686362399


#バリデーション検証用でも確認
X_val2 = df_val2[["systolic","triglyceride","HDL",]].reset_index(drop=True)
y_val2 = df_val2["smoking"].reset_index(drop=True)
id_val2 = df_val2["id"]
y_val2_pred = model.predict_proba(X_val2)[:, 1]
metric_val2 = roc_auc_score(y_val2, y_val2_pred)
metric_val2
#0.7264151531371679
#問題なさそう

問題なくベースラインができたので重要度も確認します。中性脂肪の値がかなり大きい重要性ということがわかったのでこれも踏まえてデータの確認をしていきます。

>コードを表示する

imp_ = imp.groupby("col")["imp"].agg(["mean","std"])
imp_
"""
                      mean          std
col                                    
HDL           13551.274965  1251.490273
systolic       9119.807292  1039.384337
triglyceride  83395.361876  1646.819116
"""

データの確認

smoking

目的変数。喫煙しているかどうか。
2値のカテゴリ。
先述した通り少しだけ偏りがあり、43%ほどが喫煙していることが確認できます。無難に等しい割合で訓練データ、テストデータに分けておくのが無難だと思われます。
ちなみに日本人の喫煙率は16.7%だそう。

>コードを表示する

df_train["smoking"].mean()
#0.4373649972371528

id

ID。インデックスとして使用。

age

年齢。int属性。

ヒストグラムを確認すると40代だけ突出しています。これは集計方法に問題を抱えていそうな予感。

目的変数別にみてみると40代以下では50%を超え、年齢が上がっていくにつれて下がる傾向に見えます。

年代別で確認してみると右肩下がりなことが確認できます。

height(cm)

身長。

170cmあたりを中心にわりかし左右に等しい山。身長は正規分布に従いやすいそうなので当然っちゃ当然なのかもしれません。

目的変数別のヒストグラムでは大きく違いがあります。中央値が160,170なので男女での喫煙率の違いとみても良さそうです。日本人の場合、男女別の喫煙率は男性 27.1％、女性 7.6％。有用な説明変数ぽそう。

weight(kg)

体重。int。

こちらも男女混合のヒストグラムなのだろう。

体重もが慎重と同様に重いほうが喫煙率は高い傾向にあることがわかります。ただ身長と体重は相関が高い可能性があるので注意が必要かもしれません。

waist(cm)

ウエスト。float64。

こちらも正規分布に近い。

わずかではあるがずれがある。身長ほどは男女でみてもそこまで大きな差はないのかもしれない。
わずかなずれがあるデータは二乗などのデータ変換を使えば顕著に表れるのかもしれない。

eyesight(left),eyesight(right)

視力(左)、視力(右)。float64。どちらも似たようなデータだったのでまとめ。
0~2に収まりそうだがヒストグラムでは左に寄っている。
確認してみると9.9という値がある。視力9.9はどこかの部族であれば可能性としては有り得るが現実的ではないので欠損値であると判断。
中央値を代入し、9.9であったところはフラグを立てて情報が失われないように対処しました。

>コードを表示する

df_train2["eyesight(right)"].value_counts()
"""
eyesight(right)
1.0    30437
1.2    29046
1.5    16697
0.9    12526
0.8    12408
0.7     9746
0.6     5354
0.5     4648
0.4     2855
0.3     1685
0.2      845
0.1      625
2.0      421
9.9       91
1.6       15
1.3        3
1.4        2
"""

#9.9のところにフラグを立てる
df_train2["eyesight_left_flag"] = np.where(df_train2["eyesight(left)"] == 9.9,1,0)

hearing(left),hearing(right)

聴力(左)、聴力(右)。int64。どちらも似たようなデータだったのでまとめ。

intだが数値ではなくカテゴリととらえるほうがよさそうです。聞こえた聞こえないの2値分類であると思われます。割合で比べると1のほうが10ポイント程高くなっています。

>コードを表示する

df_train[df_train["hearing(right)"]==1]["smoking"].mean()
#0.44019649447680775
df_train[df_train["hearing(right)"]==2]["smoking"].mean()
#0.3193029490616622

この2つの間には年齢の違いがあります。喫煙による聴力の低下かもしれませんが、年齢による聴力の低下ととらえるほうがいいかもしれません。年齢でうまく効かない場合、こちらを特徴として採用してもいいかもしれないということ。

systolic

int64。血圧(高)。喫煙による血管が固くなることで血圧が上がりやすくなるのだそう。しかし喫煙後15分があがりやすかったりといろいろな情報がある。

高血圧と呼ばれる状態が上が140以上らしいです。そこあたりに注目してもそこまで大きな変化はなく似たような分布。

relaxation

int64。血圧(低)。こちらも血圧(高)と同様。
高血圧は下の場合、90以上。こちらもいまいちな気がします。血圧の数値は他と組み合わせて使うほうが有効な気がします。

fasting blood sugar

int64。空腹時血糖。
喫煙の空腹時血糖に及ぼす影響は肥満度により異なるそうです。BMIを作って掛け算して使うと効果的かもしれません。

Cholesterol

int64。コレステロール。

あまり参考になる情報は見つけられず。調べても調べてもHDLとLDLしか出てきません。
おそらく肥満度に関係あるので有用...か?

triglyceride

int64。中性脂肪。基本的に中性脂肪の増加は暴飲暴食。そこからさらに喫煙によって中性脂肪の増加を促されるそうです。

基準値は30~149。グラフでは100を超えたあたりから割合的にはかなり高くなっています。

よりわかりやすく50ずつに区切って集計してみたところ右肩上がりなのがよくわかります。400以上は母数の少なさによって100%をたたき出しています。

HDL

int64。コレステロールの種類。喫煙によって低下する値。

たしかに山が左にずれています。基準値は40。それ以下で異常値なのでそこのフラグを立ててもいいかもしれません。

LDL

int64。コレステロールの種類。HDLとセットで語られがち。こちらは喫煙によって上昇する値。

あまりにヒストグラム上で左に寄っていたので箱ひげ図です。外れ値が多くほどんどが250以内に収まっている中で1700を超えています。

500以上の値を500にクリップしました。もう少し小さい値でクリップしたほうがいいのかはわかりません。120以上で注意、150以上で危険というあたいなのでそこらへんでフラグを立ててみてもいいかもしれません。

hemoglobin

float64。ヘモグロビン。喫煙によってヘモグロビンが一酸化炭素と結合するため全身への酸素の供給量が減少し、その結果、ヘモグロビンが増加する代償現象が起こるそうです。

かなり右側に喫煙者が寄っているので有用な説明変数のひとつととらえていいでしょう。

右肩上がりなことがよくわかります。さらには13以下であれば喫煙の割合はかなり低いので有用な変数といえるでしょう。

Urine protein

int64。尿タンパク。喫煙は血管を収縮させて腎臓の血流量を落としますし、血管そのものの障害も起こします。その結果、タンパク尿を増やす、そうです。
数値というよりはカテゴリ属性にみえます。割合に大きく差があるので別のグラフで見てみます。

喫煙割合をカテゴリ別にみてみると40%前後を推移しています。6では0となっていますが母数が少ない(6)のであまり気にしなくてもよさそうです。あまり有用そうには見えない。

>コードを表示する

df_train["Urine protein"].value_counts()
"""
Urine protein
1    150862
2      5609
3      2228
4       477
5        74
6         6
"""

serum creatinine

float64。血清中クレアチニン。主に腎機能に関係している。

ほぼほぼ0~2に収まっています。カテゴリではなく数値データ。扱いに困るデータ。どうすればいいのでしょうか。

AST

int64。アスパラギン酸アミノトランスフェラーゼ。肝細胞のひとつ。肝臓に障害が起こって肝細胞が壊れると、増加する。

こちらも値が大きすぎたので最大値100でクリップしました。ぱっとみそこまでわかりやすさがある変数ではないです。

大きく見ると上がっているように見えるが50%あたりを推移しながら分散が大きいのを確認。単体では使いにくそうです。基準値は40以内。

ALT

int64。アラニンアミノトランスフェラーゼ。肝細胞のひとつ。肝臓に障害が起こって肝細胞が壊れると、増加する。 ASTとセット。

こちらも最大値150でクリップしたグラフ。

こちらも分散がおおきいです。単体では使いにくいのでセットであるASTと使うとよさそうです。比率とかで。肝障害の場合、ALT > ASTだそうです。基準値は40以内。

Gtp

int64。γ-GTP。肝臓に中性脂肪がたまりそれが原因で起こった肝炎でも、γ-GTP値が上昇することがわかってきました。

あまりに外れ値が大きかったのでこちらも最大値200にクリップしたグラフ。男性の場合基準値は80以内ですが25以上ですでに大きい割合の変化が確認できます。

右肩上がりで割合が上がっています。かなり有用な変数であると思われます。
男性：80 IU/L以下、女性：30 IU/L以下が基準値。25を超えたあたりから上がっていることを考えると女性の喫煙者が割合を挙げている要因かと考えられます。

dental caries

int64。虫歯。喫煙は虫歯が発生しやすい口腔環境を作りやすい傾向にあるそうです。　

0/1のカテゴリデータ。おそらく1が虫歯がある状態であると考えられます。

dental caries
0    0.410934
1    0.545284

割合でみると少しではありますが偏りがあります。

ヒートマップ

対になっている関係(視力や血圧)、身長と体重などの相関があることがわかります。多重共線性を気を付けるラインが相関係数0.8以上なので注意して進めていきます。

仮説

男女での違いが大きく喫煙率に違いが出てきそうです。なので身体的特徴であるheight,weight,waistを特徴量にするとよさそうです。ただこれらは相関関係が高いので様子を見ながら採用していきたいところ。
大きく違いが出ていたtriglyceride,hemoglobin,Gtpの血液で違いが出るものは男女に大きな違いがないと思われるので差が表れそうです。
視力や聴力は微妙な可能性。年齢の低下によるものがあるから扱いは慎重に。
肥満度が喫煙に関係していそう。というよりかは喫煙することによって運動量の低下、食事量の増加などによって結果的に肥満になるというほうが正しい気がする。

特徴量生成

BMI

ボディマス指数と呼ばれ、体重と身長から算出される肥満度を表します。聞き馴染みのある指数です。
BMI = weight(kg) / (height(m) ** 2)

LH_ratio

LDLとHDLの比率。この比率が2倍あると動脈硬化が疑われる水準なのだそう。
LH_ratio = LDL / HDL

blood_pressure

血圧の割合。
blood_pressure = systolic / relaxation

height_weight_ratio

身長と体重の割合
height_weight_ratio = height / weight

AST_ALT_flag

ASTがALTより多いと注意が必要だそう。フラグ。

各項目の異常値

危険の水準で血液の各項目をフラグ。

クラスタリング

テストデータを含めてオリジナルデータで3つにクラスタリング。

サブミット

モデル：LightGBM, RogisticRegression
スコア： Private Score：0.86749 → Public Score：0.87082
順位：730 → 849 / 1,908 teams

説明変数

仮説を立てたとおり、height,triglyceride,hemoglobin,Gtpの説明変数はLightGBM,LRの両モデルで有用な説明変数でした。目標であったデータを確認して予測を立てるという点はなかなかうまくいったかなと思います。
異常値でフラグをたてたりなどデータの確認をしたことで新しい変数を作成することができました。これもまたデータの確認からうまくいったことのひとつ。
Kmeans法でクラスター分けをしてみたが変数の重要度はかなり低く、全然うまくいっていないといっていきませんでした。クラスターの分け方がよくなかったのか、扱いが違うのか、振り返りで確認したいところです。

>コードを表示する

#LightGBMでの重要度
                              mean          std
col                                            
height               230236.245681  1963.865971
hemoglobin           111822.389948  1493.413302
Gtp                   85591.096288  1547.107997
triglyceride          52950.610535  2221.624745
age                   27003.209775   481.522253
LDL                   18499.051764   876.251945
HDL                   14346.834616   920.697162
ALT                   13063.982604  1063.051949
Cholesterol           12655.183211  1381.996003
AST                   10549.871545   977.834478
fasting blood sugar    9659.654587  1458.702658
systolic               9183.852456  1003.316326
serum creatinine       8767.275163   308.792378
BMI                    8722.125753   682.647889
waist                  7502.133958  1108.884521
relaxation             7431.597120   747.580701
LH_ratio               6699.752105  1170.235503
height_weight_ratio    6689.054648   813.019431
dental caries          4803.395961   167.715260
cluster                1083.648052   266.704062


#LogisticRegressionの重要度
                          mean       std
col                                     
Gtp                   0.699270  0.003931
hemoglobin            0.664997  0.002756
height                0.657711  0.002681
triglyceride          0.571919  0.012583
LH_ratio              0.253378  0.017781
systolic              0.247768  0.022906
dental caries         0.147755  0.003191
fasting blood sugar   0.102822  0.002805
AST_ALT_flag          0.082924  0.002167
LDL_over_120          0.063078  0.003645
age_45               -0.006562  0.003478
HDL_under_40         -0.010447  0.002554
Cholesterol          -0.053580  0.023369
triglyceride_150_200 -0.100361  0.005491
triglyceride_200_500 -0.131696  0.003226
BMI                  -0.193791  0.002611
Gtp_over_80          -0.198439  0.002963
blood_pressure       -0.314939  0.018283
relaxation           -0.398663  0.027083
LDL                  -0.421460  0.032356

モデル

コンペ中のDiscussionでは私と同様LightGBMを使っていた人をたくさん見かけました。そこではほとんどの人が元々のすべての説明変数に加えてに新たな変数を加えてモデルを学習していました。
LightGBMでは重要度が0になることもあるのでそこらへんは加えてみるのも手なのかもしれません。
アンサンブルで2つのモデルでを合わせてみましたが、いまいちロジスティック回帰のモデルは精度が向上しませんでした。アンサンブルの比率も9:1でいいスコアが出たのでもう少しスコアを向上させてから合わせたかったです。

結果について

順位は大きく下がりましたがスコアは伸びたのでまあよしという感じでとらえています。
今回は慣れることが第一だったので今回のことを生かして次回以降は順位も伸ばせて行けたらと考えています。

振り返り

説明変数

130~140ほどの説明変数を作成。どれもがうまく機能しているわけではないので削除する必要はあったが精査された変数が残る。
変数の作成量がすごい。LightGBMでは加算より乗除が新たな変数を作成するうえでは効きやすいと聞いたのでいろいろ作ったりして試したのでしょう。ここまでいかなくてももっと試すべきでした。
有効な説明変数同士の掛け算も説明変数として有効な場合がある。
カテゴリ変数は回帰する場合も考えてOHEしておく。

モデル

モデルのなかでもパラメータを変えていくつかつくっている。今回のケースであれば身体的特徴だけのモデル、血液の特徴のモデル、それを組み合わせたモデル3つは少なくとも作れたはず。ロジスティック回帰が微妙なのであればLightGBMをアンサンブルしてしまえばよかったのかもしれません。
モデルを複雑にしすぎてはいけない。シンプルなモデルにはパワーがある。格言かもしれない。