from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
import xgboost as xgb
train = pd.read_csv("/content/drive/MyDrive/open (1)/train.csv")
test = pd.read_csv("/content/drive/MyDrive/open (1)/test.csv")
위 부분들은 데이터를 코랩으로 마운트하고 코드 진행하는 데에 필요한 요소들을 import해오는 과정이다
이 코드에서는 중복된 WT값이 많았기 때문에, train과 test데이터에서 모든 값이 WT를 가지는 열을 제거하는 과정을 거쳤다
train_wt_columns = train.columns[(train == 'WT').all()].tolist()
test_wt_columns = test.columns[(test == 'WT').all()].tolist()
print('데이터셋에서 값이 모두 WT인 열 개수')
print('trainSet: ', len(train_wt_columns))
print('testSet: ', len(test_wt_columns))
test_df = test.drop(columns=both_wt_columns, errors='ignore')
train_df = train.drop(columns=both_wt_columns, errors='ignore')
위 코드로 데이터셋에서 train과 test에서 모두 WT인 열들을 삭제해주었다.
느낀점 : 처음에는 쉽지 않을까? 했는데, 가면 갈수록 데이터 자체에 대한 이해도는 물론이고 코드 또한 잘 다루어야한다는 것을 느껴간다 앞으로 열심히 해야겠다는 생각을 한다