데이터 전처리 하는 방법을 다르게 해보았다.
먼저 train 과 test 를 wt값을 0으로 한 후 변이가 일어난 부분들(gene, value)를 확인하기로 하였다.
그 과정에서 먼저 전처리한 train, test 파일들을 csv로 저장 후 구글 시트로 확인하도록 하였다.
그 결과 ID마다 중복된 변이 값들을 확인 할 수 있었고, 이를 갖고 이제 어떻게 분류해보기로 했다.
먼저 Train, Test 값을 줄바꿈을 하고, 다시 데이터 값을 추출해서 둘을 비교해보기로 하였다.