6일차에는 4 ~ 5일차에 단백질 변형으로 생기는 유전자 변형 SUBCLASS를 찾은 것들로 데이터를 뽑아내고, 그 데이터를 바탕으로 model을 학습시키고 그 model과 전체 데이터 모델을 통해서 앙상블로 모델의 성능을 높이는 작업을 진행하였습니다.
이는 변형된 단백질을 구글 시트로 정리하였고, 빈도를 알 수 있었다.
이 빈도를 가지고 적은 빈도를 버림의로써 데이터 전처리를 진행하였지만, 보기 좋게 실패하였다.
이는 주어진 자료들을 갖고 어떻게 모델을 학습시킬지와, 전처리 성능을 향상시키기 위해 진행한 코드들이다. (앙상블)
6일차에는 그래도 성능을 향상시키고, 앙상블이 정상적으로 진행이 되어 최종적으로 우리의 점수가 오르게 되었다. 아무래도 인공지능에 대해서 그렇게 많은 걸 알지 못한 상태에서 맨땅에 헤딩을 하였는데 충분히 좋은 결과를 얻은 거 같다. 각자가 좋은 아이디어들을 내세우고, 하나씩 해결해가는 과정에서 모델의 성능을 올릴 수 있어 좋았다.