증빙사진1.jpeg

안녕하세요. 위 사진은 1일차 모각코의 증빙사진이다.

저희는 오늘 “데이터 전처리” 에 대해 공부를 하였다.

Dacon에서 찾은 대회(2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문)에서 제공하는 데이터 자료들을 colab 이라는 구글의 파이썬 플랫폼을 통해 데이터 전처리 과정을 진행하였습다.

스크린샷 2024-09-04 오후 7.50.22.png

                                                <위 사진은 데이터 자료(csv)를 xlsx로 변환하여 파악>

스크린샷 2024-09-04 오후 7.51.40.png

                                   <앞선 데이터 자료들 중 ‘mkt_vlu’ 이라는 컬룸을 drop(제외) 한 상황>

데이터 전처리 과정에서 drop을 하는 이유 : 똑같은 값들(ex. 영어로 된 이름 : APPLE / 한글로 된 이름 : 애플)은 가중치 값을 가지는데 이들은 중복처리가 되어버림. 그리하여 중복 정보가 있을 때, 두 열을 모두 포함하면 모델이 동일한 정보를 두 번 학습하게 되어 왜곡된 결과를 초래할 수 있습니다. 따라서, 하나의 열만 남기고 다른 열을 삭제하여 중복된 정보를 제거하여 가중치 왜곡을 방지하였음.

첫 주, 첫 날에는 우리가 후에 자연어 처리를 마스터하기 위한 발판으로 ‘데이터 전처리’ 에 대해 알아보고 실제 데이터 자료를 통해 실습을 하며 이해하는 시간을 가졌다.