Page 146 - 고등학교 인공지능 기초

P. 146

3 데이터 전처리

수집한 데이터를 살펴보면 중간에 빠진 곳, 중복된 값, 틀린 값 등이 포함되

어 있을 수 있다. 잘못된 데이터로 인공지능의 학습을 진행하면 시간도 오래 걸
리고 결과물의 성능도 떨어진다.

잘못된 데이터 인공지능 모델 잘못된 결과

그림Ⅲ-15
올바른 데이터 인공지능 모델 올바른 결과 전처리에 따른 학습 성능

따라서 인공지능 학습에 사용되기 전 올바르지 않은 데이터를 수정 및 제거
하고, 학습에 사용될 수 있게끔 가공하는 과정이 필요하다. 이 과정을 데이터 전
처리라고 한다. 데이터 전처리는 인공지능 모델의 성능과 결과에 직접적인 영

향을 미치는 중요한 과정이다.
결측값과 이상값의 발생 데이터 전처리에서 가장 중요한 작업은 결측값과 이상값을 처리하는 것이다.
결측값과 이상값은 데이터 측정
결측값(missing value)이란 값이 저장되어 있지 않은 값을 의미하고, 이상값
과정에서 발생할 수도 있고, 데이
터를 저장하고 관리하는 과정에서 (outlier)은 평균치에서 크게 벗어난 값을 의미한다.
발생할 수도 있다.
다음과 같은 A역 22시의 승하차 인원의 정형 데이터가 있다고 가정해 보자.

지하철 A역 22시 승하차 인원

날짜 승차 인원 하차 인원
12.9. 128 105
12.10. 303 295
12.11. 326
12.12. 264 283
12.13. 157 230
12.14. 251 372

12.15. 385 1227

144 Ⅲ 데이터와 기계학습

141 142 143 144 145 146 147 148 149 150 151