Page 146 - 고등학교 인공지능 기초
P. 146

3    데이터 전처리



                                               수집한 데이터를 살펴보면 중간에 빠진 곳, 중복된 값, 틀린 값 등이 포함되

                                             어 있을 수 있다. 잘못된 데이터로 인공지능의 학습을 진행하면 시간도 오래 걸
                                             리고 결과물의 성능도 떨어진다.








                                                    잘못된 데이터          인공지능 모델          잘못된 결과







                                                                                                      그림Ⅲ-15
                                                    올바른 데이터          인공지능 모델          올바른 결과       전처리에 따른 학습 성능


                                               따라서 인공지능 학습에 사용되기 전 올바르지 않은 데이터를 수정 및 제거
                                             하고, 학습에 사용될 수 있게끔 가공하는 과정이 필요하다. 이 과정을 데이터 전
                                             처리라고 한다. 데이터 전처리는 인공지능 모델의 성능과 결과에 직접적인 영

                                             향을 미치는 중요한 과정이다.
                      결측값과 이상값의 발생             데이터 전처리에서 가장 중요한 작업은 결측값과 이상값을 처리하는 것이다.
                    결측값과 이상값은 데이터 측정
                                             결측값(missing value)이란 값이 저장되어 있지 않은 값을 의미하고, 이상값
                    과정에서 발생할 수도 있고, 데이
                    터를 저장하고 관리하는 과정에서        (outlier)은 평균치에서 크게 벗어난 값을 의미한다.
                    발생할 수도 있다.
                                               다음과 같은 A역 22시의 승하차 인원의 정형 데이터가 있다고 가정해 보자.





                             지하철 A역 22시 승하차 인원

                           날짜      승차 인원     하차 인원
                           12.9.     128       105
                          12.10.     303       295
                           12.11.    326
                           12.12.    264       283
                          12.13.     157       230
                          12.14.     251       372

                          12.15.     385       1227





                    144    Ⅲ 데이터와 기계학습
   141   142   143   144   145   146   147   148   149   150   151