Page 147 - 고등학교 인공지능 기초
P. 147

12월 11일의 하차 인원은 입력되지 않았으므로 결측값이다. 또 하차 인원의
                         평균값에서 크게 벗어난 12월 15일의 하차 인원은 이상값이라 할 수 있다. 이 경
                         우 관측이 잘못되었을 수도 있고, 혹은 15일에 A역 근처에 큰 행사나 축제 등이

                         열려 실제로 하차 인원이 많았을 수도 있지만, 특별한 날에 일시적으로 발생한
                         데이터는 모델을 왜곡시킬 수 있으므로 학습에 사용하지 않는 것이 일반적이다.

                           여기서 제시된 데이터는 7개뿐이지만, 실제로 인공지능이 학습하는 데이터
                         는 수백에서 수천만 개에 달할 수 있다. 데이터가 많을수록 결측값이나 이상값
                         을 일일이 발견하기 힘들어지므로 데이터 시각화를 통해 찾는 방법이 많이 사

                         용된다.



                                                    지하철 A역 22시 일자별 하차 인원
                               1400
                                                                                    1227
                               1200
                                                       A역의 일자별 하차 인원을 막대                   이상값
                               1000
                                                       그래프로 그리면 12월 11일에 결측
                              하차 인원  800               값이 발생한 것을 쉽게 확인할 수
                                                       있다.
                                600
                                400                                          372
                                               295            283
                                                     결측값             230
                                200
                                       105                                                      그림Ⅲ-16
                                 0                                                           데이터 시각화로 결측값, 이상값 발견하기
                                       12.9.  12.10.  12.11.  12.12.  12.13.  12.14.  12.15.



                           결측값이나 이상값을 해결하는 가장 일반적인 방법은 제거와 치환이다. 제거                                 평균값
                                                                                                   측정값을 전부 더하여 그 개수로
                         는 결측값이나 이상값이 포함된 데이터를 삭제하는 것이고, 치환은 해당 속성을                                나눈 값이다.
                         대표할 수 있는 다른 값으로 대체하는 것이다. 속성의 성격과 해당 값이 발생한
                                                                                                    중앙값
                         원인에 따라 평균값 , 중앙값 , 최빈값  등으로 대체한다.                                         자료를 크기 순서대로 배열했을

                           비정형 데이터도 잘못된 값이 있을 수 있다. 이미지 데이터를 수집했는데 레                               때, 중앙에 위치하는 값이다.
                         이블이 없거나 잘못 들어간 경우가 발생하기 때문이다. [그림Ⅲ-17]에서 두 번째                              최빈값
                         이미지는 레이블이 잘못된 데이터이고 네 번째 이미지는 레이블이 없는 데이터                                 주어진 자료 중 가장 많은 빈도로
                                                                                                   나타나는 값이다.
                         이다.
                           잘못된 비정형 데이터를 학습에 사
                         용하면 학습 정확도도 떨어지고 잘못

                         된 결과가 나올 수 있기 때문에 올바
                         른 레이블로 수정해야 한다.

                                                                                 그림Ⅲ-17 l 올바른 레이블의 중요성


                                                                                                                   145
                                                                                              2. 정형 데이터와 비정형 데이터
   142   143   144   145   146   147   148   149   150   151   152