Page 147 - 고등학교 인공지능 기초
P. 147
12월 11일의 하차 인원은 입력되지 않았으므로 결측값이다. 또 하차 인원의
평균값에서 크게 벗어난 12월 15일의 하차 인원은 이상값이라 할 수 있다. 이 경
우 관측이 잘못되었을 수도 있고, 혹은 15일에 A역 근처에 큰 행사나 축제 등이
열려 실제로 하차 인원이 많았을 수도 있지만, 특별한 날에 일시적으로 발생한
데이터는 모델을 왜곡시킬 수 있으므로 학습에 사용하지 않는 것이 일반적이다.
여기서 제시된 데이터는 7개뿐이지만, 실제로 인공지능이 학습하는 데이터
는 수백에서 수천만 개에 달할 수 있다. 데이터가 많을수록 결측값이나 이상값
을 일일이 발견하기 힘들어지므로 데이터 시각화를 통해 찾는 방법이 많이 사
용된다.
지하철 A역 22시 일자별 하차 인원
1400
1227
1200
A역의 일자별 하차 인원을 막대 이상값
1000
그래프로 그리면 12월 11일에 결측
하차 인원 800 값이 발생한 것을 쉽게 확인할 수
있다.
600
400 372
295 283
결측값 230
200
105 그림Ⅲ-16
0 데이터 시각화로 결측값, 이상값 발견하기
12.9. 12.10. 12.11. 12.12. 12.13. 12.14. 12.15.
결측값이나 이상값을 해결하는 가장 일반적인 방법은 제거와 치환이다. 제거 평균값
측정값을 전부 더하여 그 개수로
는 결측값이나 이상값이 포함된 데이터를 삭제하는 것이고, 치환은 해당 속성을 나눈 값이다.
대표할 수 있는 다른 값으로 대체하는 것이다. 속성의 성격과 해당 값이 발생한
중앙값
원인에 따라 평균값 , 중앙값 , 최빈값 등으로 대체한다. 자료를 크기 순서대로 배열했을
비정형 데이터도 잘못된 값이 있을 수 있다. 이미지 데이터를 수집했는데 레 때, 중앙에 위치하는 값이다.
이블이 없거나 잘못 들어간 경우가 발생하기 때문이다. [그림Ⅲ-17]에서 두 번째 최빈값
이미지는 레이블이 잘못된 데이터이고 네 번째 이미지는 레이블이 없는 데이터 주어진 자료 중 가장 많은 빈도로
나타나는 값이다.
이다.
잘못된 비정형 데이터를 학습에 사
용하면 학습 정확도도 떨어지고 잘못
된 결과가 나올 수 있기 때문에 올바
른 레이블로 수정해야 한다.
그림Ⅲ-17 l 올바른 레이블의 중요성
145
2. 정형 데이터와 비정형 데이터