Page 162 - 고등학교 인공지능 기초
P. 162
3 데이터 시각화와 핵심 속성 추출
전처리 문제를 해결하려면 전처리 과정을 거친 데이터를 준비해야 한다. 여기서는
데이터를 준비할 때 유효하지 않은
‘당도’, ‘아삭함’, ‘붉은 정도’, ‘껍질 두께’를 속성으로 하고 각 식품에 ‘과일’,
데이터나 실제와 차이가 있는 데이
터를 정리하는 것을 말한다. 전처 ‘단백질’, ‘채소’라는 레이블을 붙인 다음과 같은 데이터를 준비했다.
리를 어떻게 하느냐에 따라 결과에
서도 큰 차이가 나타날 수 있다.
이름 당도 아삭함 붉은 정도 껍질 두께 종류
사과 10 9 10 3 과일
베이컨 1 4 9 3 단백질
바나나 10 1 2 6 과일
당근 5 10 8 3 채소
샐러리 3 10 2 1 채소
치즈 1 1 4 1 단백질
양배추 4 7 4 2 채소
감 7 8 9 4 과일
닭가슴살 5 5 2 1 단백질
삶은 계란 3 3 5 3 단백질
토마토 6 4 10 3 ?
그림Ⅲ-24 l 데이터 준비하기
데이터에 포함된 여러 속성 중에서 문제 해결에 적합한 핵심 속성을 선택해
야 모델의 성능을 높일 수 있다. 핵심 속성이 무엇인지 파악하려면 테이블 형태
로 되어 있는 데이터를 시각화하는 방법이 유용하다.
‘당도’와 ‘아삭함’의 속성을 이용하여 데이터를 점그래프로 시각화해 보면
채소, 과일, 단백질의 분포가 무리 지어 나타나므로 당도와 아삭함은 핵심 속성
으로 선택하기 적합하다.
9 양상추 샐러리 당근 사과
채소
8 오이 콩 양파 감
7 양배추 참외 수박 배
6
아삭함 5 배추 견과류 포도
4 베이컨 닭가슴살 토마토
3 새우 삶은 계란 오렌지
2 소시지 멜론
1 치즈 고등어 바나나
1 2 3 4 5 6 7 8 9
단백질 당도 과일
그림Ⅲ-25 l 당도와 아삭함의 관계
160 Ⅲ 데이터와 기계학습