Page 168 - 고등학교 인공지능 기초
P. 168
4 분류 모델 학습
데이터를 분석했다면 이 중 일부를 훈련 데이터로 선정하고 분류 알고리즘
을 선택하여 모델을 학습시킨다.
훈련 데이터 테스트 데이터 1. 훈련 데이터와 테스트 데이터
모델 학습을 위해 사용하는 데이터는 훈련 데이터와 테스트 데이터로 나누
어 학습하고 평가를 진행하는 것이 일반적이다. 훈련 데이터와 테스트 데이터
가 구분되어 있지 않다면, 보통 전체의 80%를 훈련에 사용하고 20%는 테스트
전체 데이터 용으로 사용한다. 하지만 비율이나 양이 정해져 있는 것은 아니다. 샘플이 천만
그림Ⅲ-28
훈련 데이터와 테스트 데이터 개라면 1%만 해도 십만 개이므로 테스트 데이터로 충분하다.
❶ 훈련 데이터
좋은 훈련 데이터 훈련 데이터는 분류 모델이 새로운 이름 당도 아삭함 종류
레이블과 속성값이 편중되어 있지 사과 10 9 과일
데이터에 대해 최상의 성능을 내도록
않아야 좋은 훈련 데이터라고 할
베이컨 1 4 단백질
수 있다. 식품을 과일, 단백질, 채 올바르게 학습할 수 있게 하는 역할을 바나나 10 1 과일
소로 구분하는 문제에 과일의 비
중이 지나치게 높거나 과일 중에 한다. 훈련 데이터는 오른쪽 그림과 당근 5 10 채소
서도 당도가 높은 과일의 비중이 셀러리 3 10 채소
같이 전체 데이터 중에서 학습에 필요
지나치게 높다면 데이터 편향으로 치즈 1 1 단백질
인해 모델이 왜곡될 수 있다. 한 핵심 속성을 모은 것이다. 오이 2 8 채소
고등어 3 1 단백질
샘플
포도 8 5 과일
수집된 데이터 값을 말한다.
콩 3 7 채소
양상추 1 9 채소
견과류 3 6 단백질
새우 2 3 단백질
❷ 테스트 데이터 샘플
테스트 데이터는 기계학습 모델이 이름 당도 아삭함 종류
얼마나 정확하게 학습하였는지 판단 참외 8 7 과일
소시지 2 4 단백질
하기 위해 사용하는 데이터이다. 테스 수박 9 7 과일
트 데이터는 분류 모델이 이전에 본 양파 5 8 채소
배추 2 5 채소
적이 없는 새로운 샘플로 구성되어 있
멜론 9 2 과일
어야 한다. 양배추 4 7 채소
감 7 8 과일
닭 가슴살 5 5 단백질
삶은 계란 3 3 단백질
166 Ⅲ 데이터와 기계학습