Page 168 - 고등학교 인공지능 기초
P. 168

4    분류 모델 학습



                                               데이터를 분석했다면 이 중 일부를 훈련 데이터로 선정하고 분류 알고리즘

                                             을 선택하여 모델을 학습시킨다.


                    훈련 데이터      테스트 데이터      1. 훈련 데이터와 테스트 데이터

                                               모델 학습을 위해 사용하는 데이터는 훈련 데이터와 테스트 데이터로 나누

                                             어 학습하고 평가를 진행하는 것이 일반적이다. 훈련 데이터와 테스트 데이터
                                             가 구분되어 있지 않다면, 보통 전체의 80%를 훈련에 사용하고 20%는 테스트
                          전체 데이터             용으로 사용한다. 하지만 비율이나 양이 정해져 있는 것은 아니다. 샘플이 천만
                      그림Ⅲ-28
                    훈련 데이터와 테스트 데이터          개라면 1%만 해도 십만 개이므로 테스트 데이터로 충분하다.



                                             ❶ 훈련 데이터
                      좋은 훈련 데이터                훈련 데이터는 분류 모델이 새로운                   이름      당도    아삭함      종류
                    레이블과 속성값이 편중되어 있지                                               사과       10     9      과일
                                             데이터에 대해 최상의 성능을 내도록
                    않아야 좋은 훈련 데이터라고 할
                                                                                   베이컨       1      4      단백질
                    수 있다. 식품을 과일, 단백질, 채     올바르게 학습할 수 있게 하는 역할을                  바나나       10     1      과일
                    소로 구분하는 문제에 과일의 비
                    중이 지나치게 높거나 과일 중에        한다. 훈련 데이터는 오른쪽 그림과                    당근       5     10      채소
                    서도 당도가 높은 과일의 비중이                                              셀러리       3     10      채소
                                             같이 전체 데이터 중에서 학습에 필요
                    지나치게 높다면 데이터 편향으로                                               치즈       1      1      단백질
                    인해 모델이 왜곡될 수 있다.         한 핵심 속성을 모은 것이다.                       오이       2      8      채소
                                                                                   고등어       3      1      단백질
                      샘플
                                                                                    포도       8      5      과일
                    수집된 데이터 값을 말한다.
                                                                                     콩       3      7      채소
                                                                                   양상추       1      9      채소
                                                                                   견과류       3      6      단백질
                                                                                    새우       2      3      단백질

                                             ❷ 테스트 데이터                                         샘플
                                               테스트 데이터는 기계학습 모델이                    이름      당도     아삭함      종류

                                             얼마나 정확하게 학습하였는지 판단                     참외       8       7      과일
                                                                                   소시지       2       4     단백질
                                             하기 위해 사용하는 데이터이다. 테스                   수박       9       7      과일
                                             트 데이터는 분류 모델이 이전에 본                    양파       5       8      채소
                                                                                    배추       2       5      채소
                                             적이 없는 새로운 샘플로 구성되어 있
                                                                                    멜론       9       2      과일
                                             어야 한다.                                양배추       4       7      채소

                                                                                    감        7       8      과일
                                                                                  닭 가슴살      5       5     단백질
                                                                                  삶은 계란      3       3     단백질



                    166    Ⅲ 데이터와 기계학습
   163   164   165   166   167   168   169   170   171   172   173