Page 162 - 고등학교 인공지능 기초
P. 162

3    데이터 시각화와 핵심 속성 추출



                      전처리                      문제를 해결하려면 전처리 과정을 거친 데이터를 준비해야 한다. 여기서는
                    데이터를 준비할 때 유효하지 않은
                                             ‘당도’, ‘아삭함’, ‘붉은 정도’, ‘껍질 두께’를 속성으로 하고 각 식품에 ‘과일’,
                    데이터나 실제와 차이가 있는 데이
                    터를 정리하는 것을 말한다. 전처       ‘단백질’, ‘채소’라는 레이블을 붙인 다음과 같은 데이터를 준비했다.
                    리를 어떻게 하느냐에 따라 결과에
                    서도 큰 차이가 나타날 수 있다.
                                                              이름       당도      아삭함      붉은 정도    껍질 두께     종류
                                                              사과        10       9        10       3       과일
                                                             베이컨        1        4        9        3       단백질
                                                             바나나        10       1        2        6       과일
                                                              당근        5        10       8        3       채소
                                                             샐러리        3        10       2        1       채소
                                                              치즈        1        1        4        1       단백질

                                                             양배추        4        7        4        2       채소
                                                               감        7        8        9        4       과일
                                                             닭가슴살       5        5        2        1       단백질
                                                            삶은 계란       3        3        5        3       단백질
                                                             토마토        6        4        10       3        ?
                                                                                그림Ⅲ-24 l 데이터 준비하기
                                               데이터에 포함된 여러 속성 중에서 문제 해결에 적합한 핵심 속성을 선택해

                                             야 모델의 성능을 높일 수 있다. 핵심 속성이 무엇인지 파악하려면 테이블 형태
                                             로 되어 있는 데이터를 시각화하는 방법이 유용하다.
                                               ‘당도’와 ‘아삭함’의 속성을 이용하여 데이터를 점그래프로 시각화해 보면

                                             채소, 과일, 단백질의 분포가 무리 지어 나타나므로 당도와 아삭함은 핵심 속성
                                             으로 선택하기 적합하다.


                                                 9  양상추          샐러리          당근                               사과
                                             채소
                                                 8         오이    콩            양파           감
                                                 7                      양배추                       참외    수박     배
                                                 6
                                            아삭함  5         배추    견과류                              포도
                                                 4  베이컨                       닭가슴살   토마토
                                                 3         새우    삶은 계란                     오렌지
                                                 2         소시지                                          멜론
                                                  1  치즈          고등어                                           바나나
                                                   1      2     3      4     5      6     7      8     9
                                                          단백질                   당도                과일

                                                                       그림Ⅲ-25 l 당도와 아삭함의 관계


                    160    Ⅲ 데이터와 기계학습
   157   158   159   160   161   162   163   164   165   166   167