Page 207 - 고등학교 인공지능 기초
P. 207

2     데이터 편향성이 발생하는 원인



                           데이터 편향성이 발생하는 원인은 크게 현실 세계의 데이터를 편향적으로

                         선택하는 경우와 현실 세계의 데이터 자체가 편향적인 경우로 나눌 수 있다.


                         ❶ 데이터를 선택하는 과정에서 발생

                           데이터를 선택하고 수집하는 과정에서 여러 편향이 반영될 수 있
                         다. 대표적인 예는 지리적 편향이다. 특정 지역에서 수집한 데이터에

                         는 편향이 있기 마련이다. 예를 들어, 우리나라 사람들이 좋아하는 음
                         식에 대한 데이터는 전 세계를 기준으로 보면 편향성이 있는 것이다.
                                                                                              현실 세계           훈련 데이터
                           조사자의 편향적 성향이 개입되기도 한다. 의도적인 결과를 얻고자
                         선별적으로 데이터를 수집하는 경우도 있고, 무의식적으로 자신의 믿                             그림Ⅳ-2 l 데이터 선택 과정에서 발생하는 편향성
                         음과 일치하는 방향으로 수집하기도 한다. 조사자가 편향을 인지하지

                         못한 경우에는 결과가 객관적일 것이라고 믿는 오류를 범하므로 더 큰 문제가
                         될 수 있다.



                         ❷ 데이터를 축적하는 과정에서 발생
                           현실 세계에 편향이 있다면 데이터를 객관적인 과정으로 수집하
                         여도 데이터 편향성이 발생한다.

                           또한, 축적된 데이터는 과거의 의사결정을 반영하고 있으므로 과거
                         의 편향이나 사회적 차별 요소도 쌓이게 된다. 인간의 성 관념이나 평
                                                                                              현실 세계           훈련 데이터
                         등 의식, 민주주의와 자유주의에 대한 생각 등도 시대에 따라 변화하
                         는데, 이러한 변화가 반영되지 못한 훈련 데이터로 학습한 인공지능은                            그림Ⅳ-3 l 데이터 축적 과정에서 발생하는 편향성
                         사회를 따라잡지 못할 뿐 아니라 오히려 사회적 차별이나 편향을 강화할 수 있다.

                                                                                                       잠깐 활동

                             다음 사례와 같은 편향성이 문제가 되는 이유에 대해 생각해 보자.


                               l 사례 l
                               2018년, MIT에서 얼굴 인식 시스템의 정확성에 관한 실험을 하였다. 그 결과 흑인 여성 얼굴의
                               인식률이 가장 낮았고, 백인 남성 얼굴의 인식률이 가장 높았다. 이러한 결과가 나온 이유는 학
                               습 데이터 세트에 흑인 여성의 데이터는 적고 백인 남성 데이터는 많았기 때문이다. 데이터가
                               백인 남성 위주로 편향되어 있었던 것이다.






                                                                                                                   205
                                                                                                      2. 데이터 편향성
   202   203   204   205   206   207   208   209   210   211   212