Page 207 - 고등학교 인공지능 기초
P. 207
2 데이터 편향성이 발생하는 원인
데이터 편향성이 발생하는 원인은 크게 현실 세계의 데이터를 편향적으로
선택하는 경우와 현실 세계의 데이터 자체가 편향적인 경우로 나눌 수 있다.
❶ 데이터를 선택하는 과정에서 발생
데이터를 선택하고 수집하는 과정에서 여러 편향이 반영될 수 있
다. 대표적인 예는 지리적 편향이다. 특정 지역에서 수집한 데이터에
는 편향이 있기 마련이다. 예를 들어, 우리나라 사람들이 좋아하는 음
식에 대한 데이터는 전 세계를 기준으로 보면 편향성이 있는 것이다.
현실 세계 훈련 데이터
조사자의 편향적 성향이 개입되기도 한다. 의도적인 결과를 얻고자
선별적으로 데이터를 수집하는 경우도 있고, 무의식적으로 자신의 믿 그림Ⅳ-2 l 데이터 선택 과정에서 발생하는 편향성
음과 일치하는 방향으로 수집하기도 한다. 조사자가 편향을 인지하지
못한 경우에는 결과가 객관적일 것이라고 믿는 오류를 범하므로 더 큰 문제가
될 수 있다.
❷ 데이터를 축적하는 과정에서 발생
현실 세계에 편향이 있다면 데이터를 객관적인 과정으로 수집하
여도 데이터 편향성이 발생한다.
또한, 축적된 데이터는 과거의 의사결정을 반영하고 있으므로 과거
의 편향이나 사회적 차별 요소도 쌓이게 된다. 인간의 성 관념이나 평
현실 세계 훈련 데이터
등 의식, 민주주의와 자유주의에 대한 생각 등도 시대에 따라 변화하
는데, 이러한 변화가 반영되지 못한 훈련 데이터로 학습한 인공지능은 그림Ⅳ-3 l 데이터 축적 과정에서 발생하는 편향성
사회를 따라잡지 못할 뿐 아니라 오히려 사회적 차별이나 편향을 강화할 수 있다.
잠깐 활동
다음 사례와 같은 편향성이 문제가 되는 이유에 대해 생각해 보자.
l 사례 l
2018년, MIT에서 얼굴 인식 시스템의 정확성에 관한 실험을 하였다. 그 결과 흑인 여성 얼굴의
인식률이 가장 낮았고, 백인 남성 얼굴의 인식률이 가장 높았다. 이러한 결과가 나온 이유는 학
습 데이터 세트에 흑인 여성의 데이터는 적고 백인 남성 데이터는 많았기 때문이다. 데이터가
백인 남성 위주로 편향되어 있었던 것이다.
205
2. 데이터 편향성