07 수집 및 가공된 학습 데이터의 편향 제거
학습에 필요한 데이터를 수집 및 가공 시 발생할 수 있는 편향을 인식하고 이를 제거하기 위한 방안을 적용한다. 주로, 데이터 수집 시 발생할 수 있는 편향을 확인해야 하며, 학습을 위한 특성을 선택하거나, 데이터 라벨링 및 샘플링 시에도 편향이 발생할 수 있으므로 제거 방안을 마련한다. 단, 이미 편향성 검토가 완료된 데이터를 활용하거나, 초거대 인공지능 모델처럼 현실적으로 모든 데이터를 검증하기 어려운 경우에는 샘플링 기법 등을 통해 데이터를 검증한다.
07-1 데이터 수집 시, 인적・물리적 요인으로 인한 편향 완화 방안을 마련하였는가?
인적 요인으로 인한 편향은 사람이 의식적 혹은 무의식적으로 특정 정보에 대해 편향되는 점에서 기인한다.
인적 편향: 자동화 편향(automation bias), 그룹 귀인 편향(group attribution bias), 암묵적 편향(implicit bias), 그룹 내 편향(in-group bias) 등이 포함됨
인적 편향을 방지하도록 데이터 수집 시 명확한 수집 및 검수 기준을 수립하여 수집하는 작업자별로 데이터 특성이 편향되지 않도록 방지하거나, 다양하고 충분한 수의 검수자를 확보함으로써 검수 시 편향을 바로잡아야 한다.
데이터는 수집 도구나 방법에 활용되는 물리적 요인으로 인해 데이터의 편향이 발생할 수 있다. 이미지의 촬영 도구나 저장 장치 등의 요인으로 인하여 이미지의 색상, 밝기, 해상도 등 물리적으로 한정된 데이터가 수집될 수 있다.
이에 따라 촬영 대상자의 연령대나 인종을 구분하기 힘들거나, 특정 방법으로 수집된 데이터만 학습이 이뤄지므로, 편향을 발생시키는 물리적 요인을 제거하거나 다양한 수집 장치를 활용하여 다양성을 보완하는 것이 바람직하다.
07-1a 인적 편향을 제거하기 위한 절차적, 기술적 수단을 적용하였는가?
데이터를 수집하는 과정에서의 인적 편향은 데이터 수집 작업자가 갖는 편향에서 비롯된다. 이 경우, 수집 작업자들의 개인별 편차를 줄이기 위해 데이터 수집 작업 가이드라인을 마련하고, 다양한 작업자를 모집하여 특정 배경과 성향을 배제하고, 수집 결과에 대한 검수자를 충분히 확보하여야 한다.
인적 편향을 완화하기 위해 다양한 출처와 인구통계학적 그룹에서 데이터를 수집하고, 다양한 데이터 증강 기술을 활용해 부족분을 보완할 수 있다. 또한 데이터 수집 과정을 지속적으로 모니터링하고 인적 감독 및 평가를 통합하면 잠재적인 편향을 식별하고 완화할 수 있다.
07-1b 데이터의 다양성 확보를 위해 여러 수집 장치를 활용하였는가?
특정 하드웨어 및 장비를 사용하여 데이터를 수집하는 경우, 수집 환경 및 제약 조건으로 인하여 많은 수의 일관된 데이터를 확보하기 어려울 수 있다. 이러한 경우 데이터의 다양성 확보에도 악영향을 미치기 때문에 다수의 장비 및 이기종 장치를 활용함으로써 데이터 수량 및 다양성 확보가 가능하다.
다만, 이러한 경우 수집 경로 및 환경(예: 카메라 촬영, 웹 크롤링)이 달라지기 때문에, 수집 후 데이터를 활용하려면 데이터의 일관성이 유지되어야 하므로 데이터 정제 및 검수가 충분히 이루어져야 한다.
데이터 수집 및 생성 시 장비의 사양 및 수집 환경 등 물리적 요인으로 인해 제한된 상황 및 시나리오에 대한 데이터만 수집되는 등의 편향이 발생할 수 있다. 따라서, 데이터 수집 시 이러한 요인을 점검하고 대처하는 계획을 마련해야 한다. 발생 가능한 편향의 예시는 다음과 같다.
특정 브랜드나 모델의 카메라로만 이미지를 촬영하는 경우, 해당 카메라의 특성(예: 해상도, 노이즈 수준)이 데이터에 반영될 수 있음
특정 종류의 센서(예: 가속도계, 자이로스코프)를 사용하여 데이터를 수집하는 경우, 해당 센서의 정확성과 측정 범위 등이 데이터에 영향을 미칠 수 있음
특정 제조사의 의료 장비를 사용하여 환자 데이터를 수집하는 경우, 해당 장비의 측정 오차나 특성이 데이터에 영향을 미칠 수 있음
07-2 학습에 사용되는 특성(feature)을 분석하고 선정 기준을 마련하였는가?
편향 완화를 위해서는 차별을 일으킬 수 있는 민감한 특성들을 사전에 파악하는 것이 중요하며, 이를 위해 데이터의 특성들을 분석하고, 해당 특성을 학습에 사용할 것인지 그 선정 기준을 수립하는 것이 바람직하다.
일부 민감한 특성들은 인공지능 의사결정의 차별을 일으킬 수 있으며, 국제기구나 글로벌 기업들은 아래 표와 같이 민감한 특성들을 언급하고 있다. 이와 같은 특성들은 데이터 학습 시 반영되지 않아야 하는 특성으로 선정하고, 이에 따라 발생할 수 있는 편향을 완화하여야 한다.
사회적 물의를 일으킬 수 있는 민감한 특성들
UNESCO
나이, 성별, 인종, 민족・사회적 기원, 혈통, 언어, 종교, 정치적 사상, 국적, 출생 시 사회경제적 상황, 장애
ALTAI
나이, 성별, 인종, 민족・사회적 기원, 혈통, 언어, 종교, 정치적 사상, 소수 민족 구성원, 재산, 출생, 성적 지향
ISO/IEC 24027:2021
나이, 성별, 인종, 수입, 가족관계, 교육 수준, 키・체중, 장애 여부
IBM Watson OpenScale
나이, 성별, 인종, 결혼 여부, 주소
인종, 성별, 장애 여부, 종교
07-2a 보호변수 선정 시 충분한 분석을 수행하였는가?
보호변수 선정 시 충분한 분석을 진행하지 않을 경우, 모델의 성능이 저하될 수 있다. 따라서 모델 추론 결과에 영향을 미치는 특성을 식별한 경우, 주어진 데이터셋으로부터 데이터의 일부분을 변경하면서 모델의 결과가 어떻게 변하는지 관찰하고 분석하여야 한다.
기계학습 기반 회귀 및 분류 모델의 경우, 데이터 변화에 따른 추론 결과의 추이를 시각화하여 보여주는 도구(예: Google What If Tool)를 사용하여 설정한 보호변수가 인공지능 의사결정의 차별을 일으키는 데 얼마나 영향을 미치는지, 성능이 어떻게 변하는지 알 수 있다.
참고: Google What-If Tool 화면 예시
07-2b 편향을 발생시킬 수 있는 특성의 영향력을 완화하였는가?
인공지능 모델 학습 시, 데이터의 특성을 선택하여 사용함으로써 효율적인 학습은 물론, 컴퓨팅 자원과 비용을 저감 할 수 있으며 여러 특성 사이의 관계 분석 과정에서 데이터에 대한 깊이 있는 이해를 통해 잠재된 편향을 인식할 수도 있다.
편향 완화를 위한 간단한 접근법으로는 편향을 발생시키는 특성을 배제하는 특성 선택 기법(feature selection)을 고려해볼 수 있다. 필터(filter) 방법, 래퍼(wrapper) 방법, 임베디드(embedded) 방법 등이 있다. 이러한 방법들은 데이터 내 특성들의 통계적 상관관계를 분석하여 높은 상관계수를 갖는 특성을 사용하거나, 특성 일부에 대해 좋은 성능을 갖는 부분 집합(subset)을 활용하는 것이다.
편향과 관련된 특성을 제거하는 경우, 다른 종류의 편향을 발생시키거나 강화할 수 있어 모든 경우에 효과적인 방법은 아닐 수 있다. 따라서 편향을 완화하기 위한 다양한 기법(예: 가중치 재지정, 라벨링 재지정, 변수 블라인딩, 샘플링)을 고려해야 한다.
단, 시스템 사용 목적에 따라 의도된 편향이거나 학습 과정에서 편향 완화가 가능한 경우에는 예외로 할 수 있다.
07-2c 데이터 전처리 시 특성이 과도하게 제거되었는지 검토하였는가?
특성 선택 기법을 통해서 잠재된 편향을 완화하고 모델 성능을 향상시킬 수 있으나, 지나칠 경우 과적합(overfitting) 문제 혹은 오히려 편향의 원인이 되기도 한다.
특히, 모든 데이터에서 특성 선택을 시행할 경우, 교차 검증에서 동일한 특성을 사용하게 되므로 편향을 야기할 수도 있다. 따라서 과도한 특성 선택 및 배제를 방지하기 위한 점검이 필요하다.
과도한 특성 선택 및 배제를 방지하기 위한 점검표
도메인 지식을 가지고 있는가?
만약 가지고 있다면, 도메인 지식을 바탕으로 임시 특성들을 구성하는 것이 좋다.
특성들이 서로 연관 있는가?
만약 그렇지 않다면, 스케일을 맞추기 위해 정규화하는 것이 좋다.
특성들 사이에 상호 의존성이 있는가?
만약 그렇다면, 관련 있는 특성을 결합하여 특성 셋을 확장하는 것이 좋다.
입력 변수들을 비용・속도 등의 이유로
제거해야 할 필요가 있는가?
만약 그렇지 않다면, 특성들을 분리하거나, 특성의 가중치 합을 구성하는 것이 좋다.
모델에 대한 특성의 이해 혹은 필터링을 위해 특성들을 개별적으로 평가해야 하는가?
만약 그렇다면, variable ranking 방법을 사용하는 것이 좋다.
Predictor가 필요한가?
만약 그렇지 않다면, 특성 선택을 할 필요가 없다.
데이터가 지저분한가?
만약 그렇다면, top ranking variable을 이용해 이상값을 제거하는 것이 좋다.
무엇을 먼저 해야 할지 아는가?
만약 모른다면, linear predictor를 사용하고, 전진 선택forward selection 기법이나 0-norm 임베디드 기법을 사용해보는 것이 좋다.
새로운 아이디어와 시간, 컴퓨팅 자원, 데이터가 충분한가?
만약 그렇다면, 다양한 방법을 시도하는 것이 좋다.
안정적인 솔루션을 원하는가?
만약 그렇다면, 여러 번 해보고 bootstrap을 쓰는 것이 좋다.
07-3 데이터 라벨링 시, 발생 가능한 편향을 확인하고 방지하였는가?
지도학습계열 인공지능 모델은 학습 데이터에 대한 라벨링이 요구된다. 그러나, 이러한 라벨링 작업 시에 작업자의 특정 의도 반영, 실수로 인한 특성 정보의 누락, 무의식적인 판단으로 인한 편향이 발생할 수 있다.
이는 라벨링 작업자의 전문성 부족, 작업 및 판단 기준의 일관성 결여 등이 원인이 될 수 있다. 라벨링 작업자가 발생시킬 수 있는 편향의 잠재적인 원인을 사전에 파악하고, 라벨링 결과의 평가 및 작업 기준의 교육 등을 통해 편향 발생을 방지해야 한다. 또한 다양한 라벨링 작업자를 섭외하여 작업자별로 나타날 수 있는 편향을 최소화하거나, 검수자를 충분히 확보하여 편향 방지 작업을 수행하는 것이 바람직하다.
07-3a 데이터 라벨링 기준을 명확히 수립하고 작업자에게 제공하였는가?
데이터 라벨링은 라벨링 도구의 이용 여부에 따라 자동・반자동・수동 등의 방식이 있다. 이때 라벨링 작업자가 라벨링 과정에 개입하게 되며, 이에 따라 작업자의 잠재적 편향이 라벨링에 반영될 수 있다.
이러한 잠재적 편향은 다수의 라벨링 작업을 위한 가이드라인이 명확하지 않아 개인의 판단에 의존하게 된다. 따라서 이를 파악하고 방지하기 위해서는 상세한 라벨링 가이드라인이 마련되어야 한다. 또한 가이드라인을 기반으로 작업자에게 충분한 교육을 실시하여 작업자 간 편향 발생 여지를 최소화해야 한다.
07-3b 다양한 데이터 라벨링 작업자를 섭외하기 위해 노력하였는가?
데이터 라벨링 단계에서 인적 편향을 줄이려면 다수의 데이터 라벨링 작업자 확보가 우선적으로 요구된다. 또한, 라벨링 작업자들을 인구 통계학적 특성 및 배경지식 등이 다양하고 고르게 분포되도록 구성하는 것이 바람직하며, 주요 분포 고려 요소는 다음과 같다.
인종, 종교, 성별, 민족, 장애 여부, 언어, 국적, 경제적 상황 등
작업자의 다양성을 검증하기 위해서는 크게 2가지를 확인해야 한다. 첫째, 크라우드소싱(crowd sourcing) 등의 방법을 도입하였는지 점검한다. 둘째, 데이터 라벨링 작업자의 인구 통계적 특성, 배경지식 등을 조사하고 분석함으로써 실제로 라벨링 작업자가 다양하고 고르게 분포하는지를 확인한다.
크라우드소싱: 데이터 라벨링 과정에 라벨링 관련 교육을 받은 일반인이 참여토록 외부 발주하는 것을 의미하며, 이를 통해 기존 라벨링 작업자 집단보다 더욱 다양한 작업자를 확보할 수 있음
07-3c 다양한 데이터 라벨링 검수자를 확보하기 위해 노력하였는가?
다양한 데이터 라벨링 작업자를 확보했음에도 불구, 인적 편향이 발생할 수 있다. 따라서, 데이터 라벨링 검수자를 확보하고, 라벨링 결과가 데이터 수집 목적 및 데이터 스펙과 다른 부분은 없는지 등을 확인하며, 수정을 요청하는 등의 작업을 실시해야 한다.
데이터 라벨링 검수자 역시 데이터 라벨링 작업자와 마찬가지로 다양하고 고르게 분포할 수 있도록 구성하는 것이 바람직하다. 그러므로 크라우드소싱 등의 방법을 도입하였는지 그리고 검수자에 대한 조사와 분석을 통해 그 분포가 다양하고 고르게 형성되는지 점검한다.
수동 라벨링에 필요한 시간과 노력을 최소화하여, 효율성을 높이기 위한 목적으로 자동 라벨링 시스템을 활용하기도 한다. 자동 라벨링은 여러 이점을 가지고 있지만, 동시에 편향이 잠재되어 있을 수 있다. 일례로, 자동 라벨링 시스템을 구축할 때 사용된 학습 데이터의 내재된 편향으로 인해 생성된 라벨에도 그 편향이 상속될 수 있다는 연구 결과도 존재한다. 따라서, 자동 라벨링 시스템을 활용하더라도 데이터 검수를 수행하여 편향을 완화하는 활동이 필요하다.
07-4 데이터의 편향 방지를 위한 샘플링을 수행하였는가?
샘플링은 모집단에서 일정한 기준으로 데이터를 추출하여 표본을 만드는 기법이다. 일정한 기준으로 추출된 표본은 모집단의 분포를 대표하는 동시에 실제 모집단의 클래스 불균형으로 인한 편향 또한 방지하여야 한다.
모집단의 클래스 불균형에 따른 편향을 방지하기 위한 대표적인 기법으로 SMOTE(Synthetic Minority Oversampling TEchnique)를 예로 들 수 있다. 이는 임의의 소수 클래스 데이터와 유사한 새로운 합성데이터를 생성한 후, 기존 데이터에 추가하는 방식으로 편향을 방지한다.
07-4a 편향 방지를 위한 샘플링 기법을 적용하였는가?
사회적 편견 및 차별을 야기할 수 있는 인구 통계학적인 데이터를 샘플링할 경우, 이로 인한 편향을 방지할 수 있는 샘플링 기법을 적용하고, 적용 과정에서 필요한 활동과 정보가 생성되었는지 확인해야 한다.
참고: 샘플링 기법 예시 - SMOTE
SMOTE는 실제 모집단 데이터 클래스의 불균형으로 인한 편향 문제를 해결하기 위해, 클래스의 개수가 적은 표본과 유사한 새로운 합성데이터를 생성하여 기존 데이터에 추가하는 기법이다.
SMOTE 기법 적용 시 데이터 증가로 인해 계산 시간 및 과적합 가능성 또한 증가하므로, 최종 데이터의 구성 및 모델의 추론 결과를 면밀히 확인해야 한다.
소수 클래스 구분 기준 및 합성 데이터 생성 비율 등의 세부적인 수치는 인공지능을 활용해 구현하고자 하는 서비스・기술, 다루고자 하는 데이터셋에 포함된 정보에 따라 달라질 수 있으며, 기법을 활용하는 담당자는 이에 대한 근거를 마련해야 한다.
Last updated