09 인공지능 모델의 편향 제거

  • 인공지능 모델을 개발하는 과정에서 모델의 종류나 시스템의 목표에 따라 편향*이 발생할 수 있으므로, 이를 제거하기 위한 기법을 고려한다.

    • 요구사항 07-2에서 언급한 바와 같이 인종차별, 성차별 등 사회․윤리적으로 문제가 되는 경우에 한함


09-1 모델 편향을 제거하는 기법을 적용하였는가?

  • 인공지능 모델은 데이터에 잠재된 편향을 학습하게 되고, 심지어 편향을 더욱 증폭시키기도 한다. 따라서 데이터 정제 단계에서 데이터에 잠재된 편향을 제거하는 방법뿐만 아니라, 모델 개발 과정에서도 모델 편향을 제거 또는 완화하기 위한 기법을 적용하는 것이 바람직하다.

  • 편향 완화 기법은 이를 적용하는 단계에 따라 3가지 방식으로 나뉜다. 모델 학습 전에 적용해야 할 편향 완화 기법(pre-processing), 모델 학습 중에 적용할 기법(in-processing), 모델 학습 이후 적용할 기법(post-processing)이다. 구현하려는 인공지능 모델 및 목표 임무에 따라서 이 중 적절한 기법을 선택하여 적용하여야 한다.

09-1a 개발하려는 모델에 맞게 편향제거 기법을 선택하였는가?

  • 인공지능 모델의 편향을 완화하기 위한 기법은 적용 단계에 따라 3가지로 구분된다. 모델 학습 전, 학습 과정 중 그리고 학습 이후에 적용하는 방식이다.

  • 각 방식의 특성과 구현하려는 인공지능 모델 및 목표 임무에 맞게 적절한 기법을 선택하여 적용해야 한다

  • 인공지능 모델의 편향을 완화하기 위한 기법 예시

편향 유형기법PreProPost설명 및 지표

알고리즘 편향

algorithmic bias

가중치 재지정

학습 데이터셋 샘플에 가중치를 할당하는 방식

리콜 편향

recall bias

라벨링 재지정

학습용 데이터 샘플의 라벨을 수정하는 방식

특성 편향

feature bias

변수 블라인딩

분류기가 민감한 변수에 반응하지 않도록 하는 방식

-

변형

숫자 데이터 기반 학습 시 데이터 변환 및 모델 예측 분포를 변환하는 방식

데이터 표본 편향

data sampling bias

샘플링

학습 데이터 내 샘플링을 통해 편향을 제거하는 방식

과잉일반화 편향

overgeneralization bias

정규화

분류 시 편향에 많은 영향을 주는 클래스 분포를 대상으로 보정하는 방식

데이터 표본 편향

data sampling bias

제약 최적화

분류기의 손실 함수에 보정값을 부여하는 방식

평가 편향

evaluation bias

임곗값

추론 결과가 결정 경곗값에 가까울 때 편향을 제거하는 방식

알고리즘 편향

algorithmic bias

보정

긍정 예측 비율이 긍정적인 데이터 인스턴스의 비율과 동일하게 분포하도록 설정하는 방식

09-1b 편향성 평가 및 모니터링을 위한 정량적 지표를 선정하고 관리하는가?

  • 편향성을 정량적으로 측정하는 지표는 아래의 표와 같이 5가지 분류로 나눌 수 있으며, 개발하려는 모델과 임무 목표에 맞게 지표를 선정하고, 편향 완화 여부를 지속해서 측정 및 관리하는 것이 바람직하다.

  • 편향을 정량적으로 측정하는 지표 분류

분류지표

패리티(parity) 기반 지표

인구통계학적(statistical/demographic) 형평성 지표, 차등적(disparate) 효과 지표

혼동 행렬(confusion matrix) 기반 지표

동등 기회(equalized opportunity), Equalized Odds, 전체 정확도 형평성, 조건부 사용 정확도 형평성, 대응 형평성, 비보상 동등화

점수(score) 기반 지표

양성 및 음성 클래스 균형 지표

사후가정(counterfactual) 기반 지표

사후가정 공정성

개인(individual) 공정성 지표

일반화 엔트로피 지수, 셰일 지수

참고: 공정성 확인 사례

PAIR with google에서는 가상의 의료 모델을 예시로 성능지표(정확도)에서 드러나지 않는 공정성을 확인하는 과정을 시각화 하여 보여주고 있으며, 모델을 활용하는 맥락에 맞는 공정성 개념을 적용하기를 제안한다.

개선 의견 보내기

Last updated