09 인공지능 모델의 편향 제거
인공지능 모델을 개발하는 과정에서 모델의 종류나 시스템의 목표에 따라 발생할 수 있는 편향을 제거하기 위한 기법을 고려한다. 편향은 생성 AI 모델에서 불공정성을 초래할 수 있으며 편향의 영향을 받는 개인과 집단에 심각한 결과를 초래할 수 있다[208]. 또한 생성 AI 모델의 불공정성은 개인에게 직접적인 영향을 유발하여 소송 및 규제 벌금을 포함한 법적 문제로 이어질 수 있다. 생성 AI 모델의 생성 결과가 편향 없이 목표를 달성할 수 있는지 분석하고, 모니터링할 수 있는 기법과 지표를 적용한다.
09-1 모델 편향을 제거하는 기법을 적용하였는가?
방대한 데이터 수요로 인해 개발자는 오픈소스나 결합된 데이터셋에 의존하는 경우가 많으며, 이에 따라 생성 AI 모델은 데이터에 잠재된 편향을 학습하거나 심지어 더욱 증폭하기도 한다. 데이터 정제 단계에서 데이터에 잠재된 편향을 제거하는 방법뿐만 아니라 모델 개발 과정에서도 편향을 제거하거나 완화하는 기법을 적용하는 것이 바람직하다.
개발된 생성 AI 모델의 효과를 높이고 모델 편향성을 완화하기 위해서 다양한 기법을 고려할 수 있다. 적대적 학습, 반(反) 사실적 데이터 증강, 사람의 감독 등은 모두 모델의 편향성을 최소화하고 목표한 콘텐츠를 생성하기 위해 적용을 고려할 수 있다.
09-1a 개발하려는 모델에 알맞은 편향 제거 기법을 선택하였는가?
생성 AI 모델에서 발생할 수 있는 편향의 종류, 위험성 등을 확인하였다면 편향을 완화하거나 관리할 수 있도록 다음과 같은 기법을 고려할 수 있다.
대표적으로 발생 가능한 편향에 따른 적용 가능 기법
편향 유형 | 기법(접근방법) | Pre | Pro | Post | 설명 |
---|---|---|---|---|---|
선택 편향 selection bias | 반사실적 데이터 증강 |
| |||
표현 편향 representation bias | 리샘플링 / 단어 벡터 가중치 재지정 |
| |||
확증 편향 confirmation bias | 적대적 학습 및 파인튜닝(fine-tuning) |
| |||
집단 사고 편향 groupthink bias | 적대적 학습 및 파인튜닝(fine-tuning) |
| |||
시간적 편향 temporal bias | 학습용 데이터 재준비 |
| |||
시간적 편향 temporal bias | 정기적 산출물 감사 | " |
09-1b 편향성 평가 및 모니터링을 위한 정량적 지표를 선정하고 관리하는가?
생성 AI 모델은 시간이 지남에 따라 편견과 오류가 발생할 가능성이 높은데(시간적 편향) 이를 예방하고 모델의 공정성・정확성・신뢰성을 지속적으로 확보하기 위해 모니터링하고, 정량적 지표에 기반하여 관리하는 것이 필요하다.
미국 국립표준기술연구소(NIST)에서는 데이터 및 모델 등의 기술적 고려 사항뿐 아니라 사회적 요인으로도 편향의 원인을 찾고 관리하도록 범위를 넓힐 것을 권장하고 있다[165].
생성 AI 모델의 편향성 평가 및 모니터링을 위한 대표적인 지표가 있으나 단일 지표로는 모델의 편향성을 모두 파악할 수 없으므로 개발된 모델의 목표, 사회적 요인, 끼치는 영향, 위험 등에 따라 종합적으로 평가하기 위해 여러 지표를 조합해야 할 수 있다.
대표적으로 발생할 수 있는 편향에 따라 고려할 수 있는 지표는 다음과 같다. 개발하고자 하는 모델과 미션 목표에 따라 지표를 선정하고 편향성 완화 여부를 지속적으로 측정하고 모니터링하는 것이 바람직하다.
참고: 성별 고정관념 또는 혐오 발언 평가 예시[223]
Huggingface의 “Evaluate” library 활용
대규모 언어 모델을 대상으로 결과물을 평가하여 독성, 양극화 또는 상처를 결정하는 시험 수행
독성: GPT-2 모델에서 WinoBias 데이터셋의 프롬프트를 사용하여 실험을 수행 결과물의 독성을 평가하기 위해 'Evaluate' 라이브러리의 '독성toxicity' 점수를 측정
혐오 발언과 같은 문제가 있는 콘텐츠를 생성할 가능성이 얼마나 되는지를 평가하기 위함
언어 극성: GPT-2 모델에서 BOLD 데이터셋의 프롬프트를 사용하여 실험을 수행 결과물의 유해성을 평가하기 위해 'Evaluate' 라이브러리의 '관심도regard' 점수를 측정
특정 인구통계(예: 성별, 인종, 성적 지향)에 대한 언어적 극성과 사회적 인식을 정량화하기 위함
상처 주는 문장: 일련의 프롬프트를 사용하여 실험을 진행 결과물의 유해성을 평가하기 위해 'Evaluate' 라이브러리의 'HONEST' 점수를 측정
문장에서 상처를 주는 단어가 완성되는 빈도를 파악하고 다양한 그룹(예: 성별, 성적 지향 등) 간의 잠재적 차이를 탐색함
참고: 파인튜닝 생성 AI 모델의 공정성 측정 및 완화를 위한 연구 사례
목표 레이블의 균형을 조정하여 공정성 조정[220]
목표 레이블의 균형을 조정하여 머신러닝 모델에 공정성을 적용하는 프레임워크를 제안
제안 프레임워크를 사용하여 목표 비율을 설정하고 공정성 제약이 실현되는 방식을 제어할 수 있음
예를 들어 인구통계학적 동등성에 대한 목표 양성률을 여러 그룹에 대해 0.6으로 설정할 수 있음
애플리케이션에 따라 더 긍정적인 예측을 통해 차별을 금지할지 아니면 더 부정적인 예측을 통해 차별을 금지할지를 지정하는 것이 중요할 수 있음
연속적인 속성 및 처우를 위한 공정성 인식 학습[221]
분류기의 결과가 민감한 변수의 특정값에 편향되지 않도록 함으로써 알고리즘의 공정성 문제를 해결하고자 함
정규화 용어를 사용하여 분류기가 편향된 예측을 하면 불이익을 주는 공정성 인식 학습 접근법을 제안함
Edge 케이스 삭제 및 적응: 그래프 신경망에 대한 공정성 적용 파인튜닝[222]
파인튜닝 전략으로 그래프 신경망에 공정성을 적용하는 새로운 방법을 제안함
불공정한 Edge 케이스를 삭제하고 모델을 새로운 그래프 구조에 맞게 조정하여 공정성을 강화함
Last updated