09 인공지능 모델의 편향 제거
인공지능 모델을 개발하는 과정에서 모델의 종류나 시스템의 목표에 따라 발생할 수 있는 편향을 제거하기 위한 기법을 고려한다. 편향은 생성 AI 모델에서 불공정성을 초래할 수 있으며 편향의 영향을 받는 개인과 집단에 심각한 결과를 초래할 수 있다[208]. 또한 생성 AI 모델의 불공정성은 개인에게 직접적인 영향을 유발하여 소송 및 규제 벌금을 포함한 법적 문제로 이어질 수 있다. 생성 AI 모델의 생성 결과가 편향 없이 목표를 달성할 수 있는지 분석하고, 모니터링할 수 있는 기법과 지표를 적용한다.
09-1 모델 편향을 제거하는 기법을 적용하였는가?
방대한 데이터 수요로 인해 개발자는 오픈소스나 결합된 데이터셋에 의존하는 경우가 많으며, 이에 따라 생성 AI 모델은 데이터에 잠재된 편향을 학습하거나 심지어 더욱 증폭하기도 한다. 데이터 정제 단계에서 데이터에 잠재된 편향을 제거하는 방법뿐만 아니라 모델 개발 과정에서도 편향을 제거하거나 완화하는 기법을 적용하는 것이 바람직하다.
개발된 생성 AI 모델의 효과를 높이고 모델 편향성을 완화하기 위해서 다양한 기법을 고려할 수 있다. 적대적 학습, 반(反) 사실적 데이터 증강, 사람의 감독 등은 모두 모델의 편향성을 최소화하고 목표한 콘텐츠를 생성하기 위해 적용을 고려할 수 있다.
09-1a 개발하려는 모델에 알맞은 편향 제거 기법을 선택하였는가?
생성 AI 모델에서 발생할 수 있는 편향의 종류, 위험성 등을 확인하였다면 편향을 완화하거나 관리할 수 있도록 다음과 같은 기법을 고려할 수 있다.
대표적으로 발생 가능한 편향에 따른 적용 가능 기법
선택 편향
selection bias
반사실적 데이터 증강
AI 모델을 훈련하는 데 사용하는 데이터가 전체 모집단을 대표하지 않을 때 발생하는 편향으로, 학습 데이터셋에 다양한 관점의 배경을 의도적으로 도입하는 데이터 증강으로 편향을 완화 (예: 언어 모델이 한 지역의 텍스트에 대해 학습되는 경우, 다른 지역과 관련된 콘텐츠를 이해하고 생성하는 데는 어려움을 겪을 수 있음)
표현 편향
representation bias
리샘플링 / 단어 벡터 가중치 재지정
서로 다른 그룹을 적절하게 나타내지 못하는 편향으로, 과소 대표된 그룹이 더 많은 관심을 받을 수 있도록 학습 데이터를 다시 샘플링하거나 단어 벡터의 가중치를 재지정하여 편향을 완화
확증 편향
confirmation bias
적대적 학습 및 파인튜닝(fine-tuning)
의도치 않게 기존의 신념이나 고정관념을 강화하여 발생하는 편향 (예: 데이터 준비 시 수집자가 특정 정치적 견해와 일치하는 기사의 우선순위를 정하여 AI 뉴스 생성 결과에 신념을 공고하게 반영하도록 함)
집단 사고 편향
groupthink bias
적대적 학습 및 파인튜닝(fine-tuning)
그룹 내의 지배적인 의견과 너무 밀접하게 일치하는 콘텐츠를 생성하여 다양한 관점을 억압하는 편향
시간적 편향
temporal bias
학습용 데이터 재준비
과거 데이터로 훈련된 AI 모델은 과거의 편향을 물려받아 구식 또는 차별적인 관점을 영속화하는 편향으로, 다양한 인구통계, 문화 및 관점을 포함하는 최신 학습용 데이터를 준비하거나 정기적 산출물 감사 통해 편향을 완화(예: 모델이 특정 직업을 특정 성별과 연결하는 과거의 데이터셋에서 학습된 경우, 고정관념이 강화된 이미지를 생성할 수 있음)
시간적 편향
temporal bias
정기적 산출물 감사
"
09-1b 편향성 평가 및 모니터링을 위한 정량적 지표를 선정하고 관리하는가?
생성 AI 모델은 시간이 지남에 따라 편견과 오류가 발생할 가능성이 높은데(시간적 편향) 이를 예방하고 모델의 공정성・정확성・신뢰성을 지속적으로 확보하기 위해 모니터링하고, 정량적 지표에 기반하여 관리하는 것이 필요하다.
미국 국립표준기술연구소(NIST)에서는 데이터 및 모델 등의 기술적 고려 사항뿐 아니라 사회적 요인으로도 편향의 원인을 찾고 관리하도록 범위를 넓힐 것을 권장하고 있다[165].
생성 AI 모델의 편향성 평가 및 모니터링을 위한 대표적인 지표가 있으나 단일 지표로는 모델의 편향성을 모두 파악할 수 없으므로 개발된 모델의 목표, 사회적 요인, 끼치는 영향, 위험 등에 따라 종합적으로 평가하기 위해 여러 지표를 조합해야 할 수 있다.
대표적으로 발생할 수 있는 편향에 따라 고려할 수 있는 지표는 다음과 같다. 개발하고자 하는 모델과 미션 목표에 따라 지표를 선정하고 편향성 완화 여부를 지속적으로 측정하고 모니터링하는 것이 바람직하다.
참고: 성별 고정관념 또는 혐오 발언 평가 예시[223]
Huggingface의 “Evaluate” library 활용
대규모 언어 모델을 대상으로 결과물을 평가하여 독성, 양극화 또는 상처를 결정하는 시험 수행
독성: GPT-2 모델에서 WinoBias 데이터셋의 프롬프트를 사용하여 실험을 수행 결과물의 독성을 평가하기 위해 'Evaluate' 라이브러리의 '독성toxicity' 점수를 측정
혐오 발언과 같은 문제가 있는 콘텐츠를 생성할 가능성이 얼마나 되는지를 평가하기 위함
언어 극성: GPT-2 모델에서 BOLD 데이터셋의 프롬프트를 사용하여 실험을 수행 결과물의 유해성을 평가하기 위해 'Evaluate' 라이브러리의 '관심도regard' 점수를 측정
특정 인구통계(예: 성별, 인종, 성적 지향)에 대한 언어적 극성과 사회적 인식을 정량화하기 위함
상처 주는 문장: 일련의 프롬프트를 사용하여 실험을 진행 결과물의 유해성을 평가하기 위해 'Evaluate' 라이브러리의 'HONEST' 점수를 측정
문장에서 상처를 주는 단어가 완성되는 빈도를 파악하고 다양한 그룹(예: 성별, 성적 지향 등) 간의 잠재적 차이를 탐색함
참고: 파인튜닝 생성 AI 모델의 공정성 측정 및 완화를 위한 연구 사례
목표 레이블의 균형을 조정하여 공정성 조정[220]
목표 레이블의 균형을 조정하여 머신러닝 모델에 공정성을 적용하는 프레임워크를 제안
제안 프레임워크를 사용하여 목표 비율을 설정하고 공정성 제약이 실현되는 방식을 제어할 수 있음
예를 들어 인구통계학적 동등성에 대한 목표 양성률을 여러 그룹에 대해 0.6으로 설정할 수 있음
애플리케이션에 따라 더 긍정적인 예측을 통해 차별을 금지할지 아니면 더 부정적인 예측을 통해 차별을 금지할지를 지정하는 것이 중요할 수 있음
연속적인 속성 및 처우를 위한 공정성 인식 학습[221]
분류기의 결과가 민감한 변수의 특정값에 편향되지 않도록 함으로써 알고리즘의 공정성 문제를 해결하고자 함
정규화 용어를 사용하여 분류기가 편향된 예측을 하면 불이익을 주는 공정성 인식 학습 접근법을 제안함
Edge 케이스 삭제 및 적응: 그래프 신경망에 대한 공정성 적용 파인튜닝[222]
파인튜닝 전략으로 그래프 신경망에 공정성을 적용하는 새로운 방법을 제안함
불공정한 Edge 케이스를 삭제하고 모델을 새로운 그래프 구조에 맞게 조정하여 공정성을 강화함
Last updated