요구사항 7. 수집 및 가공된 학습 데이터의 편향 제거

1. 인증 기준

학습 데이터의 수집 및 가공 과정에서 발생할 수 있는 편향을 인식하고 제거 방안을 마련해야 합니다. 민감 특성 및 보호 변수에 대한 기준이 정의되어야 하며, 편향 제거 전략을 통해 편향이 얼마나 완화되었는지 제시해야 합니다.

2. 평가 개요

구분내용

평가대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 학습 데이터의 편향 특성, 유형, 기준이 명확하게 정의되어있는지 확인합니다.

• 학습 데이터 수집 및 가공 시 편향 제거 전략을 확인합니다.

• 라벨링 작업 지침, 교육, 감독 활동을 확인합니다.

3. 평가 세부 설명

3.1 신뢰 속성

  • 편향 및 공정성: 학습 데이터 편향 제거 활동이 다양한 그룹의 가치관, 문화, 배경을 존중하고 반영해야 합니다.

3.2 관련 프로세스

  • 데이터 수집: 내부 소스, 제3자 또는 커뮤니티(예: 공개 데이터, 공개 도메인 데이터)를 통해 데이터를 수집합니다. 제3자로부터 데이터를 획득할 경우, 관련된 저작권 및 라이선스를 고려해야 합니다.

  • 데이터 가공: 데이터 가공에는 다양한 데이터 셋의 형식을 지정하고 정리하기 위한 다양한 자동화 도구의 사용이 포함될 수 있으며, 원시데이터 검사, 데이터셋 정리 및 구성, 정규화 및 스케일링, 라벨링 등의 작업으로 세분화됩니다.

4. 평가 증빙

증빙 문서포함 내용

라벨링 가이드

-

라벨러/검수자 평가 가이드

-

소스코드 일부

• 데이터 전처리 부분

크라우드 워커 활용 이력(선택적)

-

5. 관련 문서

6. 추가 고려사항

  • 편향은 일관적으로 정의하기 힘든 개념입니다. 제품·서비스가 제공되는 문화, 세대, 지역, 정치적 범위를 고려해야 합니다.

  • 편향 문제를 해결하기 위해 다양한 분야의 전문가들이 협력해야 합니다. 기술적 전문가뿐만 아니라 사회학자, 윤리학자, 법률 전문가 등 다양한 시각에서 문제를 접근함으로써 더 포괄적인 해결책을 도출할 수 있습니다.

  • 제품·서비스의 목적에 따라 의도된 편향이 있을 수 있습니다. 이러한 경우 의도된 편향과 의도되지 않은 편향 모두에 대한 정의 및 평가가 필요합니다.

편향(bias)은 긍정적이든 부정적이든 한 쪽으로 치우쳐져 있는 상태를 의미합니다.

  • 데이터와 관련된 공정성 평가 지표는 주로 데이터 내 클래스 분포와 관련됩니다. 이러한 평가 지표는 제품·서비스의 성능과 관계된 지표(정확성, 재현율, F1 점수)와는 별도로 정의 및 활용해야 합니다.

  • 편향은 데이터(요구사항 7), 모델(요구사항 9), 시스템(요구사항 12) 전반에 걸쳐 발생할 수 있으므로, 통합적으로 고려되어야 합니다.

7. 사례

[1] 데이터 증강 기법을 도입하여 학습데이터의 클래스 불균형으로 발생할 수 있는 편향 문제를 완화하여 학습

Last updated