요구사항 7. 수집 및 가공된 학습 데이터의 편향 제거

1. 인증 기준

학습 데이터의 수집 및 가공 과정에서 발생할 수 있는 편향을 인식하고 제거 방안을 마련해야 합니다. 민감 특성 및 보호 변수에 대한 기준이 정의되어야 하며, 편향 제거 전략을 통해 편향이 얼마나 완화되었는지 제시해야 합니다.

구분	내용
평가대상	인공지능 모델, 인공지능 시스템
평가 방법	문서‧절차 검사
주요 확인사항	• 학습 데이터의 편향 특성, 유형, 기준이 명확하게 정의되어있는지 확인합니다. • 학습 데이터 수집 및 가공 시 편향 제거 전략을 확인합니다. • 라벨링 작업 지침, 교육, 감독 활동을 확인합니다.

구분

내용

평가대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 학습 데이터의 편향 특성, 유형, 기준이 명확하게 정의되어있는지 확인합니다.

• 학습 데이터 수집 및 가공 시 편향 제거 전략을 확인합니다.

• 라벨링 작업 지침, 교육, 감독 활동을 확인합니다.

데이터 수집: 내부 소스, 제3자 또는 커뮤니티(예: 공개 데이터, 공개 도메인 데이터)를 통해 데이터를 수집합니다. 제3자로부터 데이터를 획득할 경우, 관련된 저작권 및 라이선스를 고려해야 합니다.
데이터 가공: 데이터 가공에는 다양한 데이터 셋의 형식을 지정하고 정리하기 위한 다양한 자동화 도구의 사용이 포함될 수 있으며, 원시데이터 검사, 데이터셋 정리 및 구성, 정규화 및 스케일링, 라벨링 등의 작업으로 세분화됩니다.

증빙 문서

포함 내용

라벨링 가이드

라벨러/검수자 평가 가이드

소스코드 일부

• 데이터 전처리 부분

크라우드 워커 활용 이력(선택적)

인공지능 학습용 데이터셋 구축 안내서
- https://www.aihub.or.kr/aihubnews/qlityguidance/view.do?pageIndex=1&nttSn=10269&currMenu=135&topMenu=103&searchCondition=&searchKeyword=
ISO/IEC 8183:2023 - Information technology — Artificial intelligence — Data life cycle framework

편향은 일관적으로 정의하기 힘든 개념입니다. 제품·서비스가 제공되는 문화, 세대, 지역, 정치적 범위를 고려해야 합니다.
편향 문제를 해결하기 위해 다양한 분야의 전문가들이 협력해야 합니다. 기술적 전문가뿐만 아니라 사회학자, 윤리학자, 법률 전문가 등 다양한 시각에서 문제를 접근함으로써 더 포괄적인 해결책을 도출할 수 있습니다.
제품·서비스의 목적에 따라 의도된 편향이 있을 수 있습니다. 이러한 경우 의도된 편향과 의도되지 않은 편향 모두에 대한 정의 및 평가가 필요합니다.

편향(bias)은 긍정적이든 부정적이든 한 쪽으로 치우쳐져 있는 상태를 의미합니다.

데이터와 관련된 공정성 평가 지표는 주로 데이터 내 클래스 분포와 관련됩니다. 이러한 평가 지표는 제품·서비스의 성능과 관계된 지표(정확성, 재현율, F1 점수)와는 별도로 정의 및 활용해야 합니다.
편향은 데이터(요구사항 7), 모델(요구사항 9), 시스템(요구사항 12) 전반에 걸쳐 발생할 수 있으므로, 통합적으로 고려되어야 합니다.

[1] 데이터 증강 기법을 도입하여 학습데이터의 클래스 불균형으로 발생할 수 있는 편향 문제를 완화하여 학습

Last updated 2 months ago