요구사항 5. 데이터의 활용을 위한 상세 정보 제공

1. 인증 기준

인공지능 시스템 개발 및 운영 과정에서 활용되는 데이터에 대한 상세 정보를 투명하게 공개하고, 이를 통해 시스템의 신뢰성을 확보해야 합니다. 상세 정보는 단순히 데이터 수집 및 활용 목적뿐만 아니라, 데이터의 구체적인 특성과 활용 방식까지 포함하는 개념입니다. 이러한 정보를 투명하게 공개함으로써 사용자는 인공지능 시스템이 어떤 데이터를 어떻게 활용하는지 명확하게 이해할 수 있으며, 이를 기반으로 시스템에 대한 신뢰를 판단할 수 있게 됩니다.

2. 평가 개요

구분	내용
평가대상	인공지능 모델, 인공지능 시스템
평가 방법	문서‧절차 검사
주요 확인사항	• 메타데이터 (데이터 수집 시점, 장소, 방법 등과 관련된 정보)를 확인합니다. • 정제 전 데이터 특성 (원본 데이터의 형식, 크기, 결측값 비율 등) 설명을 확인합니다. • 정제 후 데이터 특성 (정제 과정을 거친 데이터의 형식, 크기, 변수 개수 등) 설명을 확인합니다. • 보호변수 (성별, 연령, 인종, 종교, 성적 지향 등 개인을 식별하거나 차별하는 데 사용될 수 있는 민감 정보) 내용을 확인합니다. • 데이터 출처 (데이터의 원본 제공자 또는 수집 방법)를 확인합니다. • 라벨링 방법을 확인합니다.

구분

내용

평가대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 메타데이터 (데이터 수집 시점, 장소, 방법 등과 관련된 정보)를 확인합니다. • 정제 전 데이터 특성 (원본 데이터의 형식, 크기, 결측값 비율 등) 설명을 확인합니다. • 정제 후 데이터 특성 (정제 과정을 거친 데이터의 형식, 크기, 변수 개수 등) 설명을 확인합니다. • 보호변수 (성별, 연령, 인종, 종교, 성적 지향 등 개인을 식별하거나 차별하는 데 사용될 수 있는 민감 정보) 내용을 확인합니다. • 데이터 출처 (데이터의 원본 제공자 또는 수집 방법)를 확인합니다. • 라벨링 방법을 확인합니다.

3. 평가 세부 설명

3.1 신뢰 속성

설명가능성 및 예측가능성: 데이터 활용 관련 정보는 최대한 상세하고 쉽게 이해할 수 있어야 합니다.
책무성 및 투명성: 데이터 활용에 대한 책임 소재를 명확하게 제시하고, 성별, 연령, 인종, 종교, 성적 지향 등 개인을 식별하거나 차별하는 데 사용될 수 있는 정보를 성정한 기준과 이유를 제시해야 합니다.

3.2 관련 프로세스

데이터 활용 정책: 데이터 수집, 활용, 보관 및 삭제 등에 대한 상세한 정책을 문서화합니다.
데이터 품질 관리 절차: 데이터 품질 관리를 위한 구체적인 절차를 문서화합니다.
데이터 보안 관리 절차: 데이터 보안을 위한 기술적 및 관리적 절차를 문서화합니다.
데이터 처리 활동 기록: 데이터 처리 활동에 대한 자세한 기록을 보관하고, 사용자에게 제공할 수 있는 방식으로 관리합니다.

데이터 라벨링 가이드 (별권) 양식
- https://www.aihub.or.kr/aihubnews/qlityguidance/view.do?currMenu=135&topMenu=103&nttSn=10269

4. 평가 증빙

증빙 문서	포함 내용
데이터 라벨링 가이드	-
데이터 셋	• 원천데이터, 학습데이터, 어노테이션
데이터 출처 기록	-

증빙 문서

포함 내용

데이터 라벨링 가이드

데이터 셋

• 원천데이터, 학습데이터, 어노테이션

데이터 출처 기록

5. 관련 문서

EU 일반 데이터 보호 규정(GDPR)
- https://gdpr-info.eu/
인공지능 학습용 데이터 품질관리 가이드라인 및 구축안내서 v3.0
- https://www.aihub.or.kr/aihubnews/qlityguidance/view.do?currMenu=135&topMenu=103&nttSn=10125

6. 추가 고려사항

처리하는 데이터의 종류와 민감도에 따라 추가적인 요구 사항이 있을 수 있습니다. 예를 들어, 의료 데이터나 금융 데이터는 개인 정보 보호 규정에 따라 더욱 엄격한 관리가 필요할 수 있습니다.
데이터가 어떤 범위에서 어떤 목적으로 활용되는지에 따라 추가적인 투명성 요구사항이 있을 수 있습니다. 예를 들어, 데이터가 개인 식별이나 타겟팅 광고에 사용되는 경우, 사용자에게 이를 명시적으로 알리는 절차가 필요합니다.

7. 사례

[1] Annotation 기준을 제정하고 별도의 도구 제작하였으며, 편향을 유발할 수 있는 보호변수는 불필요하게 태깅하지 않음

Previous요구사항 4. 인공지능 시스템의 추적가능성 및 변경이력 확보 Next요구사항 6. 데이터 견고성 확보를 위한 이상 데이터 점검

Last updated 2 months ago