요구사항 6. 데이터 견고성 확보를 위한 이상 데이터 점검

1. 인증 기준

데이터 견고성은 데이터의 정확성, 완전성, 일관성, 유효성 등을 의미하며, 이들은 인공지능 모델의 성능과 신뢰성에 직접적인 영향을 미칩니다. 이상 데이터 점검을 통해 데이터 품질 문제를 식별하고 해결할 수 있으며, 특히 데이터 공격 방어를 통해 데이터 품질 저하 및 인공지능 모델 오작동 등의 심각한 피해를 예방할 수 있습니다.

2. 평가 개요

구분내용

평가대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 데이터 수집 과정에서 발생하는 오류, 누락, 부정확한 값 등에 대한 내부 검증활동을 확인합니다.

• 데이터 최적화 과정에서 발생하는 데이터 변형, 통계적 오류 등에 대한 내부 검증활동을 확인합니다.

• 데이터 변조 공격 등을 감지하고 방어하기 위한 수단을 구축하였는지 확인합니다.

3. 평가 세부 설명

3.1 신뢰 속성

  • 보안성 및 회복탄력성: 기존의 데이터 품질 관리 및 보안 시스템과 협력해야 합니다.

3.2 관련 프로세스

  • 데이터 수집: 데이터 수집 과정에서 발생하는 오류, 누락, 부정확한 값 등을 확인합니다.

  • 데이터 최적화: 데이터 전처리 및 노이즈 제거 과정에서 발생하는 데이터 변형을 확인합니다.

  • 데이터 분포 확인: 데이터 분포를 분석하여 오류와 패턴을 확인합니다.

  • 데이터 상관관계 확인: 데이터 간 상관관계를 분석하여 비정상적인 관계를 확인합니다.

  • 적대적 예제 생성 및 학습: 적대적 예제를 생성하여 데이터 공격에 대한 견고성을 높입니다.

  • 데이터 공격 감지 및 방지: 변조된 데이터를 감지하고 이를 방지하기 위한 시스템을 구축합니다.

4. 평가 증빙

증빙 문서포함 내용

데이터셋 시각화 기록

• chart 등

최적화된 데이터 일부

소스코드

• (최적화 적용 부분) 일부

적대적 학습용 데이터 일부

5. 관련 기법(데이터 점검)

  • 통계기반 기법: 평균, 중앙값, 표준편차, 분포 형태 등을 이용합니다. 대규모 데이터의 빠른 검출이 가능하지만, 일반적인 통계 기준을 적용하기 때문에 정확도가 떨어질 수 있습니다.

  • 도메인지식 기반 기법: 전문가의 지식에 맞추어 데이터 특성에 맞춘 판단을 수행합니다. 숙련된 전문가를 이용하는 경우 매우 정확하지만, 도메인 지식을 체계적으로 표현하고 유지 관리하는 것이 어렵습니다.

  • 인공지능 기반 기법: 데이터 패턴을 학습시킨 모델을 이용하여 자동으로 식별하는 방법입니다. 빠르고 효과적이지만, 학습 데이터의 품질에 따라 정확도가 다르고 해석 근거 확보가 어려울 수 있습니다.

6. 추가 고려사항

  • 데이터 견고성 확보를 위한 데이터 점검 기법은 한 종류만 적용할 것이 아니라, 여러 기법을 동시에 적용하여 서로의 단점을 보완해야 합니다.

  • 데이터 견고성 확보 활동은 일회성에 그치지 말고 그 효과성을 지속적으로 평가하고 개선해야 합니다.

  • 시뮬레이션은 데이터 공격에 대한 방어 시스템의 성능을 평가하는데 사용될 수 있습니다.

  • 적대적 공격은 데이터(요구사항 6), 모델(요구사항 10), 시스템(요구사항 13) 전반에 걸쳐 이루어지므로, 통합적으로 고려되어야 합니다.

7. 사례

[1] 클래스별 불균형을 확인하기 위해, 차트 등을 이용해 시스템 상에서 바로 분포를 확인하는 기능 제공하며, 이상값 점검은 도메인지식 기반 기법을 활용하여 관련 의견 기록을 보유함

Last updated