요구사항 3. 인공지능 시스템의 신뢰성 테스트 계획 수립

1. 인증 기준

인공지능 시스템(AI)의 신뢰성을 테스트하기 위한 계획 수립해야 합니다. 신뢰성 테스트 계획은 대상 AI 시스템의 특성을 고려하고, 테스트 목표를 달성하기에 충분한 범위를 포괄해야 합니다.

구분	내용
평가 대상	인공지능 모델, 인공지능 시스템
평가 방법	문서‧절차 검사
주요 확인사항	• 테스트를 통해 달성하고자 하는 목표를 명확하게 정의 하였는지 확인합니다. • 테스트 대상이 되는 AI 시스템의 기능과 범위가 명확하게 정의되어 있는지 확인합니다. • 테스트를 수행하는 데 사용할 방법론(평가기준 포함)이 정의되어 있는지 확인합니다. • 테스트를 수행할 환경이 정의되어 있는지 확인합니다. • 테스트를 수행하는 데 사용할 데이터가 정의되어 있는지 확인합니다.

구분

내용

평가 대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 테스트를 통해 달성하고자 하는 목표를 명확하게 정의 하였는지 확인합니다.

• 테스트 대상이 되는 AI 시스템의 기능과 범위가 명확하게 정의되어 있는지 확인합니다.

• 테스트를 수행하는 데 사용할 방법론(평가기준 포함)이 정의되어 있는지 확인합니다.

• 테스트를 수행할 환경이 정의되어 있는지 확인합니다.

• 테스트를 수행하는 데 사용할 데이터가 정의되어 있는지 확인합니다.

레드티밍: 기술의 기능, 한계, 개선 방법을 파악하기 위해 의도적으로 기술의 안전 장벽을 허물고자 하는 시도로써, 벤치마크 및 적대적 테스트와 같은 기존 모델 거버넌스를 강화합니다. 특히, 생성형 인공지능처럼 평가의 지표 및 유효성이 개발중인 분야에 유용합니다.

증빙 문서

포함 내용

시험 계획서

테스트 데이터

테스트 리포트

소스코드 일부

• 시험용

사용자 평가 수행 이력

• 사용자 평가단 명단 (없으면 모집기준)

• 사용자 평가 질문 문항

ISO/IEC TR 29119-11:2020 - Software and systems engineering — Software testing — Part 11: Guidelines on the testing of AI-based systems
Generative Red Teaming Challenge: Transparency Report (2024)
- https://drive.google.com/file/d/1JqpbIP6DNomkb32umLoiEPombK2-0Rc-/view?usp=drive_link

[1] 테스트 시 실제 사용 환경에서 사용자가 업로드하는 영상을 테스트 데이터로 사용하고, 영상을 대상으로 전문가의 평가와 시스템의 추론 결과를 비교하여 그 유의성을 검증

Last updated 2 months ago