요구사항 10. 인공지능 모델 공격에 대한 방어 대책 수립

1. 인증 기준

인공지능 시스템은 모델이 의도한 대로 작동하지 않도록 조작하는 공격에 대한 대처가 필요합니다. 즉, 모델의 입력 데이터를 조작하거나 모델 학습 과정에 영향을 미쳐 모델의 판단을 오도하거나 원하는 결과를 얻도록 유도할 수 없도록 방어 대책을 수립해야 합니다.

2. 평가 개요

구분내용

평가대상

인공지능 모델, 인공지능 시스템

평가 방법

문서‧절차 검사

주요 확인사항

• 가능한 모델 공격 유형을 파악하였는지 확인합니다.

• 모델 공격의 영향도를 파악하였는지 확인합니다.

• 모델 공격에 대한 방어 대책 수립을 확인합니다.

3. 평가 세부 설명

3.1 신뢰 속성

  • 보안성 및 회복탄력성: 왜곡된 데이터 등에 모델이 얼마나 견고한지 확인합니다.

3.2 관련 프로세스

  • 모델 회피공격: 데이터 중독 공격이 머신러닝 모델의 학습 과정에 직접 관여해 모델 자체를 공격하는 개념이라면 회피 공격은 입력 데이터에 최소한의 변조를 가해 모델을 속이는 공격

  • 탈옥(jailbreak): 생성형 AI모델에서, 악의적인 목적의 사용자가 모델의 취약점을 악용해 유해한 정보를 생성해 내도록 유도하는 공격

4. 평가 증빙

증빙 문서포함 내용

모델 취약점 분석 문서

• 취약점(공격) 대응 방안

5. 관련 기법 및 도구

6. 추가 고려사항

  • 생성형 AI모델은 프롬프트 입력창이 제공되므로, 주로 프롬프트에 의해 공격이 이루어집니다. 탈옥에 대응하기 위해, 프롬프트 수를 제한하고 필터링 등을 적용할 수 있습니다.

  • 적대적 공격은 데이터(요구사항 6), 모델(요구사항 10), 시스템(요구사항 13) 전반에 걸쳐 이루어지므로, 통합적으로 고려되어야 합니다.

7. 사례

[1] 모델 회피 유형을 정의 및 알리는 기능을 구현하고, 자사 QA팀을 통해 회피 공격에 대한 시나리오 테스트를 수행.

Last updated