10 인공지능 모델 공격에 대한 방어 대책 수립

인공지능 모델은 적대적 의도를 가진 사용자에 의해 인공지능이 잘못된 의사결정을 하도록 유도하는 공격의 대상이 될 수 있으므로 이를 방지 또는 완화하기 위한 대책을 수립한다.

10-1 모델 공격이 가능한 상황을 파악하였는가?

적대적으로 생성된 입력과 같이 작은 변화에도 모델을 오동작하게 만드는 공격은 인공지능 시스템의 안전성을 위협할 수 있다. 따라서, 적대적 공격을 이해하고 적절한 대응 방안을 마련하여 인공지능 모델의 견고성을 향상시키는 것이 필요하다.
적대적 공격의 대표적 유형으로는 회피 공격(evasion attack)이 있다. 추론 중에 인공지능 모델을 속이기 위해 입력 데이터를 조작하는 것이다. 이러한 공격에 대응하는 방안을 수립하기 위해서는, 개발 중인 모델의 데이터 유형(예: 이미지, 텍스트, 오디오)별로 공격 가능한 적대적 사례를 파악하여야 한다.

10-1a 데이터 유형별 공격 가능한 적대적 사례를 확인하였는가?

적대적 공격에 관한 연구가 가장 활발히 이루어지고 있는 분야는 영상 분야로, 입력 이미지 공격이 주를 이룬다. 이미지는 텍스트나 오디오에 비해 픽셀값의 고차원 배열로 표현되는 복잡성으로 인해 적대적 사례를 생성하기가 비교적 쉽기 때문이다. 생성된 적대적 사례는 사람에게는 정상으로 보일 정도로 설계되지만, 모델의 예측을 변경시킬 수 있다. 이미지를 대상으로 한 적대적 사례의 예시는 다음과 같다.
- 정지 표지판에 검은색 테이프를 붙여 자율주행 시스템이 속도 제한 표지판으로 오인식하도록 유도
- 의료 분야 영상에 적대적 노이즈를 추가하여 세그멘테이션 성능을 떨어뜨리도록 유도
텍스트 데이터 대상으로는, 문장에 대한 긍정 또는 부정에 대한 판별 모델에 대한 적대적 사례 연구가 진행되고 있다. 문장에서 중요 단어에 대한 후보군을 선정한 후 이를 대체하고 문법상 문제 여부, 유사도 등을 판단한 후에 오인식 확률이 높은 단어로 대체함으로써 공격이 가능하다.
오디오 데이터는 사람이 들을 수 없는 작은 노이즈를 입력에 추가하여 음성 인식 모델에 의해 잘못 인식되는 사례를 찾는 방법을 사용한다. 또한, 적대적 공격은 아니지만 오디오 데이터의 오인식 공격 방법으로써 특정 음으로 기계를 오작동시키거나, 사람이 들을 수 없는 영역대의 주파수를 이용하는 연구들도 진행된 바 있다.

10-2 모델 공격에 대한 방어 수단을 강구하였는가?

06-1에서 언급한 것처럼, 인공지능 서비스 운영 과정에서 입력 데이터에 최소한의 변조를 가해 예상과는 다른 결과를 출력하도록 하는 적대적 공격에 노출될 수 있다. 따라서, 인공지능 모델 개발 단계에서 대처 가능한 방안을 검토 및 적용하는 것이 바람직하다.
10-1을 통해 현재 개발 중인 모델의 공격 가능한 상황을 파악하였다면, 모델 최적화(model optimization)를 통해 적대적 공격에 방어할 수 있다. 모델 최적화는 주로 성능 향상, 자원 효율성 향상, 학습 시간 단축, 모델 해석성 개선 등의 차원에서 활용되지만, 적대적 사례에 대한 효과적인 대응을 위해 활용되기도 한다. 모델 최적화를 통한 방어 대책을 통해 모델이 적대적 사례에 강건하게 동작하도록 한다.

10-2a 모델 최적화를 통한 방어 대책을 마련하였는가?

인공지능 모델 개발 단계에서는 모델 최적화를 통해 인공지능 모델이 적대적 사례에 강건하게 대응할 수 있다. 대표적인 방어 대책으로는 Defensive Distillation, Gradient Regularization, Gradient Masking, Stochastic Network 등이 존재한다. 각 방안에 대한 설명 및 기법 예시를 다음 표에 정리하였다.
방어 대책을 선택할 때는 10-1을 통해 파악한 데이터 유형별 적대적 사례를 먼저 확인하는 것이 좋다. 예를 들어 Defensive distillation의 경우, 텍스트 분류를 수행하는 신경망을 대상으로 한 적대적 사례에 대해 견고성을 크게 향상시키지 못하였다는 연구 결과가 존재한다. 따라서, 방어 대책을 적용할 때는 데이터 유형에 가장 적합한 방안을 선택하는 것이 필요하다.
인공지능 모델 공격 방어를 위한 모델 최적화 방안

방어 대책	설명 및 기법 예시	적용 가능한 데이터 유형
Defensive Distillation	복잡한 신경망의 지식을 간단한 신경망으로 전이시키는 방법이다. 원본 모델의 확률 분포를 얻어 증류distillation 모델을 훈련하면, 증류 모델은 원본 모델의 특성을 보전하게 된다. 작업 수행 시 증류 모델을 활용하면 적대적 공격에 대응할 수 있다.	이미지 오디오
Gradient Regularization Gradient Masking	대부분의 적대적 공격은 모델 추론 과정에서의 경사gradient를 보고 공격이 이루어진다. 학습 모델의 경사가 출력으로 노출되는 것을 방지하는 것에 중점을 둔다. - Gradient Regularization: 모델의 경사를 일관된 형태로 유지(예: Bit Plane Feature ConsistencyBPFC regularizer, Second-Order Adversarial RegularizerSOAR) - Gradient masking: 출력에 노이즈를 추가하거나, 학습 중에 특정 부분을 제거함으로써 모델의 경사를 외부로부터 감춤(예: S2SNet)	이미지 오디오 텍스트
Stochastic Network	학습 모델의 불확실성을 다루기 위한 확률적인 요소를 도입하는 네트워크를 말한다. 이를 통해 모델의 결정을 불확실하게 만들어 적대적 사례에 대한 저항성을 높인다. (예: defensive dropout, Random Self-EnsembleRSE)	이미지 오디오 텍스트

방어 대책

설명 및 기법 예시

적용 가능한 데이터 유형

Defensive Distillation

복잡한 신경망의 지식을 간단한 신경망으로 전이시키는 방법이다. 원본 모델의 확률 분포를 얻어 증류distillation 모델을 훈련하면, 증류 모델은 원본 모델의 특성을 보전하게 된다. 작업 수행 시 증류 모델을 활용하면 적대적 공격에 대응할 수 있다.

이미지

오디오

Gradient Regularization Gradient Masking

대부분의 적대적 공격은 모델 추론 과정에서의 경사gradient를 보고 공격이 이루어진다. 학습 모델의 경사가 출력으로 노출되는 것을 방지하는 것에 중점을 둔다.

- Gradient Regularization: 모델의 경사를 일관된 형태로 유지(예: Bit Plane Feature ConsistencyBPFC regularizer, Second-Order Adversarial RegularizerSOAR)

- Gradient masking: 출력에 노이즈를 추가하거나, 학습 중에 특정 부분을 제거함으로써 모델의 경사를 외부로부터 감춤(예: S2SNet)

이미지

오디오

텍스트

Stochastic Network

학습 모델의 불확실성을 다루기 위한 확률적인 요소를 도입하는 네트워크를 말한다. 이를 통해 모델의 결정을 불확실하게 만들어 적대적 사례에 대한 저항성을 높인다. (예: defensive dropout, Random Self-EnsembleRSE)

이미지

오디오

텍스트

개선 의견 보내기

Previous09 인공지능 모델의 편향 제거 Next11 인공지능 모델 명세 및 추론 결과에 대한 설명 제공

Last updated 3 months ago