10 인공지능 모델 공격에 대한 방어 대책 수립

인공지능 모델은 적대적 의도를 가진 사용자에 의해 인공지능이 잘못된 의사결정을 하도록 유도하는 공격의 대상이 될 수 있으므로 이를 방지 또는 완화하기 위한 대책을 수립한다. 위험 중심 전략과 거버넌스 프레임워크는 생성 AI 기반 서비스와 관련된 보안 위험을 해결하는 데 효과적이다[142].
워터마킹, 입력 변환 등과 같은 방어 조치는 공격에 직면했을 때 생성형 AI 기반 모델의 안전성과 신뢰성을 보장하는 데 중요한 역할을 한다.

10-1 모델 공격이 가능한 상황을 파악하였는가?

생성 AI 모델에서 탈옥이란, 악의적인 목적의 사용자가 모델의 취약점을 악용하여 유해한 정보를 생성해 내도록 유도하는 것을 의미한다.
이러한 공격에 대응하기 위해, 최신 연구 동향을 파악하고 생성 AI 모델에 방어 기법을 구현하는 것을 고려해야 한다. 워터마킹, 프롬프트 수 제한, 프롬프트 필터링 등과 같은 전략은 위험을 완화하고 AI 시스템의 보안을 강화할 수 있다.
적대적 공격은 신중하게 설계된 입력(프롬프트)을 통해 인공지능 모델을 조작하는 것을 목표로 한다. 적대적 공격에 대한 방어 메커니즘은 적대적인 변화가 없는 출력 데이터를 식별하여 공격으로부터 효과적으로 방어할 수 있는 방법이다[149].

참고: 생성 AI 모델에 대한 적대적 공격 사례

생성형 AI 모델과 딥 러닝 모델은 프롬프트 공격, 표적 공격 등 다양한 유형의 공격에 취약하며, 이로 인해 유해하고 예측할 수 없는 결과가 나올 수 있다. 여러 연구자는 이러한 공격을 방어하기 위해 다양한 방법을 제안했지만 아직까지는 보편적으로 효과적인 단일 접근 방식이 부재하다. 개발된 생성 AI 기반 서비스의 신뢰성과 보안을 보장하기 위해 새로운 방법을 지속적으로 연구하고 개발하는 것이 중요하다.
- 탈옥은 생성 AI 기반 서비스에서 입력 데이터를 조작하여 잘못된 결과를 생성하는 프롬프트 공격을 포함한다. 예를 들어 공격자는 생성 AI를 사용하여 딥페이크 또는 대규모 허위 정보 캠페인을 생성할 수 있다. 또한 공격자는 모델에 대한 입력을 조작하여 모델이 잘못된 예측이나 분류를 하도록 하여 모델의 학습 데이터에 대해 민감한 정보를 노출하거나 의도하지 않은 방식으로 작동하도록 속일 수 있다[145].
DAN(Do Anything Now) 모드란 생성 AI 모델을 탈옥시킬 수 있는 프롬프트를 작성하여 생성 AI의 제한된 동작을 해제하는 방법이다.
- 현재는 다양한 프롬프트로 인해서 DAN을 사용하지 않지만 다수의 사용자에 의해서 DAN 버전이 업그레이드되고 있다.

10-1a 데이터 유형별 공격 가능한 적대적 사례를 확인하였는가?

생성 AI 모델에서의 공격은 프롬프트에 의해서 이루어진다. 이러한 공격은 대부분 입·출력을 필터링하는 것으로 해결한다. 하지만 모델 접근 제한이 해제된 경우 모델에 대한 직접적인 공격도 가능하다.
예를들어, 모델 백도어 설정은 인공지능 모델에 의도적으로 숨겨진 기능이나 약점을 설치하는 것을 의미한다. 백도어는 모델이 특정 입력이나 조건에서만 특별한 행동을 가능하게 하도록 조종한다. 예를들어, 특정 단어나 패턴을 입력하면 모델이 일반적인 행동과 다르게 작동하도록 설정할 수 있다.

참고: 데이터 공격 및 방어 기술의 예

10-2 모델 공격에 대한 방어 수단을 강구하였는가?

생성 AI 모델은 자율 시스템, 의료, 법, 교육, 금융과 같이 중요한 분야에서 다양한 방법으로 활용되고 있다. 공격자는 생성 AI 모델의 취약점을 악용하여 의도된 기능을 조작하거나 회피할 수 있으며, 이는 잠재적으로 악의적인 활동, 데이터 유출 또는 허위 정보 캠페인으로 이어진다[139]. 모델 회피 공격은 보안 조치를 우회하고 무단 액세스를 얻는 데 사용될 수 있기 때문에 특히 위험할 수 있다. 따라서 생성 AI 모델이 널리 사용되기 위해서는 보안, 신뢰성, 안전성이 보장되어야 한다.
어떤 방어 기법도 완벽한 것은 없다. 공격자는 머신러닝 모델을 우회하는 새로운 방법을 찾을 수 있다는 점을 예상해야 한다. 따라서 잠재적인 위협을 예방하기 위해 방어 전략을 정기적으로 업데이트하고 조정해야 하며, 모델 설계자와 개발자는 신속한 인젝션 및 기타 새로운 공격 벡터로부터 보호하기 위한 방어 기법 적용을 고려해야 한다. 이러한 예방 조치를 함으로써 생성 AI 모델의 보안을 강화하고 회복탄력성을 향상할 수 있다.

10-2a 모델 최적화를 통한 방어 대책을 마련하였는가?

공격자는 모델을 직접 공격하는 것이 아니라 파인튜닝된 버전이나 추출된 로컬 모델을 공격하는 새로운 방식으로 공격할 수 있다[237]. 따라서 모델 추출 공격에 대한 방어 메커니즘을 설계할 때, 개발한 생성 AI 모델의 파인튜닝 버전 또는 추출된 버전에 대한 공격까지 고려하는 것이 필요하다. 모델 공격에 대한 주요 완화 방법에는 다음과 같은 방법들이 있다.
모델 공격에 대한 방어 기술

방어 기술 분류	방어 기술 내용
방어적 증류	모델에 대한 또 다른 효과적인 방어 방법이다[239]. 방어 증류는 다른 모델에 의해 생성된 소프트 타깃에 대해 모델을 훈련하는 방어 방법이다. 사전 학습된 모델의 예측을 모방하도록 모델을 학습시키면 모델의 결정 경계가 명확하지 않기 때문에 공격자가 효과적인 적대적 사례를 만들기가 더 어려워진다[240].
그라디언트 마스킹	그라디언트 마스킹은 모델의 그라디언트를 숨겨 공격자가 효과적인 적대적 섭동을 계산하기 어렵게 만드는 것을 목표로 하는 기법이다. 그라데이션 정보에 대한 액세스를 제한하기 위해 모델 아키텍처 또는 훈련 절차를 수정하여 공격자가 적대적인 예제를 만드는 능력을 방해한다[240]. 그러나 OpenAI 실험에 따르면 이 방법은 모델에서 잘 작동하지 않는다[239].
앙상블 방법	앙상블 방법에는 초기화 또는 아키텍처가 다른 여러 모델을 학습하고 예측을 결합하는 것이 포함된다. 앙상블의 다양성을 활용하면 공격자가 모든 모델을 동시에 속이는 악의적인 예제를 만들기가 더 어려워져 시스템의 전반적인 견고성이 높아진다[240].

방어 기술 분류

방어 기술 내용

방어적 증류

모델에 대한 또 다른 효과적인 방어 방법이다[239]. 방어 증류는 다른 모델에 의해 생성된 소프트 타깃에 대해 모델을 훈련하는 방어 방법이다. 사전 학습된 모델의 예측을 모방하도록 모델을 학습시키면 모델의 결정 경계가 명확하지 않기 때문에 공격자가 효과적인 적대적 사례를 만들기가 더 어려워진다[240].

그라디언트 마스킹

그라디언트 마스킹은 모델의 그라디언트를 숨겨 공격자가 효과적인 적대적 섭동을 계산하기 어렵게 만드는 것을 목표로 하는 기법이다. 그라데이션 정보에 대한 액세스를 제한하기 위해 모델 아키텍처 또는 훈련 절차를 수정하여 공격자가 적대적인 예제를 만드는 능력을 방해한다[240].

그러나 OpenAI 실험에 따르면 이 방법은 모델에서 잘 작동하지 않는다[239].

앙상블 방법

앙상블 방법에는 초기화 또는 아키텍처가 다른 여러 모델을 학습하고 예측을 결합하는 것이 포함된다. 앙상블의 다양성을 활용하면 공격자가 모든 모델을 동시에 속이는 악의적인 예제를 만들기가 더 어려워져 시스템의 전반적인 견고성이 높아진다[240].

또한 IBM의 오픈소스 프로젝트인 ART(Adversarial Robustness Toolbox)와 같은 도구, 프레임워크, 라이브러리 등의 솔루션을 얻을 수 있다.

참고: IBM의 적대적 견고성 툴박스(ART) [242]

IBM의 ART는 적대적 위협으로부터 머신 러닝(ML) 모델과 애플리케이션을 평가, 방어, 인증 및 검증하기 위한 도구를 제공하여 모델 보안을 강화하도록 설계된 Python 라이브러리이다. 이 강력한 툴박스에는 공격 및 방어 도구가 포함되어 있어 개발자와 연구자가 회피, 중독, 추출, 추론 공격 등 다양한 공격 위협으로부터 모델과 애플리케이션을 보호하고 평가할 수 있도록 지원한다. ART는 널리 사용되는 ML 프레임워크, 다양한 데이터 유형(표, 이미지, 오디오, 텍스트, 비디오 등), 분류, 객체 감지, 음성 인식, 생성, 인증과 같은 광범위한 작업을 지원한다. IBM에서 개발한 ART는 적대적 공격으로부터 AI 시스템을 방어하는 데 중요한 역할을 하며, 이를 통해 AI 애플리케이션과 모델의 보안을 강화한다. 주요 기능은 다음과 같다:
- 5가지 공격 모듈에 대한 확장된 지원: 전처리기, 후처리기, 트레이너, 트랜스포머, 탐지기의 5가지 공격 모듈에 대한 확장 지원
- 3개의 견고성 메트릭, 1개의 인증 및 1개의 검증 메트릭 지원
- 여러 추정기 지원
모듈 공격, 방어, 메트릭 등에 대한 예제 노트북과 문서는 가이드라인 페이지 [243] 및 해당 GitHub 페이지 [244]에 게시된 사용자 가이드에서 확인할 수 있다.

개선 의견 보내기

Previous09 인공지능 모델의 편향 제거 Next11 인공지능 모델 명세 및 추론 결과에 대한 설명 제공

Last updated 3 months ago