13 인공지능 시스템의 안전모드 구현 및 문제 발생 알림 절차의 수립

많은 국가와 업계에서는 기업이 개인 데이터를 보호하고 보안 침해를 방지하기 위해 보안 조치를 시행하도록 요구하는 규정을 두고 있다. 조직은 안전모드와 문제 발생 알림 절차를 마련함으로써 이러한 규정을 준수하고 있음을 입증할 수 있다.
또한 생성 AI 기반 서비스에서 안전모드를 효과적으로 구현하려면 조직은 위험에 초점을 맞춘 접근 방식을 채택해야 한다. 여기에는 AI 연구원, 머신러닝 엔지니어, 보안 설계자, 보안 분석가를 비롯한 이해관계자 간의 협업을 통해 시스템 개발 및 배포의 전체 생명 주기 동안 위험을 평가하고 완화하는 것이 포함된다. 또한 모델 구축 프로세스에 보안 제어 기능을 내장하고, 거버넌스 프레임워크를 수립하며, 직원 교육 및 인식 프로그램을 통해 책임감 있는 AI 사용을 장려해야 한다. 이와 함께 인적 감독과 윤리적 고려 사항을 통합하고 보안 리더와 협력하면 조직이 생성 AI 모델과 관련된 보안 위험을 선제적으로 해결할 수 있다[142].

13-1 공격, 성능 저하 및 사회적 이슈 등의 문제 발생 시에 대응이 가능한 안전모드를 적용하는가?

안전모드는 의도하지 않거나 악의적인 행동을 방지하기 위해 시스템이 제한된 용량으로 작동하거나 특정 기능에 대한 액세스를 제한하도록 설계하는 것을 의미한다. 공격, 성능 저하, 사회적 이슈와 같은 문제에 대응할 수 있는 생성 AI 모델은 안전모드를 적용해야 한다. 개발된 모델에 안전모드를 구현하려면 시스템 사용과 관련된 위험을 방지하거나 완화할 수 있는 페일 세이프Fail Safe 메커니즘을 만들어야 한다. 이런 메커니즘은 외부 공격, 인적 오류, 성능 문제, 편향성 논란 등이 발생한 AI 모델에 적용할 수 있다.
AI 모델의 안전을 보장하기 위해, 개인에게 미칠 수 있는 잠재적 영향을 고려할 때 기술적 안전 조치만으로는 충분하지 않을 수 있기 때문에 개발 과정에 도메인 전문가를 참여시키도록 한다. 또한 고도의 개인정보 및 민감한 데이터를 보호하기 위해 변호사나 컨설턴트의 자문을 구하도록 한다.
다음과 같은 기본 사항을 참조한다.
- 안전모드 정의: 생성 AI 모델이 문제나 보안 위협에 직면했을 때 금지되는 행동과 작업을 자세히 정의한다. 이를 통해 잠재적인 위험으로부터 사용자와 모델을 보호할 수 있다.
- 안전모드 구현: 공격, 성능 문제, 사회적 문제를 해결하는 반응형 안전모드를 AI 모델에 내장한다. 백업 모델 또는 사용자 알림 활성화 등으로 문제를 감지하고 관리하도록 설계해야 한다. 안전모드를 모델 코드에 통합하여 강도 높게 테스트하도록 한다.
- 문제 알림 절차 수립: 사용자가 생성 AI 모델의 문제를 보고할 수 있는 방법을 수립하고, 문제 대응 및 해결을 위한 단계를 개발한다(섹션 15-1 참고). 헬프데스크, 지원 센터 또는 자동화된 실시간 문제 감지 기능을 만드는 것을 고려하도록 한다.
- 모니터링 및 업데이트: 생성 AI 모델의 성능 저하 및 공격을 지속적으로 모니터링하여 신속하게 대응한다. 효율성과 효과성을 위해 이슈 보고 프로세스를 정기적으로 검토하고 개선하도록 한다.

13-1a 문제 상황에 대한 예외 처리 정책이 마련되어 있는가?

문제 상황을 생성하는 AI 모델에 대해서도 예외 처리 정책을 마련하는 것이 중요하다. 예외 처리 정책은 콘텐츠 생성, 하드웨어 또는 소프트웨어 장애, 서버 사용량, 보안 침해 또는 기타 비정상적인 상황과 같은 예기치 않은 이벤트가 발생할 때 모델이 어떻게 대응해야 하는지를 설명한다. 예외 처리 정책을 마련하면 생성 AI 모델이 문제 상황에 빠르고 효과적으로 대응하여 사고의 영향을 최소화하고 가능한 한 빨리 모델이 정상 작동 상태로 복구되도록 할 수 있다.
이러한 예외에 대한 인사이트를 제공하기 위해 개발자에게 모델이 제대로 작동하지 않는 이유와 이러한 상황에서 모델이 어떻게 대응해야 하는지에 대한 설명을 제공해야 한다.

13-1b 인공지능 데이터 및 모델 공격에 대해 시스템 측면의 방어 대책을 마련하였는가?

생성 AI 모델을 개발할 때에는 모델 보안 구조와 보안 기술을 활용한 구축 솔루션을 적용하여 사용된 데이터와 모델의 안전뿐만 아니라 개발된 인공지능 시스템의 전체적인 보안을 보장할 수 있도록 한다.
따라서 모델 추출 공격에 대한 방어 기법을 확보하여 예방 조치를 하는 것을 권장한다. 개발된 생성 AI 기반 서비스를 모델 추출 공격으로부터 보호하기 위해 사용할 수 있는 몇 가지 방어 기법이 있다.
모델 공격에 대한 시스템 측면의 방어 대책

방어 기술 분류	방어 기술 내용
노이즈 인젝션 (차등 프라이버시) [236]	차등 개인정보보호 기법은 모델 출력에 노이즈를 추가하여 공격자가 중요한 정보를 추출하기 어렵게 만든다. 또한 이러한 기법은 시스템에서 모니터링하는 사용자의 개인정보를 보호하는 데 도움이 된다. 노이즈를 도입하면 모델 결과의 보안이 강화되어 민감한 데이터를 보호하고 사용자의 개인정보보호를 강화할 수 있다.
워터마킹 [236]	워터마킹은 추가적인 보호 계층을 추가하고 생성 AI 모델의 보안을 강화한다. 워터마킹 기술을 사용하면 공격자가 모델을 추출할 경우, 모델을 식별하는 데 사용할 수 있는 고유 식별자를 모델에 포함시킬 수 있다. 이렇게 하면 공격자가 모델을 원래 시스템으로 추적할 수 있다는 것을 알 수 있으므로 모델을 추출하려는 시도를 억제하는 데 도움이 될 수 있다.
쿼리･프롬프트 수 제한하기	모델 공격에 대한 반복적인 쿼리를 방어하기 위해 특정 기간 내에 수행할 수 있는 쿼리 수를 제한하는 기법이다.
사용자 입력･프롬프트 필터링하기	특정 제한 내에서 수행할 수 있는 사용자 프롬프트와 금지된 입력을 필터링하여 모델 공격에 대한 쿼리를 방어하는 기술이다.

방어 기술 분류

방어 기술 내용

노이즈 인젝션

(차등 프라이버시)

[236]

차등 개인정보보호 기법은 모델 출력에 노이즈를 추가하여 공격자가 중요한 정보를 추출하기 어렵게 만든다. 또한 이러한 기법은 시스템에서 모니터링하는 사용자의 개인정보를 보호하는 데 도움이 된다. 노이즈를 도입하면 모델 결과의 보안이 강화되어 민감한 데이터를 보호하고 사용자의 개인정보보호를 강화할 수 있다.

워터마킹

[236]

워터마킹은 추가적인 보호 계층을 추가하고 생성 AI 모델의 보안을 강화한다. 워터마킹 기술을 사용하면 공격자가 모델을 추출할 경우, 모델을 식별하는 데 사용할 수 있는 고유 식별자를 모델에 포함시킬 수 있다. 이렇게 하면 공격자가 모델을 원래 시스템으로 추적할 수 있다는 것을 알 수 있으므로 모델을 추출하려는 시도를 억제하는 데 도움이 될 수 있다.

쿼리･프롬프트 수 제한하기

모델 공격에 대한 반복적인 쿼리를 방어하기 위해 특정 기간 내에 수행할 수 있는 쿼리 수를 제한하는 기법이다.

사용자 입력･프롬프트 필터링하기

특정 제한 내에서 수행할 수 있는 사용자 프롬프트와 금지된 입력을 필터링하여 모델 공격에 대한 쿼리를 방어하는 기술이다.

참고: 안전한 생성 AI 모델의 예시 구축[281]

만약 특히 민감한 개인정보나 개인 또는 생체 정보를 수집하는 모델을 개발 중이라면, 개발된 모델의 보안을 강화하기 위해 생성 AI 모델을 구축하는 것을 고려해야 하며, 추가적인 보안 조치와 필터링 메커니즘 그리고 개발된 모델, 데이터 및 모델 출력 및 저장된 데이터를 보호하기 위해 특별히 다양한 보안 기술을 사용하는 것을 권장한다.
인공지능은 네트워크에서 선제적･예측적으로 이상 현상을 감지하고 자체에 대한 공격도 감지하는 데 사용될 수 있다. 예를 들어, 이 연구는 지능형 네트워크 서비스 맥락에서 생성 AI 모델이 제기하는 보안적 도전과 기회를 탐구한다. 저자들은 다음 그림에서 볼 수 있는 생성 AI 모델의 풍경을 개요로 제시하며, 대규모 언어 및 확산 모델과 같은 응용 및 기초적인 기술에 중점을 두고 있다. 이 논문은 생성 AI 모델의 잠재적 공격의 ‘창’으로서의 역할과 방어 메커니즘의 ‘방패’로서의 역할 간의 동적인 상호작용에 대해 논의한다. 이는 무선 네트워크에서 잠재적인 모델 관련 공격의 두 가지 범주에 초점을 맞추며 해당하는 방어 전략을 제안한다.

13-1c 인공지능 시스템의 의사결정으로 인한 파급효과가 크고 불확실성이 높은 경우, 사람의 개입을 고려하였는가?

의사결정과 관련된 실패를 피하고 모델 내의 편견적인 영향과 불확실성을 줄이기 위해서는 콘텐츠 생성 과정 중에 의사결정이나 인간의 평가･등급 부여 단계를 통합하는 것을 권장한다. 이 단계는 불확실성, 예기치 않은 편향, 노출되지 않은 내용, 비승인 또는 조작된 내용 그리고 생성된 내용의 환각과 같은 문제를 다루기 위해 직접적인 인간의 추론을 포함한다. 불확실성은 이러한 AI 모델의 각 출력에 대한 신뢰 부족을 의미한다.
이러한 모델들의 학습 결과를 개선할 수 있다. 이는 최종 사용자나 환경에 직접적인 영향을 미치거나 사용자･개인에게 자가 지원 역할을 하도록 설계된 것이다. 도메인 전문가의 확인을 필요로 하는 체계적인 접근 방식은 모델이 데이터를 정확하게 입력하는 것을 보장할 수 있다. 게다가 예외 처리 및 보안 기술을 고려함으로써 인간을 포함하여 AI의 사용으로 인한 불확실성을 완화하는 데 도움이 될 수 있다.
- 사람과 함께하는 시스템: 생성인 AI 시스템은 ‘사람과 함께하는’ 시스템으로 설계될 수 있다. 여기서는 인간이 자동화된 알고리즘과 함께 콘텐츠 생성 또는 출력 평가 과정에 참여한다. 이러한 시스템에서 알고리즘은 데이터 분석을 기반으로 권장 사항을 제공하며, 인간은 자신의 전문 지식과 경험을 기반으로 최종 결정과 평가를 내릴 수 있다.
- 사용자 피드백 및 입력: 이러한 모델들은 모델과 그 출력의 정확성을 높이기 위해 사용자의 피드백과 입력을 통합해야 한다.
- 인간의 감독과 검토: 생성인 AI 모델들은 자동화된 결정에 대한 인간의 감독과 검토를 제공하도록 설계될 수 있다. 이는 콘텐츠 생성 과정이나 생성된 내용의 정기적인 감사와 검토를 포함할 수 있으며, 의도한 대로 작동되고 개선할 수 있는지를 확인하기 위한 것이다.

13-1d 예상되는 사용자 오류에 대한 안내 및 대응 방안을 제공하는가?

사용자 에러를 예상하고 미리 대비함으로써 생성된 콘텐츠의 잠재적 문제를 완화할 수 있다. 사용자가 이러한 개발된 AI 모델과 상호작용할 때, 모호한 질의를 무심코 입력하거나 요청에서 실수를 할 수 있으며, 이는 불확실하거나 잘못된 결과를 낳을 수 있다. 명확한 입력을 제공할 수 있도록 명확화된 질문이나 프롬프트 형식의 안내를 제공함으로써 생성 AI 모델로부터 더 정확하고 관련성 있는 응답을 얻을 수 있다.
사용자 에러에 대한 선제적 대응 계획은 다음과 같다.
- 제한 설정: 사용자의 선택을 일부 제한하여 잘못된 사용자 입력을 방지하기 위해 허용 가능한 옵션을 정의하고 보여준다.
- 시스템 제안과 수정: 자주 발생하는 사용자 실수를 수집하고, 실제 서비스 중에 비슷한 사용자 실수가 발생하면 시스템은 수정을 유도하거나 올바른 입력을 제안한다.
- 기본값 설정: 제조업체, 회사, 서비스 제공자가 결정한 기본값, 계층, 준비된 프롬프트를 먼저 제공하여 사용자 에러를 줄일 수 있다. 또는 사용자가 자주 사용하는 예시를 제공할 수도 있다.
- 재확인, 결과 제공 및 취소: 사용자가 입력한 것을 재확인한다. 이는 잘못된 또는 부적절한 프롬프트로 인해 시스템 리소스를 불필요하게 사용하는 것을 방지할 수 있다. 사용자에게 알림을 제공하고 필요시 시스템 관리자나 유지보수 팀이 해당 문제･동작을 처리할 수 있는 안전모드 메커니즘을 트리거하는 기능을 디자인해야 한다.

13-2 인공지능 시스템에서 문제가 발생할 경우, 시스템은 이를 운영자에게 전달하는 기능을 수행하는가?

생성 AI 모델은 개인과 환경에 중대한 영향을 미치며, 그 결과는 예측할 수 없거나 편향되거나 잘못된 정보 또는 환각적인 결과를 초래할 수 있으므로 최종 사용자와 시스템 운영자는 이러한 문제를 검증해야 한다. 이를 위해 오작동, 조작, 편견, 차별 등과 같은 문제, 장애 및 윤리적 우려 사항을 보고하는 가이드라인을 마련해야 한다. 이 가이드라인은 이러한 문제를 신속하게 파악하고 해결할 수 있도록 한다.
또한 다양성을 보장하고 잠재적 사용자와 환경에 미치는 영향을 고려하는 것은 개발 과정에서 매우 중요하다. 모델의 효과를 유지하기 위해서는 지속적인 평가와 성과 지표 및 관리 절차의 수립이 필요하다.

13-2a 편견, 차별 등 윤리적 문제에 대한 알림 절차를 수립하였는가?

개발된 생성 AI 모델에서 개개인의 조작, 편견 또는 차별과 같은 윤리적 문제의 가능성을 확인하고, 문제 발생 시에 대응하기 위한 통지 기능 또는 절차가 마련되었는지를 확인한다.
윤리적 문제 통지 절차에서 먼저 인공지능 시스템 자체의 신뢰도를 평가하기 위한 기준과 점검 항목을 마련한다. 주요 점검 항목의 예시는 다음과 같다.
- 인권, 개인정보보호, 법과 제한 사항 준수, 환경보호, 다양성 존중, 권리 침해 금지, 공공성, 연대, 개인 데이터 관리, 책임성, 안전성, 투명성, 라이선스 관리, 민감한 데이터의 사용 및 저장 등이다.
이러한 모델에서 조작, 편견, 차별과 같은 윤리적 문제를 신고하는 절차가 마련되어야 한다. 이를 통해 이러한 문제가 신속히 발견되고 대응되며, 개발된 생성 AI 모델의 사용에서 공정함, 공평함, 윤리적 행동이 촉진될 수 있도록 도와준다. 조직과 개발자는 특히 이러한 모델이 조작적이고 가스라이팅 및 나르시스트적인 행동을 보일 수 있다는 점에 주의해야 한다. 이러한 생성 모델의 특성상 해당 모델은 특정 인격으로 훈련되기도 한다. 따라서 시스템 개발자는 이러한 모델의 인격을 개발하는 과정에서 매우 주의 깊게 접근해야 한다. 개발자가 이러한 행동 관련 윤리적 문제를 유지할 수 있도록 엄격한 심리학 지침이나 프레임워크를 확보하는 것을 권장한다[285].

참고: ‘특수 데이터 범주’와 ‘보호된 비차별화 근거’ 간의 구별에 대한 생성 AI 모델[282]의 구분

윤리적 문제가 발생할 수 있는 기본적인 이유는 생성 AI 모델의 '특수 데이터 범주'와 '보호된 비차별화 근거' 간의 구별을 충분히 다루지 못하기 때문이다.
- 대한민국 개인정보보호위원회(이하 '위원회')는 인공지능 환경에서의 개인정보보호 및 데이터 보호를 위해 <인공지능 시대의 안전한 개인정보 활용을 위한 정책 방향> 가이드를 발표했다. 이 가이드에는 인공지능을 개발하는 조직을 위한 ｢개인정보 보호법(PIPA)｣의 해석 및 적용 방법을 설명하는 규정이 포함되어 있다[292]. 이러한 유형의 데이터를 사용하는 생성 AI 기반 서비스는 데이터가 차별적이거나 유해한 방식으로 사용되지 않도록 추가적인 안전장치를 설계해야 한다[293].
- 보호된 비차별화 근거는 차별금지법*에 따라 금지된 차별화 근거를 나타낸다. 이러한 근거에는 인종, 민족, 종교, 성별, 성적 지향성, 장애 및 연령이 포함된다. 이러한 데이터 유형을 사용하는 생성 AI 모델은 해당 데이터가 차별적이거나 해로운 방식으로 사용되지 않도록 하는 보호 조치가 필요하다[294].
  *‘차별금지법’ 초안 4건이 이미 대한민국 국회에 제출되었다[295].

13-2b 시스템 성능 저하를 평가하기 위한 지표와 절차를 설정하고 알림 절차를 수립하였는가?

생성 AI 모델을 다룰 때는 시스템 저하 평가 및 통지 프로토콜 시행을 위한 견고한 지표와 절차가 필수적이다. 이러한 조치는 생성 AI 모델의 신뢰성과 보안을 유지하며 잠재적 문제에 신속히 대응하고 미래에 발생 가능한 문제를 예방하며 사용자의 신뢰도를 높이는 데 필수적이다.
생성 AI 모델에 선택할 수 있는 일반적인 성능 지표로는 AUC, F1 점수, 정밀도, 정확도, 재현율, 특이도, CLIP, FID, FVD, BLEU, true positive, true negative, false positive, false negative 등이 포함된다. 이와 함께 성능 지표를 해석할 수 있는 도메인 전문가를 위한 교육도 필요하다.

참고: 생성 모델의 성능과 유용성을 검증하는 방법의 예시

성능 검증 절차에는 모델의 성능을 실시간으로 또는 주기적으로 모니터링하는 메커니즘을 설정하는 것이 포함된다. 모델의 성능이 특정 임계치 아래로 떨어지거나 기대되는 동작과 크게 다를 때, 알림 절차를 통해 시스템 관리자나 관련 이해관계자에게 알릴 수 있다. 생성 모델의 시스템 저하를 평가하고 알림 절차를 수립할 때에는 ROUGE_L 및 BLEU를 포함하여 여러 지표와 절차가 일반적으로 사용된다[299].
- BLEU 점수[300]
- ROUGE 점수[301]
- F1 score
- BERTscore[301]
- Word Error Rate(WER)[303]

개선 의견 보내기

Previous12 인공지능 시스템 구현 시 발생 가능한 편향 제거 Next14 인공지능 시스템의 설명에 대한 사용자의 이해도 제고

Last updated 3 months ago