13 인공지능 시스템의 안전 모드 구현 및 문제발생 알림 절차 수립

인공지능 시스템을 통해 생성되는 결과나 의사결정은 개인 혹은 사회에 부정적인 영향을 미칠 수 있으므로, 이에 대한 대응이 가능하도록 안전 모드를 구현하고, 문제발생 알림 절차를 수립한다.

13-1 공격, 성능 저하 및 사회적 이슈 등의 문제 발생 시 대응 가능한 안전 모드를 적용하는가?

고장 안전(fail-safe)은 산업 전반에서 사용되는 일반적 개념으로, 고장이나 오류로 문제가 발생하더라도 안전한 상태를 유지할 수 있는 방법 및 기능을 의미한다. 이는 인공지능 시스템에도 적용될 수 있다. 인공지능 시스템에서도 외부의 공격, 인적 오류(human error), 인공지능 모델의 성능 저하, 편향 발생으로 인한 사회적 물의, 사고 등이 예상되는 경우, 이의 발생 원인을 파악하고 해결하거나 사용자에게 정상적인 기능으로 복구할 수 있는 방법을 제시하여야 한다. 이러한 대처 방법이 작동하는 상태를 안전 모드라고 한다.
안전 모드를 구현하는 방법과 예시는 아래와 같다.
- 시스템에 문제 발생 시 기능 정지 및 피드백 제공 화면으로 전환
- 시스템에 문제 발생 시 서비스 제공 초기 화면 혹은 상태로 복구
- 인공지능 판단 결과의 불확실성이 높거나 문제 발생 가능성이 높은 경우, 이에 대한 의사결정을 회피하거나 사용자에게 상황에 대한 안내 제공
- 사용자의 악의적인 의도를 파악하고 이에 대한 입력을 거절
- 자동 및 자율 운영 중 시스템에 문제 발생 시 사람의 개입 유도
- 예상되는 사용자 오류에 대해 안내 및 대응 제공

참고: AI 시스템의 배포 이후 관리

세부 요구사항에서는 AI시스템 구현 단계에서 시스템의 안정적 사용을 위한 모드의 구현을 다루고 있다. 이를 구현하는 것도 중요하지만 시스템 운영 시 이를 지속적으로 확인하고 관리하는 작업이 필요하다. NIST AI RMF 의 MANAGE 4.1 에서는 AI 시스템을 배포한 후에 모니터링 계획을 이행해야 한다고 권장하며, 이 계획에는 사용자와 관련자의 입력 수집 및 평가, 이의 제기 및 재정의, 폐기, 사고 대응, 복구 및 변경 관리를 위한 메커니즘이 포함되어야 한다고 말한다.

13-1a 문제 상황에 대한 예외 처리 정책이 마련되어 있는가?

시스템에 문제가 발생하는 상황에서 기능 정지, 화면 전환 및 서비스 제공 초기 상태로의 복구, 입력 거절, 의사결정 회피 등의 예외 처리가 이루어지는지 확인해야 한다.
이러한 예외 처리가 이루어지는 경우, 인공지능 시스템 사용자에게는 시스템 운영이 적절치 않은 이유와 시스템의 대응에 대하여 설명을 제공해야 한다.
- 예를 들어, 인공지능 스피커가 음성을 제대로 인식하지 못해서 부정확한 입력값을 가지면, 낮은 성능과 더불어 불확실성도 높아질 것이다. 이러한 상황에서 인공지능 스피커는 사용자에게 "무슨 말인지 잘 모르겠어요." 등의 회피형 답변을 제공하는데, 이것 역시 문제 상황에 대한 조치 중 하나라고 할 수 있다.
- 단, 회피형 답변으로 해결할 수 없는 높은 위험도의 인공지능 서비스의 경우, 문제 상황에 대한 예외 처리 정책도 중요하지만 모델 자체의 개선 및 폐기도 고려해야 한다.

13-1b 인공지능 데이터 및 모델 공격에 대해 시스템 측면의 방어 대책을 마련하였는가?

06-2 및 10-1에서 언급한 적대적 공격 외에도, 인공지능 시스템은 데이터 및 모델을 대상으로 하는 다양한 공격에 노출될 수 있다. 따라서, 시스템 구현 단계에서 대처 가능한 방안을 검토 및 적용하는 것이 바람직하다.
시스템을 통한 데이터 및 모델 공격의 유형으로는 데이터 중독 공격(data poisoning attack), 모델 추출 공격(model extraction attack), 모델 전도 공격(model inversion attack) 등이 있다. 각 공격에 대한 설명은 다음 표에 정리하였다.
인공지능 데이터 및 모델 대상 공격 예시

공격 방법	설명
데이터 중독 공격	사용자의 입력을 통해 모델이 재학습되는 경우에, 인공지능 서비스 운영 과정에서 의도적으로 학습 데이터를 변질시켜 서비스의 정상적인 기능을 손상시키는 공격이다. 학습 데이터를 오염시킨다는 의미로, 데이터 오염 공격이라고도 한다.
모델 추출 공격	공격 대상 모델의 입력값과 결괏값을 분석하여 모델을 추출하는 공격이다. 모델에 쿼리(query)를 계속 던지면서 값을 분석하며, 반복적인 쿼리를 통해 모델을 유추하여 유사한 모델을 만들어 낼 수 있다. 추출 결과는 모델 전도 공격에 활용하기 위해 사용될 수 있다.
모델 전도 공격	모델에 수많은 쿼리를 던진 후 산출된 결과값을 분석해 모델 학습에 사용된 데이터를 추출하는 공격이다. 모델을 학습시키는 데이터 안에 개인정보, 민감정보 등이 포함되어 있는 경우라면 전도 공격에 의해 중요 정보가 유출될 가능성이 있다.

공격 방법

설명

데이터 중독 공격

사용자의 입력을 통해 모델이 재학습되는 경우에, 인공지능 서비스 운영 과정에서 의도적으로 학습 데이터를 변질시켜 서비스의 정상적인 기능을 손상시키는 공격이다. 학습 데이터를 오염시킨다는 의미로, 데이터 오염 공격이라고도 한다.

모델 추출 공격

공격 대상 모델의 입력값과 결괏값을 분석하여 모델을 추출하는 공격이다. 모델에 쿼리(query)를 계속 던지면서 값을 분석하며, 반복적인 쿼리를 통해 모델을 유추하여 유사한 모델을 만들어 낼 수 있다. 추출 결과는 모델 전도 공격에 활용하기 위해 사용될 수 있다.

모델 전도 공격

모델에 수많은 쿼리를 던진 후 산출된 결과값을 분석해 모델 학습에 사용된 데이터를 추출하는 공격이다. 모델을 학습시키는 데이터 안에 개인정보, 민감정보 등이 포함되어 있는 경우라면 전도 공격에 의해 중요 정보가 유출될 가능성이 있다.

위와 같은 공격에 대비하여, 시스템 구현 단계에서는 특정 기간 내에 수행할 수 있는 질의 수를 제한하여 모델 공격을 위한 반복적인 질의를 방어하거나, 기계학습을 기반으로 모델 공격에 대한 사전 탐지 및 경고 알림을 설정하는 등 능동적인 방어가 필요하다.

13-1c 인공지능 시스템의 의사결정으로 인한 파급효과가 크고 불확실성이 높은 경우, 사람의 개입을 고려하였는가?

인공지능 시스템이 인공지능 모델의 판단 결과를 활용하여 시스템 동작을 제어하거나, 사람의 안전 및 환경에 영향을 줄 수 있는 정보를 제공하는 경우, 사람의 개입이 필요한 경우가 있다. 이는 인공지능 시스템의 동작 및 기능의 파급효과가 크지만, 인공지능 모델이 도출한 판단 결과의 불확실성이 높은 경우이다.
특히, 인공지능 모델을 활용하여 자동 및 자율적으로 운영되는 시스템에서 이러한 경향이 두드러지며, 예외 처리 및 보안 기법 외에, 사람이 직접 혹은 부분적으로 개입하여 인공지능 모델의 불확실성을 해소하는 방안을 고려해야 한다.
예시로, 자율주행 자동차 전방의 방해물 객체 인식을 통해 조향하는 인공지능 모델의 인식 결과가 불명확하거나 불확실성이 높은 경우, 운전자의 개입을 유도하고 제어권을 이양하는 기능이 고려되기도 한다.

참고: 인공지능의 의사결정에 대한 사람의 개입 정도

ISO/IEC 24028:2020의 9.4 Controllability와 WEF(World Economic Forum) Companion to the Model AI Governance Framework에서는 도출된 위험의 심각도 및 발생빈도를 기반으로 인공지능의 의사결정에 대한 사람의 개입 정도를 아래와 같이 분류(Guiding questions 3.2)하였다.

13-1d 예상되는 사용자 오류에 대한 안내 및 대응을 제공하는가?

사용자 오류는 외적으로는 서비스 최종 결과물을 사용하는 사용자에게서, 내적으로는 서비스 결과 생성을 위해 내부 시스템을 사용하는 작업자에게서 비롯된다. 따라서 서비스 담당자는 다음과 같은 사용자 오류 유형을 이해하고 이와 관련되어 발생할 수 있는 오류를 사전에 정의하고 분석해야 한다.
- 누락 오류: 수행해야 할 작업을 누락하여 발생하는 오류
- 작위 오류: 수행해야 할 작업을 부정확하게 수행하여 발생하는 오류
- 순서 오류: 수행해야 할 작업 순서를 틀리게 수행하는 오류
- 시간 오류: 수행해야 할 작업을 정해진 시간 내에 완수하지 못하여 발생하는 오류
- 불필요한 수행 오류: 작업 완수에 불필요한 작업을 수행할 때 발생하는 오류
사용자 오류에 따른 사전 대응 방안의 예시는 다음과 같다.
- 제약조건 설정: 잘못된 사용자 입력을 막기 위해 사용자의 선택을 어느 정도 제약시키거나 수용 가능한 옵션을 정의하여 보여주는 것을 말한다. 예를 들어 인공지능 기반 상담 챗봇의 경우, 사용자의 자유로운 질문보다는 실제 많이 질의 되는 질문 목록을 먼저 제공하고 사용자가 선택하도록 한다.
- 시스템 제안･정정: 자주 발생하는 사용자의 실수를 수집하고, 실제 서비스 시 유사한 사용자 실수가 발생한다면, 시스템에서 자동으로 정정하거나 올바른 입력을 제안한다. 예를 들어 검색 시 오탈자가 날 경우, 정정하여 추천하는 것을 예로 들 수 있다.
- 기본값 설정: 시스템에서 필수이며 자주 사용되는 값을 기본값으로 먼저 제공하거나 관련 예시를 제공하여 사용자 실수를 줄일 수 있다.
- 재확인･결과제공･실행취소: 사용자에게 전달받은 입력 등을 재차 확인하고 그에 대한 예상 결과를 미리 전달한다. 또한 잘못된 결과에 대해 실행을 취소하는 등의 기능을 포함하여 예방할 수 있다.

13-2 인공지능 시스템에서 문제가 발생할 경우, 시스템은 이를 운영자에게 전달하는 기능을 수행하는가?

인공지능 시스템은 서비스 도중 외부의 공격, 사용자의 오용 등 다양한 요인으로 편향이나 성능 저하 등이 발생할 수 있으므로 시스템 운영자가 이를 파악할 수 있도록 시스템의 자체적인 점검 기능이나, 사용자가 운영자에게 관련 의견을 전달할 수 있는 기능을 제공해야 한다.
시스템의 자체적인 점검 기능은 서비스 성능 저하나 외부 공격에 대한 검사 등을 수행한 후 가능한 범위 내에서 이에 대응하고, 해당 사실을 시스템 운영자에게 전달할 수 있는 체계를 갖춰야 한다.
사용자 의견 전달 기능은 시스템의 일시적인 오류나 도출 결과에 편향이 발생하는 등 문제가 생길 때, 사용자가 해당 사실을 시스템 운영자에게 전달할 수 있는 체계를 갖춰야 한다.

13-2a 편견, 차별 등 윤리적 문제에 대한 알림 절차를 수립하였는가?

인공지능 시스템에서 편견 혹은 차별 등의 윤리적 문제의 발생 가능성을 확인하고, 문제 발생 시 이를 위한 알림 기능 혹은 절차가 수립되었는지 점검한다.
윤리적 문제 알림 절차의 경우, 먼저 인공지능 시스템에서 자체적인 신뢰 정도를 평가할 수 있는 기준과 점검 항목을 만든다. 주요 점검 항목의 예시는 다음과 같다.
- 인권보장, 사생활 보호, 다양성 존중, 침해금지, 공공성, 연대성, 데이터 관리, 책임성, 안전성, 투명성 등

13-2b 시스템 성능 저하를 평가하기 위한 지표 및 절차를 설정하고 알림 절차를 수립하였는가?

인공지능 시스템의 경우, 서비스 배포 및 운영 단계에서 일반적인 소프트웨어와 달리 지속적인 데이터 축적, 서비스 기능 확장, 환경의 변화 등의 이유로 성능 변화가 생길 수 있다.
인공지능 시스템은 실제 서비스 운영 중 갑자기 성능이 저하됐을 때 원인을 바로 알기 어려우므로, 시스템의 성능 저하를 지속해서 평가, 관리하기 위한 지표와 절차가 설정되었는지 점검할 필요가 있다.
대표적인 성능지표로는 F1-score, IoU(Intersection over Union), mAP(mean Average Precision) 등이 있다. 평가 결과 성능 저하가 확인되면 이를 시스템 운영자에게 전달하고, 운영자는 성능 저하 원인을 찾아 개선을 진행하는 등의 절차를 마련해야 한다.

참고: '인공지능 학습용 데이터 품질관리 가이드라인 및 구축 안내서 v3.0' 인공지능의 주요 성능지표

인공지능 신뢰성의 관점에서 인공지능 본연의 성능과 품질을 확보하는 것은 매우 중요하다. 과학기술정보통신부, 한국지능정보사회진흥원의 ‘인공지능 학습용 데이터 품질관리 가이드라인 및 구축 안내서 v3.0- [제1권] 품질관리 가이드라인 v3.0’ 에서는 인공지능의 임무 별 주요 성능지표를 안내하고 있다. 이를 참고하여 개발 중인 인공지능의 성능과 품질을 측정해 볼 수 있다.

시스템의 성능 저하를 측정하기 위한 지표와 절차 뿐만 아니라 잠재적인 영향의 측정을 위해 설정한 지표 또한 포함하여, 적절성을 정기적으로 평가 및 갱신하고 그 효과가 유지되도록 해야 한다.

개선 의견 보내기

Previous12 인공지능 시스템 구현 시 발생 가능한 편향 제거 Next14 인공지능 시스템의 설명에 대한 사용자의 이해도 제고

Last updated 2 months ago