11 인공지능 모델 명세 및 추론 결과에 대한 설명 제공

인공지능 모델의 추론 결과만으로는 예측된 결과가 어떤 요소에 의해 도출되었는지 알기 어렵다. 또한, 시스템의 최종 결과를 얻기 위해 다수의 인공지능 모델이 사용될 수 있다. 이러한 과정에서 인공지능 모델의 예측 결과에 대한 사용자 신뢰를 확보하기 위해 사용된 모델 정보, 결과 도출 과정에 대한 설명*, 추론 결과에 대한 설명을 제공한다.

사람이 인공지능 모델의 의사결정 방식을 파악할 수 있도록 돕는 모델의 작동 방식에 대한 유용한 정보(예: 의사결정 메커니즘, 의사결정의 기초를 이루는 학습 데이터, 인공신경망 내에서 사용된 변수와 가중치)

참고: 설명가능성(explainability) 적용 전 고려해야 할 사항

제품 및 서비스의 다양성에 대한 고려: 모든 인공지능 모델과 제품 및 서비스에 설명가능성이 필요한 것은 아니다. 사용자가 제품 및 서비스를 이용하면서 시스템 동작 및 모델의 추론 결과에 관해 설명을 요구하는 분야가 있지만, 그렇지 않은 분야도 있다. 관련하여, UNESCO에서는 일시적이지 않거나, 쉽게 되돌릴 수 없는 인공지능 시스템의 경우에는 출력된 결과의 투명성이 보장되도록 사용자에게 의미 있는 설명이 제공되어야 한다고 언급한다. 따라서 이러한 사항들을 고려하여 본 요구사항을 선택적으로 적용할 수 있다.
설명가능성이 미치는 영향에 대한 고려: 설명가능성은 아직도 기술적으로 연구 및 개발이 활발하게 이루어지는 분야로서, 여전히 기술적 한계가 존재함과 동시에 설명가능성 외 다른 속성과도 상호 연관성이 있어 신중히 접근해야 한다. 일례로, 과도하게 설명가능성을 구현하는 경우, 모델 성능 및 프라이버시 등에 부정적인 영향을 초래한다는 의견도 존재한다. 따라서 본 요구사항은 제품의 개발 의도와 설명이 적용되는 상황 및 영향을 파악하여 설명의 적절한 수준을 마련하여야 한다.

11-1 인공지능 모델의 명세를 투명하게 제공하는가?

인공지능 시스템의 투명성을 확보하는 방안 중 하나는 인공지능 모델 또는 서비스의 개발, 테스트 및 배포 과정에서 발생한 다양한 정보를 문서로 작성하는 것이다. 모델의 명세를 작성한 상세 문서가 확보될 경우, 사용자가 인공지능 모델과 관련된 정보를 요구했을 때 모델의 목적, 입･출력 정보, 성능, 편향 여부 및 신뢰 점수 등의 결과들을 투명하게 공개할 수 있다.
IBM과 WEF에서는 모델의 명세를 작성한 문서를 통해 인공지능 시스템의 투명성을 확보하는 방안을 제시한다. 특히, IBM은 개발한 시스템의 알고리즘 공개 없이 필요에 따라 인공지능 모델의 주요 정보 및 구성 요소를 설명할 수 있도록 하는 문서의 예시를 제공한다.

참고: 인공지능 모델 명세 예시

인공지능 모델 명세서는 모델과 데이터 정보 구현방법 등 여러가지 정보를 상세하게 담아야 한다. NIST의 RMF에서도 AI시스템이 지원해야 하는 작업(용도)과 이를 구현하기 위해 사용한 구체적인 임무(예, 분류기, 생성모델, 추천기)와 방법(methods)을 정의해야 한다고 안내한다. 아래의 모델 명세서 사례는 다양한 관점에서 모델의 정보를 명세하고 있다.

Google 모델카드

IBM AI FactSheets

Hugging Face

11-1a 시스템 개발 과정과 모델 작동 방식에 대한 세부 정보가 설명된 문서를 작성하였는가?

인공지능 시스템의 투명성을 높이고 시스템 사용자가 인공지능 기반 프로그램 구성 요소를 파악할 수 있는 정보를 제공하는 것은 시스템 신뢰성을 높이는 데 중요한 요소이다. 이를 위해 인공지능 모델 개발 과정에서 모델의 명세를 작성한 모델 상세 문서를 확보할 경우, 사용자에게 인공지능 시스템의 구성 요소를 파악할 수 있는 정보를 제공할 수 있다.
모델 상세 문서 작성 시에는 인공지능 생명주기와 관련된 이해관계자들을 고려하여 각자 필요한 정보를 선택하여 확인할 수 있도록 관련 정보를 포함하여야 한다. 다음은 이해관계자에 따른 모델 상세 문서 내 필요 정보 예시이다.
이해관계자에 따른 모델 상세 문서 예시

이해관계자	모델 상세 정보
비즈니스 결정권자	전체 인공지능 시스템의 목적, 방향성, 시스템 내 서비스 명칭 및 서비스별 의도된 목적 등
데이터 과학자 및 시스템 개발자	학습에 사용된 데이터셋 명세 및 전처리 기법, 학습 모델 구성, 입출력 명세, 모델 학습 파라미터 등
모델 검증자	테스트 데이터셋 구성 정보 및 주요 테스트 성능, 편향, 신뢰 점수 등의 평가 결과
모델 운영자	모델 운영 및 모니터링 결과 측면의 성능 평가 지표, 성능 저하 환경 요인, 최 적 결과 도출 환경 등

이해관계자

모델 상세 정보

비즈니스 결정권자

전체 인공지능 시스템의 목적, 방향성, 시스템 내 서비스 명칭 및 서비스별 의도된 목적 등

데이터 과학자 및 시스템 개발자

학습에 사용된 데이터셋 명세 및 전처리 기법, 학습 모델 구성, 입출력 명세, 모델 학습 파라미터 등

모델 검증자

테스트 데이터셋 구성 정보 및 주요 테스트 성능, 편향, 신뢰 점수 등의 평가 결과

모델 운영자

모델 운영 및 모니터링 결과 측면의 성능 평가 지표, 성능 저하 환경 요인, 최

적 결과 도출 환경 등

참고: 암스테르담･헬싱키의 'AI 공공 설명' 웹사이트 구축 사례

네덜란드 암스테르담과 핀란드 헬싱키가 유럽에서 처음으로 AI 기반 공공서비스 작동과정을 설명하는 웹사이트인 ‘AI 레지스터’를 만들었다. AI 레지스터는 AI와 빅데이터 기반 공공서비스를 이용하는 시민들이 AI에 관한 이해도를 돕기 위해 제작된 ‘공공 AI 상세 설명서’이다. 이는 편향과 개인 정보 침해 등을 향한 대중의 우려를 잠식시키려는 노력의 일환이다. 해당 웹사이트는 데이터셋과 데이터 처리 및 모델 아키텍처에 관한 설명을 제공함으로써 인공지능 시스템의 투명성을 확보하려고 노력하고 있다.

11-2 사용자가 모델 추론 결과의 도출 과정을 수용할 수 있도록 근거를 제공하는가?

인공지능 모델의 추론 결과 및 인공지능 시스템의 동작을 사용자가 신뢰하기 위해서는 시스템 사용자가 인공지능 모델이 제공하는 추론 결과의 도출 과정을 이해할 수 있어야 하며, 이에 대한 설명 및 근거를 사용자에게 제시하는 것이 바람직하다.
인공지능 모델의 투명성이 높거나, 모델 자체적으로 설명을 제공하는 경우 이를 응용할 수 있다. 반면, 모델의 복잡성이 높고 내재적 설명 방안이 없는 경우 별도의 설명가능한 인공지능(XAI, eXplainable AI) 기술 적용을 고려해야 한다. 다양한 기술 중 데이터･모델의 특성에 맞게 선택해야 하므로, 선행된 연구들을 검토한 후 적용 가능한 방안을 선택하고 적용하는 작업이 모델 개발 과정에 포함될 필요가 있다.
모델에 적합한 XAI 기술이 마련되지 않은 경우, 대안적인 방법을 통한 인공지능 시스템의 투명성 확보가 필요하다. 기술을 적용할 수 있는 경우라도 사용자가 도출 과정을 수용할 수 있을 만큼 충분치 않을 수 있으므로 기술 외적인 보완이 요구되기도 한다. XAI 기술 적용 가능 여부를 검토한 후, XAI 기술 적용이 가능하다면 11-2a를 활용하고, 적용이 어렵거나 보완이 필요한 경우 11-2b를 활용할 수 있다.

참고: 모델 추론 결과의 도출 과정 설명 - SHAP를 사용한 근거 시각화

왼쪽 그림은 SHAP 알고리즘을 이용하여, 인공지능 모델에 입력된 미어캣의 이미지를 미어캣 또는 몽구스로 판정할 때 이미지 내의 어떤 픽셀이 어떤 방향으로, 얼마만큼 영향을 주는지를 산출, 시각화한 것이다.

정상 분류(미어캣): 미어캣의 안면부와 주요 형상을 이루는 픽셀 영역에서 양의 방향(적색)으로 결과에 영향을 주고 있음을 확인
오분류(몽구스): 같은 영역에서 음의 방향(청색) 영향이 발생하거나 아무런 영향이 없는(백색) 경우가 다수임을 확인

이러한 분석은 블랙박스인 인공지능 모델이 실제로 어떻게 작동하고 있는지를 사용자가 이해하기 쉬운 형태로 제시한다.

11-2a 인공지능 모델에 적합한 XAI(eXplainable AI) 기술을 적용하였는가?

현존하는 XAI 기술은 속성에 따라 다음의 3가지 기준으로 분류할 수 있다.
- 모델 내부 구조를 파악한 후 설명하는 내재적 방법(intrinsic methods) 모델 입･출력만을 분석하여 설명하는 외재적 방법(extrinsic methods)
- 특정 추론 결과에 대한 도출 과정을 설명하는 지역적 방법(local methods) 모델의 전반적인 추론 행동을 설명하는 전역적 방법(global methods)
- 특정 모델에만 적용할 수 있는 종속적 방법(model-specific methods) 여러 모델에 적용할 수 있는 독립적 방법(model-agnostic methods)
인공지능 모델에 적용 가능한 XAI 기술이 무엇인지는 해당 모델과 데이터의 특성에 의해 결정된다. 예를 들어 대부분의 심층 학습(deep learning)처럼 설명 방법이 내재되어있지 않은 경우, 모델 독립적인 외재적 방법을 이용하거나 모델에 종속적인 형태의 설명 방법을 적용해볼 수 있다.
또한, 관련 이해관계자는 모델 특성에 적합한 XAI 기술을 선택해야 하며, 계량화, 시각화, 문서화 등 의미 전달에 효과적인 수단을 이용하여 결과를 제공할 수 있어야 한다. 또한 개발 착수 시 설명가능성을 고려하여 아키텍처를 설계하는 접근도 필요하다.
대표적인 XAI 기술 예시

기술명	설명 및 분류	특징
SHAP SHapley Additive exPlanations	게임 이론의 섀플리(Shapley) 값 개념을 기반으로 하며, 이 값을 사용하여 각 특성이 모델의 예측에 얼마나 기여했는지를 수치화하여 설명하는 기술 • 분류: 외재적, 지역적, 독립적	• 확실한 이론적 기반(Shapley)에 근거 • 복잡한 모델도 적용 가능 • 결과의 재현성 보장 • 높은 계산 비용 • 현존하는 기술 중 가장 널리 활용
LIME Local Interpretable Model-agnostic Explanations	복잡한 모델을 설명하기 어려울 때 대리 모델(surrogate model)을 만들어 설명하는 기술 중 하나로, 개별 예측을 설명하기 위해 입력값 주변의 작은 지역에 대한 대리 모델을 생성하여 각 특성의 영향을 설명하는 기술 • 분류: 외재적, 지역적, 독립적	• 다양한 모델에 적용 가능 • 샘플링에 따라 결과 변동 • 원본 모델의 복잡성을 충분히 근사하지 못할 수 있음
ICE/PDP Individual Conditional Expectation / Partial Dependence Plots	모델의 특성이 결과에 미치는 영향을 시각화하는 기술로, ICE는 특성을 변화시키면서 각 입력값에 대한 출력 영향을 설명하며, PDP는 ICE를 평균화하여 전체 예측에 미치는 영향을 설명 • 분류: 외재적, 지역적/전역적, 독립적	• 영향을 시각적으로 파악하기 용이 • 고차원 데이터의 경우 효과적인 상호작용 시각화가 어려움 • 실질적으로 표 형식 데이터(tabular data)에 한정
LRP Layer-wise Relevance Propagation	신경망의 계층(layer)별 기여를 순전파･역전파의 과정을 통해 계산하여, 각 계층이 전체 예측에 얼마나 기여하는지 수치화하여 설명하는 기술 • 분류: 외재적, 지역적, 독립적	• 종단 간 설명과 계층별 중요도 각각 설명 가능 • 모델에 맞게 별도 개발 필요 • 복잡한 모델의 해석 어려움

기술명

설명 및 분류

특징

SHAP

SHapley Additive exPlanations

게임 이론의 섀플리(Shapley) 값 개념을 기반으로 하며, 이 값을 사용하여 각 특성이 모델의 예측에 얼마나 기여했는지를 수치화하여 설명하는 기술

• 분류: 외재적, 지역적, 독립적

• 확실한 이론적 기반(Shapley)에 근거

• 복잡한 모델도 적용 가능

• 결과의 재현성 보장

• 높은 계산 비용

• 현존하는 기술 중 가장 널리 활용

LIME

Local Interpretable Model-agnostic Explanations

복잡한 모델을 설명하기 어려울 때 대리 모델(surrogate model)을 만들어 설명하는 기술 중 하나로, 개별 예측을 설명하기 위해 입력값 주변의 작은 지역에 대한 대리 모델을 생성하여 각 특성의 영향을 설명하는 기술

• 분류: 외재적, 지역적, 독립적

• 다양한 모델에 적용 가능

• 샘플링에 따라 결과 변동

• 원본 모델의 복잡성을 충분히 근사하지 못할 수 있음

ICE/PDP

Individual Conditional Expectation / Partial Dependence Plots

모델의 특성이 결과에 미치는 영향을 시각화하는 기술로, ICE는 특성을 변화시키면서 각 입력값에 대한 출력 영향을 설명하며, PDP는 ICE를 평균화하여 전체 예측에 미치는 영향을 설명

• 분류: 외재적, 지역적/전역적, 독립적

• 영향을 시각적으로 파악하기 용이

• 고차원 데이터의 경우 효과적인 상호작용 시각화가 어려움

• 실질적으로 표 형식 데이터(tabular data)에 한정

LRP

Layer-wise Relevance Propagation

신경망의 계층(layer)별 기여를 순전파･역전파의 과정을 통해 계산하여, 각 계층이 전체 예측에 얼마나 기여하는지 수치화하여 설명하는 기술

• 분류: 외재적, 지역적, 독립적

• 종단 간 설명과 계층별 중요도 각각 설명 가능

• 모델에 맞게 별도 개발 필요

• 복잡한 모델의 해석 어려움

참고: 인공지능 모델 특성에 따른 XAI 기술 선택 방안

참고: 외재적 설명 방법의 분류

11-2b XAI 기술 적용이 불가능한 경우, 기술 외 대안을 마련하였는가?

XAI 기술 적용이 불가능하다는 것은 모델의 의사결정 요인이 무엇인지 계량적인 방법으로 나타낼 수 없다는 것을 뜻한다. 이 경우, 대안적인 방법을 통한 인공지능 시스템의 투명성 확보가 필요하다. 다음 네 가지 방안이 인공지능 시스템의 투명성 확보를 위한 대안이 될 수 있다.
의사결정 요인에 대한 간접 추정 근거 제시: 학습 데이터에 대한 기술적(descriptive) 분석과 특성 설명, 모델 아키텍처의 의도된 작동 원리 등이 있다. 또한, 시스템 배포 이후 모델이 추론에 사용한 데이터와 프로세스의 추적을 허용하고, 제대로 문서화되어 있는지 확인하는 과정이 필요하다.
신뢰성 확보를 위한 검증･평가: 실제 시스템의 유효성 검증과 검증에 대한 분석 결과를 활용할 수 있다. 시스템의 성능에 대한 객관적 평가 메트릭을 제시하고, 해당 메트릭이 도출된 테스트 데이터의 특성을 제시함으로써 모델의 기대 성능과 성능이 확보될 수 있는 조건을 사용자가 이해할 수 있도록 한다. WEF의 <Companion to the Model AI Governance Framework>에서는 프로덕션 환경에서의 반복적 테스트, 예외 식별 테스트 등을 수행할 수 있음을 언급하고 있다.
모델의 정상적인 작동 조건과 예상되는 오작동 및 위험에 대한 문서화: 인공지능 시스템의 기술적 한계를 사용자에게 적합한 방식으로 전달하는 것도 중요하다. 이는 15-1에서 더 자세히 언급한다. 11-3에서 언급한 것처럼, 모델이 결과 예측과 함께 신뢰 점수(confidence score) 등을 제시하는 것 또한 한 가지 방법이 될 수 있다.
모델 성능 및 사용에 대한 기록 및 추적가능성 확보: 04-1에서 설명한 것처럼, 인공지능 시스템의 초기 설계 단계에서 로깅 메커니즘logging mechanism 등을 보장하여 시스템의 작동 상태를 지속적으로 감독할 수 있게 하는 것이 도움이 된다. (단, 이는 반드시 인공지능 시스템과 관련된 비즈니스 모델 및 지식재산에 대한 정보가 항상 공개되어야 함을 의미하는 것은 아니다.)

11-3 모델 추론 결과에 대해 사용자의 판단을 도울 수 있는 설명을 제공하는가?

인공지능 모델의 추론 결과는 모델 구조에 따라 확률값(probability), 신뢰 점수(confidence score), 불확실성(uncertainty) 등의 수치로 설명될 수 있다. 인공지능 모델의 적용 분야와 사용자 특성에 따라, 수치를 통한 설명은 사용자의 최종적인 의사결정에 도움을 줄 수 있다.
하지만 수치를 통한 설명은 사용자의 직관에 반할 수도 있고, 모델 학습 방법의 한계로 인해 도출된 수치 자체에 오류가 있을 수도 있다. 따라서 인공지능 시스템 개발 시, 모델의 추론 결과에 대해 사용자의 판단을 도울 수 있는 설명 제공의 필요성과 더불어 설명의 적절성에 대한 기술적 평가가 이뤄져야 한다.
- 고도로 복잡한 모델의 경우, 현존하는 기술로는 추론 결과에 대한 신뢰 점수와 불확실성을 정확하게 추론하는 것이 어려울 수 있다. 따라서, 신뢰 점수와 불확실성을 통해 모델 추론 결과를 설명할 수 없다면 11-2를 활용한 투명성 확보 전략 수립이 도움이 될 수 있다.

11-3a 모델 추론 결과에 대한 설명이 필요한지 검토하였는가?

인공지능 시스템의 활용 분야 및 사용자의 특성에 따라 추론 결과와 함께 수치를 통한 설명 제공의 필요성 및 적절한 제공 방식에 대한 차이가 발생한다.
- WHO의 <Ethics and Governance of Artificial Intelligence for Health: WHO Guidance>에서는 의료 분야 진단 보조 목적의 인공지능의 경우, 모델의 추론 결과만을 제시하면 입력 데이터의 잡음, 새로운 관측치의 입력, 의료진의 자동화 편향과 같은 인적 요인 등 예상치 못한 문제 발생 시 진단 오류를 발생시킬 위험이 있다고 언급하였다. 따라서 모델의 추론 결과와 함께 확률값, 신뢰 점수, 불확실성 등의 수치를 함께 제공하는 것이 사용자의 판단에 도움을 준다.
- FAQ 질의응답을 제공하는 대화형 인공지능 시스템의 경우, 최종 사용자는 인공지능 시스템에 대한 전문지식이 담보되지 않는 불특정 다수의 고객이다. 인공지능 시스템이 사용자에게 발화 의도를 재확인하는 등의 형식이 사용성을 향상시킬 수 있지만, 추론 결과와 함께 수치를 제공하는 것은 오히려 사용자의 혼란을 유발할 수 있다.
모델의 설계 단계에서 신뢰 점수, 불확실성 등을 분리할 수 있도록 설계된 경우나 신뢰 점수 계산 과정에 학습 데이터에 포함되지 않은 이상치에 대한 분류 가능성이 고려된 경우, 추론 결과에 대한 수치의 제공은 사용자의 이해를 도울 수 있다. 그러나 이러한 고려가 되어 있지 않은 모델은 사용자가 수치를 잘못 해석할 우려가 있다.
- 높은 신뢰 점수와 낮은 불확실성은 일반적으로 좋은 추론을 의미하지만, 모델이 항상 높은 신뢰 점수와 낮은 불확실성을 나타낸다면 과적합(overfitting) 여부를 확인하는 등 각 수치의 의미와 실용성을 평가해야 한다.

11-3b 사용자에게 인공지능 모델 추론 결과에 대한 설명을 제공하였는가?

인공지능 모델의 추론 결과에 대한 설명을 위해 관련 수치 혹은 수치의 재해석 결과를 제공하기로 결정하였다면, 이를 전달하는 방식에 대한 검토가 이어져야 한다. 전달 방식은 사용자의 이해 수준을 복합적으로 고려하여 설계하는 것이 좋으며, 수치를 명시적으로 제공하거나, 수치를 재해석하여 범주화된 결과를 제공하는 방법 등이 있다.
수치를 명시적으로 제공할 때 단순히 백분율만 표시한다면, 사용자는 해당 수치가 높은 것인지 낮은 것인지, 또는 수치가 무엇을 의미하는지 파악하기 어려울 수 있다. 또한, 대부분의 인공지능 모델이 100% 신뢰 점수로 예측을 수행하지 않기 때문에, 사용자의 혼란을 줄 수 있다. 따라서, 수치를 제공할 때는 사용자가 수치의 의미를 이해할 수 있도록 부가 설명이 동반되어야 한다.
수치를 명시적으로 제공하는 대신, 시스템은 N-best 대안(alternative)을 표시할 수 있다. Google Research의 <People + AI Guidebook>에서는 이 방법은 신뢰 점수가 낮은 상황에서 특히 유용할 수 있다고 언급한다. 신뢰 점수가 낮다는 것은 모델이 특정 출력에 대해 확신을 가지지 못하고 여러 가능성을 열어두고 있다는 의미이므로, 이때 대안을 함께 표시하면 사용자는 인공지능의 출력에 의존하지 않고 주체적으로 선택할 수 있다.

참고: 신뢰 점수를 재해석하여 사용자에게 설명하는 방식의 예제

Google Research에서는 신뢰 점수를 재해석하여 사용자에게 전달하는 여러 방안을 제안한다.

왼쪽의 첫 번째 그림은 신뢰 점수를 범주화하여 사용자에게 전달하는 방법으로, 수치를 명시적으로 전달하기보다 'Best', 'Good', 'Unsure'로 분류하여 전달한다.
두 번째 그림에서는 수치를 언급하지 않고 다양한 추천을 함께 제시한다. 신뢰 점수가 가장 높은 결과는 'Best'로 제시하고, 비교적 신뢰 점수가 낮은 결과는 'Other recommendations'로 제시한다.

개선 의견 보내기

Previous10 인공지능 모델 공격에 대한 방어 대책 수립 Next12 인공지능 시스템 구현 시 발생 가능한 편향 제거

Last updated 2 months ago