14 인공지능 시스템의 설명에 대한 사용자의 이해도 제고

  • 모델의 추론 결과에 대해 설명을 제공하는 기법을 적용하여도 사용자가 바로 이해해 해석하기 어려운 경우가 많다. 따라서 인공지능 시스템의 운영자 혹은 서비스 제공자는 사용자에게 제공되는 결과가 이해 가능한지(understandability), 해석 가능한지(interpretability), 설명 가능한지(explainability)를 평가한다.


14-1 인공지능 시스템 사용자의 특성(user characteristics)과 제약사항을 분석하였는가?

  • 인공지능 시스템의 결과가 적절한지 평가하기 위해서는 먼저 해당 결과를 읽는 사용자를 고려해야 한다. 사용자가 누군지에 따라 결과(설명)의 수준, 깊이 그리고 맥락이 정해지는 만큼 사용자에 대한 자세한 분석이 수행되어야 한다.

참고: 서울시 유니버설 디자인 통합 가이드라인

'서울시 유니버설 디자인 통합 가이드라인'에서는 공공 시설물을 이용할 수 있는 다양한 이용자 특성(성별, 연령, 국적, 신체 크기, 질병, 인지능력)을 사전에 정의 및 분석하였다.

14-1a 사용자 특성에 따른 세부 고려사항을 분석하였는가?

  • 서비스 기획 단계에서 사용자의 선호도와 요구 사항(needs)에 집중했다면, 설명을 평가하기 위해서는 각 사용자의 다양한 특성을 고려해야 한다. 예를 들어 서비스 사용자 중 어린이가 이해 가능한 그래프와 단어 및 어휘의 제한이 있음을 고려해야 한다.

  • 사용자 특성 분석을 위해 고려해야 할 요소의 예시는 다음과 같다.

  • 사용자 특성 분석을 위한 고려사항 예시

구분상세 구분고려사항

연령

아동, 성인, 노인 등

아동 또는 노인의 경우, 성인과 비교해 이해할 수 있는 어휘, 단어에 한계가 있어 사용자 연령을 고려해야 함

장애 유무

장애인, 비장애인

신체적 제약으로 발생할 수 있는 한계를 고려해야 함. 그 예로는 신체 크기, 신체 능력, 인지능력이 있음

지식

초보자, 전문가 등

관련 서비스의 경험 여부와 사전 배경지식의 차이로 지식수준이 다름을 고려해야 함


14-2 사용자 특성에 따른 설명을 제공하는가?

  • 서비스를 이용하는 사용자는 다양하여 인공지능 시스템의 결과가 서로 다른 입장에서 설명이 해석되고 오해가 생길 수 있다. 따라서 14-1에서 분석된 사용자 특성을 고려하여 설명을 평가할 수 있는 기준 항목을 수집한다. 설명 평가의 기준으로는 명확성, 구체성, 정확성 등을 고려할 수 있다.

14-2a 사용자 특성에 따른 설명 평가 기준을 수립하였는가?

  • 다양한 사용자가 서비스를 이용하는 만큼 설명을 포괄적으로 평가할 수 있는 특성과 세부 항목을 정하는 단계가 필요하다. 설명의 평가 기준은 명확성, 구체성, 적절성, 정확성 등이 될 수 있다. 이때, 설명의 기대치는 사용자 특성(예: 나이, 직업)에 따라 달라지며, 데이터 유형(data type)이나 모달리티(modality)에 따라서도 각 항목에서 고려되어야 할 내용들이 달라질 수 있다. 다음은 설명 평가를 위한 예시이다.

  • 설명의 평가기준별 평가 항목 예시

구분평가 항목

명확성

• 사용자에게 다른 오해를 불러일으킬 만한 표현・단어・어휘는 없는가?

• 불필요한 설명이 있진 않은가?

• 해당 설명을 통해 사용자가 기대하고 얻고자 하는 정보가 모두 들어있는가?

구체성

• 사용자의 구체적 행동을 끌어낼 수 있도록 명확한 주어・목적어・동사를 활용해 설명되는가?

적절성

• 주어진 설명이 사용자의 특정 지식수준을 요구하지는 않는가?

• 배경지식 혹은 사전 경험이 필요하진 않은가?

• 설명이 사용자에게 유용한가?

• 독자를 고려한 전문 용어, 약어에 대한 설명을 제공하는가?

• 설명이 제공되는 시점이 적절하였는가?

정확성

• 설명과 함께 제공되는 자료의 그림과 설명이 모두 일치하는가?

• 사전에 제공된 예상 결과의 설명과 실제 결과가 모두 일치하는가?

• 내부 알고리즘과 정확히 일치하는 설명인가?

14-2b 사용자가 이해하기 어려운 전문 용어 사용을 지양하였는가?

  • 인공지능 시스템의 경우, 서비스 배포 및 운영 단계에서 일반적인 소프트웨어와 달리 지속적인 데이터 축적, 서비스 기능 확장, 환경의 변화 등의 이유로 성능 변화가 생길 수 있다.

  • 인공지능 시스템은 실제 서비스 운영 중 갑자기 성능이 저하됐을 때 원인을 바로 알기 어려우므로, 시스템의 성능 저하를 지속해서 평가, 관리하기 위한 지표와 절차가 설정되었는지 점검할 필요가 있다.

  • 대표적인 성능지표로는 F1-score, IoU(Intersection over Union), mAP(mean Average Precision) 등이 있다. 평가 결과 성능 저하가 확인되면 이를 시스템 운영자에게 전달하고, 운영자는 성능 저하 원인을 찾아 개선을 진행하는 등의 절차를 마련해야 한다.

14-2c 사용자의 구체적인 행동과 이해를 이끌어낼 수 있도록 명확한 표현을 사용하였는가?

  • 좋은 설명은 사용자로부터 구체적인 행동과 이해를 이끌어낼 수 있어야 한다. 따라서 설명을 간결하고 명확하게 함으로써 모호한 해석이 되지 않도록 작성하는 것이 중요하다.

  • 시각적으로는 성공・실패・경고・위험 등 결과에 따른 색상을 일관성 있게 유지해 줌으로써 사용자가 한눈에 시스템 결과를 이해할 수 있게 할 수 있다. 그리고 텍스트나 음성으로 제공되는 설명에서는 지시대명사를 사용하지 않고 대상을 명확하게 말해주는 것을 예로 들 수 있다. 또한, 비슷한 발음이 연이어지는 경우, 다른 단어로 대체하는 것이 바람직하다.

14-2d 설명이 필요한 위치와 타이밍은 적절한가?

  • 잘 작성된 설명이 적절한 위치 및 타이밍에 나타나 이해를 돕는 것도 중요하다. 이를 위해 설명이 단발성이어야 하는지, 여러 번 반복하여 강조시켜야 할지 숙고하고, 어느 위치에 놓여야 사용자가 잘 읽을 수 있는지 고려하는 것이 필요하다.

  • 이와 더불어 작성된 설명의 위치와 타이밍이 적절한지를 조사하기 위해서는 14-2e의 웹로그 분석, A/B 테스트 등 사용자 조사 기법을 활용할 수 있다.

14-2e 사용자 경험을 평가할 수 있는 다양한 사용자 조사 기법을 활용하였는가?

  • 사용자 경험(UX, User eXperience)은 한 개인이 특정한 제품, 시스템, 또는 서비스를 사용하며 느끼는 모든 것을 의미한다. 또한, 그 개인이 인지하는 유용성, 사용 편의성, 효율성 등의 시스템 특성을 포함한다. 설명을 평가하기 위해 사용자 조사(user research) 기법을 활용할 수 있다.

  • 사용자 조사 기법은 크게 접근 방식과 자료 획득 방식으로 구분할 수 있다. 우선, 사용자 조사 기법의 접근 방식에 따라 정량적(간접적) 조사와 정성적(직접적) 조사로 구분되며, 사용자 조사를 위해 자료를 얻는 방식에 따라 사용자 행동을 통한 조사와 태도를 통한 조사로 구분한다. 접근 및 자료 획득 방식을 고려해 적합한 사용자 조사 기법을 선정하고, 사용자 경험을 평가하는 것이 바람직하다.

  • 접근 방식에 따른 구분 및 방법

    • 정량적(간접적) 조사(quantitative user research): 사용자의 행동이나 태도에 대한 데이터를 도구 등을 통해 간접적으로 수집하는 방법 (예: 웹로그 분석, A/B 테스트A/B testing, 설문 조사, 고객 지원 자료 분석)

    • 정성적(직접적) 조사(qualitative user research): 사용자의 행동이나 태도를 직접 관찰하는 방법 (예: 인터뷰, 표적 집단 인터뷰(focus group interview), 프로토타입 테스팅(prototype testing))

  • 자료 획득 방식에 따른 구분 및 방법

    • 사용자 행동 기반 조사(behavioral user research): 사용자가 무슨 행동을 하는지를 조사하는 방법 (예: 웹로그 분석, A/B 테스트, 아이 트래킹eye tracking)

    • 사용자 태도 기반 조사(attitudinal user research): 사용자가 무엇을 말하는지를 조사하는 방법 (예: 카드 소팅card sorting, 심층 인터뷰, 요구사항 조사)

개선 의견 보내기

Last updated