(채용) 인공지능 면접 역량 평가 시스템
Last updated
Last updated
TTA의 인공지능 신뢰성 센터에서는 고위험 분야인 채용 분야에 인공지능을 도입한 영상 면접 역량 평가 시스템(이하 대상 제품)을 대상으로 인공지능 신뢰성 인증을 실시한 사례가 있다. 시험 과정 및 인증위원회를 통해 시험을 의뢰한 기업(이하 개발 기업)이 “신뢰할 수 있는 인공지능”을 실현하기 위한 요구사항(인공지능 시스템 신뢰성 제고를 위한 요구사항, TTAK.KO-10.1497)에 대해 충분히 고민하였으며 다각도의 노력을 기울이고 있다고 판단하였다.
채용 분야에 인공지능의 도입을 고려하는 관계자에게 동 분야의 인공지능 신뢰성 인증 우수 사례를 소개함으로써 신뢰할 수 있는 인공지능을 실현하기 위한 실질적 노력과 방법을 안내하고자 한다.
대상 제품은 면접 응시자가 촬영한 면접 영상과 답변을 AI가 분석하여 종합 역량을 평가하는 시스템이다. 조직 및 업무 수행에 적합한 커뮤니케이션 능력을 검증하는 소프트스킬 평가와, 과거 행동 사례를 바탕으로 고성과 직무수행 역량을 분석하는 행동 사건 면접 평가(BEI: Behavior Event Interview) 방식을 결합해 응시자의 종합 역량을 분석하여 담당자의 결정을 지원한다.
대상 제품의 사용자는 크게 두 그룹으로 나뉜다. 앞으로의 설명에서 대상 제품을 사용하여 채용 전형을 운영하려는 사용자를 고객사, 고객사의 채용 전형에 지원하여 면접에 응시하는 사용자를 응시자라 칭한다.
인증 사례는 인공지능 시스템 신뢰성 제고를 위한 요구사항(TTAK.KO-10.1497)의 요구사항 번호순으로, 순차적으로 기술하였다.
개발 기업에서는 개발 및 운영 과정에서 발생할 수 있는 다양한 위험을 관리하기 위해 거의 모든 부서(기획팀, 개발팀, 품질팀, 운영팀 등)가 위험 관리에 참여하며, 이를 문서로써 관리한다.
각 부서에서는 AI 생애 주기 별 대표적 위험요소, 위험도, 대응 방안(전 부서 통합), 통제된 위험도를 작성하고 담당 부서(담당자)를 할당하여 지속 관리하고 있다.
위험 요소: 각 부서의 경험적, 연구적 지식에 기반하여 발생할 수 있는 위험요소 도출
위험도: 각 부서의 전문 지식 및 근거에 기반하여 위험도를 “상, 중, 하”로 평가
대응 방안: 전 부서와 논의하여 위험에 대응할 수 있는 방안을 마련
통제된 위험도: 각 위험요소의 대응조치 이후의 위험도 5단계 “상, 중상, 중, 중하, 하”로 평가
담당 부서(담당자): 각 위험요소의 발생, 대응, 경과 등을 모니터링하는 담당자 할당
대상 제품의 위험 관리는 “AI 신뢰성 거버넌스 위원회” 에서 조직 차원으로 관리하고 있으며, 위원회의 역할은 요구사항 2에서 자세히 다룬다.
개발 기업은 AI신뢰성 확보 노력을 실천하기 위해 “AI 신뢰성 거버넌스 위원회” 를 조직하여 운영하고 있으며 아래와 같은 대표적 활동을 수행하였다.
조직의 구성: 제품 생애 주기 별 7개의 개별 업무 부서 및 거버넌스 위원장
윤리 핵심 요건 정의: 제품의 연구·개발·운영 전 과정에서 따라야 할 윤리 핵심 요건 정의
자율 윤리 점검표 마련: 정보통신정책연구원(KISDI)와 협력하여 윤리 핵심 요건 실현을 위한 윤리 점검표를 만들어 자체 점검을 실시함
위험 대응 프로세스 마련 및 시행:
(개별 업무 부서) 인공지능 생명 주기 별 대표적인 위험 요소 도출
(거버넌스 위윈장) 조직 차원에서 위험 요소를 인식/전파
(거버넌스 조직, 위원장) 위험요소 분석 및 평가, 위험 대응 방안 도출
(개별 업무 부서) 대응 조치 실행
(거버넌스 조직, 위원장) 대응 이후 위험요소 제거/완화 확인
(거버넌스 위원장) 최종결과 검토 및 필요시 경영진에 보고
활동 내용 기록: 거버넌스 위원회 회의록, 위험도 평가 근거, 위험 대응 이력 등 전반적인 활동을 문서화하여 관리하고 있음
활동 주기: 분기별 정기 소집 및 점검 외 비상시 위원장 권한 소집
대상 제품의 운영 환경은 제품을 활용하여 채용 전형을 운영하는 고객사의 운영 담당자와 면접관(이하 채용 전문가), 이에 응시하는 면접 지원자(이하 응시자)를 모두 포함한다.
대상 제품의 테스트 설계 시 위 사용자 및 개발자를 모두 포함하는 협의체를 구성하고, 실제 영상 면접과 동일한 환경에서 테스트를 실시하였다. 아래는 설계 및 실시한 테스트의 내용이다.
추론 결과 불확실성 완화를 위한 시험
채용 전문가의 평가와 시스템의 추론 결과의 신뢰도 계수를 측정하여 유의성 검증
역량별 신뢰도 계수를 개별 측정하여 추론 결과 기여도 예측
채용 전문가 간 신뢰도 계수를 측정하여 인적 편차 확인
기대 출력의 설명가능성 및 해석 가능성 확보를 위한 시험
고객사 및 채용 전문가 대상 사용성 설문 실시
응시자 대상 사용성 설문 실시
취약점 확인 및 대응 방안 마련을 위한 시험
악의적 사용 시나리오 도출 및 시험 실시
(인공지능의 의사결정 추적) 운영페이지에 나타난 분석결과와 일치하는 정보를 응시자 DB를 통해 확인 가능하다. 또한, 응시자 키를 통해 처음 업로드한 영상의 저장경로 등 최초 입력 정보 역시 시스템에서 확인이 가능하도록 조치하였다.
(학습데이터의 원천) 실제 시스템을 사용하는 응시자의 면접 영상만을 학습 데이터의 원천으로 사용하였다. 상대적으로 신뢰 가능한 데이터 소스이다. 또한 대상 제품의 학습 데이터를 가공, 저장 및 관리하는 자체 시스템(이하 학습 데이터 시스템) 을 보유하고 있어 데이터의 사용 내역을 로그로 기록하므로 변경 추적이 용이하다.
(학습데이터 변경) 모델이 학습한 데이터의 변경을 관리하기 위해 개발 조직에서는 “데이터 시트”와 “모델카드”를 작성하여 관리하고 있다. 데이터 시트를 참조하여 특정 모델이 학습한 데이터셋을 그대로 재현할 수 있다.
데이터 시트
학습데이터 시스템으로부터 동일한 데이터셋을 구성 해내기 위한 모든 정보, 데이터셋을 사용한 모델 및 관련모델 정보, 데이터셋을 사용한 연구 등을 기록
모델카드
모델 개요, 모델 설명, 구조, 학습 데이터셋, 활용 라이브러리, 입/출력, 사용예, 벤치마크 결과, 사용 이슈, 제공 이력 및 현황, 신뢰성 관련 기록(편향, 타당도), 관련 모델 등 기록
(정제 정보) 학습 데이터의 원천으로 실제 시스템을 통해 업로드하는 면접 영상만을 사용하기 때문에, 이 과정에서 기본적인 데이터 정제가 이루어진다. 이를 “정보 부족” 프로세스라 부르며 면접 응시 전/중 촬영 영상에서 정제 요소를 미리 검출하여 방지하는 절차를 수행했다.
응시전(환경점검)
부정행위 정제: 얼굴 검출 여부, 평균 조도, 다중 인원 여부, 마스크 착용 여부, 정면 얼굴 여부
디바이스 환경 점검시의 오류 정제: 프레임 추출실패, 얼굴 검출 비율 미달, 비디오 FPS 미달, 얼굴 움직임 이탈, 얼굴 가림 비율, 오디오 추출 실패, 오디오 볼륨 미달, 음성인식 글자수 미달
응시중(실전응시)
응시중 지속 검출: 프레임 추출실패, 얼굴 검출 비율 미달, 얼굴 없음, 오디오 추출 실패, 음성인식 글자수 미달
(메타 데이터) 학습데이터 시스템에서는 업로드한 데이터에 자동으로 메타데이터를 부착하므로 따로 명세하지 않는다. 그러나 아래의 정보를 확인할 수 있다.
메타데이터 목록과 내용
기본적인 데이터의 통계정보
메타데이터 별로 필터링한 정보
(보호 변수) 학습데이터에는 인구통계학적 정보를 따로 태깅하지 않았다. 따라서 보호변수를 따로 지정하거나 관리하지 않지만, 그 외 결과의 편향을 유발할 수 있는 요소들을 정의하여 따로 관리했다. 이는 요구사항 9에서 자세히 다룬다.
(라벨링 교육 및 가이드) 라벨링 작업자의 교육을 위해 라벨링 워크숍을 진행하였다. 여기서 데이터 라벨링 기준(검수 기준)과 방법을 문서로 작성하여 제공하고 교육하였다.
대상 제품의 데이터 견고성 확보를 위한 전략은 이상데이터의 유입을 사전에 차단하는 것이다. 요구사항5 에서 설명한 “정보 부족” 프로세스와 더불어 “AI 감독관” 기능을 구현하여 응시자가 이상 데이터를 의식하여 피하도록 하였다. 면접 녹화 중 아래 표의 이상을 감지하며, 캡처, 녹화, 화면공유가 감지되면 경고 알림을 보여주거나 강제 로그아웃 등의 처리를 한다.
대리 시험 방지
프로필 사진과 면접영상의 인물을 비교하여 동일인 인지 확인
타인(도우미) 동석 탐지
응시자 이외의 얼굴이 검출되는지 검사
캡처, 녹화, 화면 공유 방지
화면을 캡처하거나 녹화하는 상태인지 확인
마스크 검출
얼굴 표정을 숨기기 위한 마스크를 착용 했는지 확인
지원자 간 답변 일치도 검사
컨설팅을 받거나 이미 지원한 응시자의 답변을 받아서 그대로 발화하는지를 검출
(수집 작업자의 인적 편향) 대상 제품의 원천 학습 데이터는 응시자의 면접 촬영 영상이며 이는 요구사항 5,6 에서 설명한 데이터 정제 작업을 거쳐 학습 시스템으로 업로드 된다. 이 과정에서 별도의 수집 작업자는 관여하지 않기 때문에 의도적인 원천 데이터의 선별은 일어날 수 없다.
(수집 장치의 물리적 편향) 응시자는 본인이 가진 실 사용 장비를 통해 영상을 촬영한다. 대상 제품을 이용한 면접 전형 시, 사용자에게 최소한의 장치 사양과 주의 사항을 안내하고, 사양 내 다양한 장치의 입력을 모두 수집하였다.
개발 조직은 오픈소스 라이브러리 및 프레임워크 사용 규칙을 정의하고 확인 내용을 문서로 관리하였다. 오픈소스 라이브러리 및 프레임워크를 사용하기 위해서는 아래의 내용을 반드시 확인하도록 규정하였다.
오픈소스의 라이선스 확인
오픈소스의 활성도 검토
오픈소스의 호환성 검토
오픈소스의 보안 취약점 검토
관리 문서에는 아래의 내용을 모두 기록하였다.
전체 오픈소스 사용 현황
오픈소스 이름, 사용 용도, 홈페이지, 라이선스, 버전, 활성도, 작성 일자
모델 별 오픈소스 사용 현황
모델ID, 해당 서비스, 사용 부서, 오픈소스 이름, 라이선스, 라이선스 표시 의무 여부, GitHub 링크, 활성도(star 수), 작성 일자
대상제품의 인공지능 모델을 업데이트하거나 신규 모델을 적용할 때, 모델의 타당도와 편향 여부를 검증하는 고유한 절차를 수행하였다. 개발 기업은 자사에서 정의한 모든 검증 요소에 검증 요소의 단계별 검증 데이터셋 구축을 진행하였다. 1차적으로 여러 검증셋 구축을 완료하였고, 향후 나머지 검증 요소를 실험하기 위한 데이터셋을 구축하고 있었다.
(절차) 모델 내부 검증 - 공인 타당도 검증 - 모델 배포 테스트 순으로 적용
(방법) 실제 영상 면접 조건에서 구축한 검증 데이터셋을 활용하여 검증 지표의 유의성 및 타당도 검증
(검증요소) 편향을 유발할 수 있는 가능성이 있는 요소를 검증 요소로 정의 하고 인공지능의 추론결과에서 유의미한 편향이 관찰 되는지 확인함
성별의 경우, 참값을 태깅하지 않았기 때문에 감별모델을 사용하여 성별을 추정한 후 검증 셋을 구축하였음
검증셋 구축 완료
명암, 촬영 장비, 성별, 안경, 볼륨, 음의 높이, 발화 정보, 카메라 각도, 촬영 거리
검증셋 구축 중
해상도, 머리 모양, 발화 속도, 발음 정확도, 특정 행동, 액세서리, 광원, 전문 용어 등
(검증지표) 검증 요소 별로 다양한 지표를 사용함
정량지표(상관계수)
T-test 통한 차이 검증 (p-value < 0.01, 0.05, 0.1)
ANOVA 통한 차이 검증 (p-value < 0.01, 0.05, 0.1)
SPDD
PCC
편향 유의성(평가자간 신뢰도) 해석
선발 도구 타당도 해석 : 미국 노동부의 ETA(Employment and Training Administration) 에서 HR 권고 가이드로 제공한 기준을 따름
대상 제품을 공격할 수 있는 방안으로 모델 추출과 모델 회피를 도출하였으며, 아래와 같이 대책을 마련하였다.
운영 시나리오에 따른 모델 추출 방어
고객사는 응시자격을 부여할 대상자에게 시스템 사용이 가능한 코드를 개별 부여함
하나의 코드 당 단 1회의 영상 업로드 기회가 제공됨(모든 응시자 동일 기회)
응시자는 고객사에서 확인하는 모델의 추론 결과를 확인할 수 없음
사전 시험 및 기능 구현에 따른 모델 회피 방어
QA 시험 시나리오: 여러가지 회피영상 입력 시나리오를 시험함 예) 얼굴 영상을 그림으로 대체, 답변을 노래가사로 대체 등
“AI 감독관” 기능: 응시자의 모델회피의 유형(요구사항 6 참조)을 정의 하고 각 유형 발생시 시스템에서 알림이나 강제 로그아웃 등의 조치
“정보부족” 프로세스: 모델이 분석하기에 충분한 정보를 담지 못한 경우 학습데이터 정제시 자동으로 필터링 됨
(인공지능 모델 명세) 대상 제품의 추론 모델은 데이터-모델을 하나의 쌍으로 취급하며, 모델 카드와 데이터 시트(요구사항 4 참조)를 운영하여 모델을 명세하고 그 버전을 관리하고 있다.
(모델 추론 근거) 각 기능별 적용 가능한 XAI기술을 실험하여 편향에 유의미한 영향을 미치는 요소를 도출하고 이를 확인 및 방지하는 활동을 수행하였다. 아래는 적용 시도한 기술들이다.
LIME, SHAP, feature ablation 등
(모델 추론 결과 해석) 개발 기업은 모델의 추론결과의 해석을 돕기 위해 아래의 활동을 수행하였다.
고객사 대상 설문 조사를 통해 피드백을 청취하고 표현 방식을 개선함
고객사에게 모델의 추론결과 페이지를 해석하기 위한 설명 자료를 제공함
(사용자 인터페이스로 인한 편향) 사용자의 입력은 영상 입력장치로 받으며 시스템은 화면에 텍스트로 질의를 표기한다. 장치에 의한 편향의 완화는 요구사항 9 의 검증요소 중 일부로 개발 기업의 검증 절차에 포함하여 수행하였다.
(상호작용 방식으로 인한 편향) 해당 시스템은 단방향 소통에 가까우며, 응시자 별 질의 이해도에 따른 편향을 완화하기 위해 질문의 명확성을 개선하는 작업을 실시하였다.
(사용자 오류 안내 및 예외 처리 정책) 응시자에게 자주 발생하는 문제 및 해결 방안을 미리 안내하고, 대상 제품 사용 중 예외 상황이나 시스템 장애를 문의할 수 있는 채널을 마련하여 상시 운영하였다.
(시스템 공격 방어 대책) 요구사항 10의 모델 방어 조치로 공격에 대비하였고, 시스템 관점에서 서비스 취약점 검사를 실시하고 검사 결과에 대해 조치하였다.
(인공지능 추론 결과에 사람의 개입) 대상 제품의 주요 기능은 면접관의 의사결정을 “지원” 하는 것이며, 시스템에서는 최종 의사결정을 위한 참고 화면을 제공하는 데 까지의 역할을 한다. 개발 기업에서는 “면접 대체”는 선택사항으로 제시하고 있으며, 채용 프로세스에 이를 수용하는지의 의사결정은 고객사에 귀속된다. 고객사에서 “면접 대체”로 시스템을 활용하는 경우에는 고객사의 결정과 방침에 따라 면접관의 개입을 고려할 수 있다.
(시스템 오류 모니터링 및 알림) 상시적 서버 모니터링과 오토 스케일링 기술(서버의 부하, 또는 장애 여부에 따라 서버의 규모를 자동으로 조정)을 적용하여 서버의 이상을 방지하고 있으며, 서버에 장애가 발생하면 협업도구를 통해 개발 조직에게 알림이 발생하도록 설정해 놓았다. 알림이 발생하면 담당자가 최대한 빨리 대응하도록 자체적인 절차를 수립하였다.
(사용자 조사 실시) 대상 제품의 주 사용자인 응시자와 고객사를 대상으로 사용자 설문을 실시하고, 해당 결과를 시스템에 반영하였다.
(결과 해석 자료 제공) 인공지능의 추론 결과 페이지를 직접 열람하는 고객사의 면접관을 위해 결과페이지 해석을 위한 가이드를 별도로 제공하여 전문 용어나 결과수치의 의미 등을 설명하였다.
(서비스의 올바른 사용) 고객사에게는 대상 제품의 활용 목적과 목표를 설명자료를 통해 안내하였으며, 채용의 운영 주체인 고객사로 하여금 응시자에게 서비스의 한계와 범위를 설명하도록 안내하였다. 면접 영상을 AI가 분석한다는 상호작용의 내용도 범위에 포함된다.
(의사결정에 대한 사람의 개입) 대상 제품의 추론은 고객사 면접관의 의사결정을 지원하기 위한 결과이며 이를 최종 의사결정에 도입하는 것은 고객사의 운영방침에 달려있다. 단, 고객사가 면접 전형을 대상제품의 결과로 완전히 대체하는 경우에는 사실 고지 및 사람의 개입에 대한 절차를 만들 것을 적극적으로 권고하였다.