06 데이터 견고성 확보를 위한 이상 데이터 점검

  • 인공지능 모델의 학습에 활용되는 데이터는 이상값, 중독 및 회피 등에 영향을 받지 않아야 하며, 이의 점검 및 방어 기법의 적용을 통해 견고성을 확보한다.


06-1 이상 데이터의 식별 및 정상 여부를 점검하였는가?

  • 이상 데이터란 학습용 데이터를 구성하는 데이터셋의 수집 및 가공 과정에서 발생할 수 있는 다양한 오류(error)와 일반적인 데이터의 범위에서 크게 벗어난 데이터 이상값(outlier)을 포괄한다. 학습 데이터의 수집 및 가공 과정에서 발생하는 이상 데이터는 데이터상의 노이즈, 학습 데이터 내의 편향, 잘못된 라벨링, 라벨링 누락 등 다양한 원인에 의해 생길 수 있으며 이를 해결하지 않으면 인공지능 모델의 성능 및 견고성 확보가 어렵다.

  • 단, 이상 탐지(anomaly detection) 시스템에 활용되는 인공지능 모델의 경우, 이상 데이터는 제거해야 할 데이터가 아닌 학습 데이터가 될 수 있음에 유의하여야 한다.

  • 비정형 데이터(unstructured data)를 학습에 활용하는 경우, 데이터 전처리 과정에서 이상 데이터의 식별을 위한 별도의 기법을 마련하여야 한다.

06-1a 전체 학습용 데이터 분포를 시각화하여 발생 가능한 오류들을 확인하였는가?

  • 데이터 전처리 과정 중 하나인 데이터 정제 단계 이후, 데이터 전체 분포를 시각화하여 추가적인 입력 오류를 확인할 수 있다. 특히, 이러한 데이터 분포 시각화는 인공지능 모델 학습을 위한 데이터 탐구 및 이해에 많은 도움을 준다.

  • 데이터 분포 시각화 방법은 데이터의 특성에 따라 다양한 기법이 존재한다. 먼저, 전체 데이터의 평균, 분산, 편차 등을 활용하여 데이터 분포를 시각화하는 분포 도표, 범주형 데이터를 시각화하는 범주형 도표, 2차원 행렬 데이터를 시각화하는 행렬 도표 등이 있다.

06-1b 학습 데이터 이상값 식별 기법을 적용하였는가?

  • 데이터 전처리 과정에서 중요한 활동 중 하나는 데이터 이상값을 식별하고 이를 제거하는 것이다. 데이터 누락과는 달리 데이터 이상값의 경우에는 데이터값이 이미 정해져 있지만, 전체 데이터셋을 기준으로 정상 범주를 벗어난 값이므로 단순 탐색만으로 발견하기 쉽지 않다.

  • 데이터 이상값을 식별하는 방법에는 주로 데이터 전체에 대해 통계적 기법을 적용하여 전체 데이터셋을 고려하였을 때 차별화되는 데이터 포인트를 찾아내는 방법 등이 있으며, 이와 관련 대표적인 기법은 Z-점수, 사분위수 범위 등이다.

  • 데이터 이상값 식별 기법 예시

이상값 식별 기법 분류
설명

Z-점수

가장 간단한 통계적 측정 방법으로, Z-점수는 주어진 데이터셋의 분포 평균과 표준편차를 이용하여 관찰된 데이터 포인트가 전체 데이터로부터 얼마나 멀리 떨어져 있는지를 수치화한다.

사분위수

데이터를 정렬한 후 4등분으로 나누면 등분점이 3개 생기는데, 앞에서부터 '제1사분위수(Q1)', '제2사분위수(Q2)', '제3사분위수(Q3)'라고 한다. 이때 데이터가 Q1과 Q3 사이에 속하지 않으면 이상값으로 판별한다.


06-2 데이터 공격에 대한 방어 수단을 강구하였는가?

  • 인공지능 서비스 운영 과정에서 입력 데이터에 최소한의 변조를 가해 예상과는 다른 결과를 출력하도록 하는 적대적 공격에 노출될 수 있으므로, 데이터 수집 및 처리 단계에서 대처 가능한 방안을 검토 및 적용하는 것이 바람직하다.

  • 데이터 수집 및 처리 단계에서는 데이터 최적화(data optimization)를 통해 적대적 공격에 방어할 수 있다. 데이터 최적화는 모델의 안정성과 일반화 성능을 향상시키기 위해서도 활용되지만, 적대적 사례에 대한 효과적인 대응을 위해 활용되기도 한다. 데이터 최적화를 통한 방어 대책은 적대적 학습(adversarial training), 데이터 품질 개선, 데이터 노이즈 제거를 중심으로 하여 모델이 적대적 사례에 강건하게 동작하도록 한다.

06-2a 데이터 최적화를 통한 방어 대책을 마련하였는가?

  • 데이터 수집 및 처리 단계에서는 데이터 최적화를 통해 인공지능 모델이 적대적 사례에 강건하게 대응할 수 있다. 대표적인 방어 대책은 적대적 학습이다. 적대적 학습은 적대적 사례로 활용될 수 있는 모든 경우의 수를 미리 고려하여 학습 데이터셋에 포함시키는 것이다. 이를 통해 모델이 미세한 변화에 대응하고 더 복잡한 환경에서도 안정적으로 작동할 수 있도록 한다. 적대적 학습을 위해서는 충분한 수와 다양성이 보장된 적대적 학습 데이터를 생성하는 과정이 필수적이다.

  • 또한, 데이터 품질을 향상시키고 노이즈를 제거하는 과정도 중요하다. 이는 모델이 더 정확한 패턴을 학습하여 입력 데이터의 특이성을 감지하고 이를 효과적으로 처리함으로써 적대적 사례에 대한 민감성을 낮출 수 있다. 관련 방안은 06-1을 활용할 수 있다.

개선 의견 보내기

Last updated