06 데이터 견고성 확보를 위한 이상 데이터 점검

  • 생성 AI 기반 서비스는 타깃 도메인에 특화된 정확한 결과를 얻기 위해 별도로 데이터 라벨링 작업을 수행하고 적용할 수 있다.

  • 데이터 품질 저하, 데이터 불균형, 중복 또는 입력 누락과 같은 요인으로 인해 생성 AI 모델의 품질과 성공이 저하될 수 있다[104]. 개발자가 다양한 소스의 데이터를 결합하여 학습 및 테스트를 위한 광범위한 데이터셋을 구축하는 경우가 많기 때문에 성능 향상 및 학습 효율성을 확보하기 위해 데이터의 이상 분석이 필요하다.

  • 개발된 모델은 공격 상황에 직면할 수 있으므로 모델 학습 전에 데이터를 준비해야 한다. 공격이나 이상 데이터로 인해 예측하지 못한 편향이 발생하지 않도록 관리 단계에서 대응책을 마련할 필요가 있다.


06-1 이상 데이터의 식별 및 정상 여부를 점검하였는가?

  • 비정상 데이터를 주의 깊게 식별하는 것은 데이터셋 무결성을 유지하고, 오류를 최소화하며, 생성 AI 모델 내에서 편향을 줄이는 데 필요하다. 모델 신뢰성과 최적의 성능을 보장하기 위해서는 철저한 데이터 검증이 필요하다[106]. 생성 AI 모델은 학습 데이터에서 패턴을 학습하고 호환 가능한 콘텐츠를 생성하기 위해 노력한다. 하지만 데이터셋에 비정상적인 데이터가 있으면 과적합이 발생하여 정상적인 사례가 아니므로 일반화되지 않을 수 있다.

  • 이상 데이터를 확인하기 위해 심층 반지도 이상 탐지(Deep Semi-supervised Anomaly Detection)[107], 심층 지도 이상 탐지(Toward Deep Supervised Anomaly Detection)[108] 등과 같은 최신 기술을 활용할 수 있다. 또한 프롬프트 인젝션・하이재킹을 추가하는 것도 고려해야 한다[109]. 호기심 많은 일부 사용자가 개발한 모델을 강제로 삽입하거나 공격할 가능성은 항상 있다. 또한 일부 인터넷과 사용자 제공 프롬프트 데이터에는 학습 데이터에서 필터링하거나 제외해야 하는 민감하거나 부적절한 콘텐츠가 포함될 수 있다. 이러한 데이터가 포함된 데이터셋으로 학습된 생성 AI 모델은 의도치 않게 공격적이거나 편향적이어서 유해한 출력 및 이상값 데이터를 생성할 수 있다.

  • 이를 확인하기 위해 모니터링 및 시각화 기법도 사용된다. 개발된 AI 모델의 학습 데이터를 시각화하여 라벨링 작업의 결과 오류가 없는지 확인하고, 메타데이터의 스키마를 분석하여 데이터의 이상값을 파악하고 이상값이 없는지를 확인한다.

06-1a 전체 학습용 데이터 분포를 시각화하여 발생 가능한 오류를 확인하였는가?

  • 데이터의 오류 탐지에 사용할 수 있는 방법에는 지도/반지도 데이터 오류 탐지 기법과 함께 데이터 시각화가 있다[105].

    • 자체 지도 학습 등을 통한 데이터 라벨링 작업 대신 개발된 모델에 대한 데이터 라벨링 작업을 선택한 경우, 생성 AI 모델에 사용된 데이터 특성의 분포를 시각화하여 라벨링 오류 식별

    • 메타데이터의 스키마 통계 분석 기법을 사용해 데이터의 이상치 식별

  • 일반적인 다양성 및 모집단 데이터셋은 이상값과 오류를 쉽게 찾고 관리할 수 있다. 그러나 빅데이터, 다양한 소스의 융합 데이터, 복잡한 데이터 집합의 경우에는 이 프로세스가 어려워진다. 따라서 시각화 기법을 사용하면 사람의 실수로 인해 발생할 수 있는 오류를 좀 더 쉽게 확인할 수 있다. 또한 이러한 데이터 분포 시각화 기법은 인공지능 모델 학습의 데이터 탐색과 사례를 이해하는 데 매우 유용한다.

  • 시각화 도구의 선택은 데이터 집합의 특성과 분석의 특정 목표에 따라 달라질 수 있다. 이러한 도구는 학습 데이터 분포를 이해하고 잠재적인 오류나 이상 징후를 식별하며 데이터셋의 품질과 후속 생성 AI 모델을 개선하기 위한 정보에 입각한 의사결정을 내리는 데 종합적으로 도움이 된다.

참고: 데이터 분포 확인을 위한 데이터 시각화 분석 도구[119]

  • 데이터 분석을 위한 기타 도구

    • Microsoft Power BI

    • 구글 데이터 스튜디오

    • Redash

  • 생성 AI 모델을 위한 대규모 시각화 제공 도구 및 플랫폼

    • 구글 클라우드의 생성 AI 스튜디오: 생성 AI 스튜디오는 사용자가 대규모 AI 모델과 상호작용을 하고 조정하며 배포하여 생성 AI를 프로덕션에 빠르게 적용할 수 있도록 지원한다. 로우코드 생성 AI와 구글의 멀티모달 기반 모델에 대한 간편한 액세스를 제공한다.

    • DataRobot: DataRobot의 AI Wiki는 생성 AI 모델 사용을 포함하여 머신러닝을 위한 데이터 시각화에 대한 개요를 제공한다. 이 문서에서는 좀 더 실용적이고 정확한 모델 결과, 곧 깨끗하고 잘 선별된 데이터를 생성하는 데 좋은 데이터 준비의 중요성을 강조한다.

06-1b 학습 데이터의 이상값 식별 기법을 적용하였는가?

  • 학습 데이터에서 이상값은 대부분의 데이터에서 크게 벗어나는 데이터 포인트이다. 이상값은 모델의 학습 과정과 후속 성능에 부정적인 영향을 미칠 수 있는 오류, 노이즈 또는 비정상적인 인스턴스일 수 있다. 이상값을 식별하고 제거함으로써 모델은 의미 있는 패턴을 학습하는 데 집중하고 노이즈가 많거나 관련 없는 데이터 포인트의 잠재적 영향을 줄일 수 있다.

  • 다음과 같은 생성 AI 모델에 적합한 몇 가지 이상값 식별 기법이 있다.

    • ODIM: 심층 생성 모델의 내재 기억 효과를 통해 이상값을 탐지하는 효율적인 방법[125]

    • 반지도형 이상값 탐지: 생성 및 적대적 프레임워크[126]

    • 다른 모델 사용: 선형 모델 대신 이상값의 영향을 덜 받는 랜덤 포레스트 및 그라디언트 부스팅 기법과 같은 트리 기반 방법[127]

    • 이상값 탐지를 위한 밀도 기반 알고리즘[128]

    • 이상값 탐지를 위한 딥 러닝 기반 기법[129]

    • 대규모 언어 모델을 위한 증강 학습 기반 기법[130]

  • 메타데이터에도 이상값 식별 기법이 적용될 수 있다. 전체 메타데이터를 분석하여 특징 데이터에 대한 스키마를 유추하고 이를 데이터셋의 통계와 비교하여 이상값을 식별한다[131].

참고: 트랜스포머 제품군 아키텍처에서 이상값 차원 조사[137]

  • 레이어 출력에서 아주 적은 수의 피처가 제거되면 BERT와 같이 널리 사용되는 아키텍처를 포함하여 사전 학습된 트랜스포머(Transformer) 인코더의 취약성이 드러난다. 이 연구에 따르면 모델 가중치의 극히 일부분, 특히 LayerNorm의 스케일링 계수와 편향을 제거하면 마스크 언어 모델링(MLM)의 손실을 초래하고 다운스트림 작업 성능을 저하는 등 상당한 영향을 미칠 수 있다.

  • 이 연구 결과는 이러한 모델의 동작을 이해하고 MLM 및 다운스트림 작업 모두에서 성능을 최적화하는 데 시사점을 제공한다.


06-2 데이터 공격에 대한 방어 수단을 강구하였는가?

  • 데이터와 사용자 개인정보를 보호하고 침해를 방지하려면 데이터 공격에 대응하기 위한 보안 조치가 필요하다[139]. 이러한 방어 접근 방식은 위협 탐지 및 완화를 지원하며, 적시에 공격을 탐지하고 대응하기 위한 효율적인 전략을 개발하는 데 사용할 수 있다[140].

  • 생성 AI 기술의 도입은 데이터 프라이버시 침해 문제와 공격 표면의 확장 등 새로운 보안 위험을 초래한다[142]. 생성 AI 모델은 특정 고유 정보(성별, 출신 지역, 인종, 국적 등)의 사용 등 다양한 상황에서 공격을 받을 수 있으므로 이에 대한 방어책 마련이 필요하다. 조직은 데이터를 대상으로 하는 공격에 대응하는 보안 유지에 노력을 기울이고 잠재적인 취약점으로부터 보호함으로써 사용자, 이해관계자 및 대중과 신뢰를 구축할 수 있다.

참고: 데이터 수집 관련 공격 및 방어 기법 예시[148]

06-2a 데이터 최적화를 통한 방어 대책을 마련하였는가?

  • 생성 AI 모델은 악의적인 사용과 그 자체로 사이버 공격 코드를 생성할 수 있는 잠재력을 지녔기 때문에 사이버 보안에서 우려의 대상이 되어 왔다. 대부분의 AI 모델이 아무리 정교해졌다고 해도 외부에 노출되어 있는 모델은 여전히 보안 위협에 취약하다. 공격자는 모델 자체를 직접 공격할 수도 있지만 데이터와 학습 데이터도 공격 대상으로 삼고 있다. 많은 경우 학습용 데이터를 공격하여 조작하는 것이 모델 자체에 접근하는 것보다 쉬울 수 있다. 극단적인 경우에 공격자는 훈련・테스트 데이터를 공격함으로써 모델에 접근하여 탈취하기도 한다.

  • 생성 언어 모델을 개발할 때 공격자는 프롬프트 인젝션을 사용하여 데이터를 손상하거나 데이터를 침해하여 모델을 공격하는 경향이 있다. 또한 공격자의 악의적이고 적대적 공격은 수집・획득한 인공지능 학습 데이터뿐만 아니라 내부적으로 수집하여 구축한 학습 데이터에 대해서도 발생할 수 있으므로 이에 대한 대응책 마련이 필요하다.

  • 데이터 중독은 학습 데이터에 대한 적대적 공격의 한 유형이다. 공격자는 개발된 모델의 성능을 저하시킬 목적으로 학습용 데이터의 일부를 표적으로 삼는다. 생성 AI 모델의 학습 시, 편향되고 유해한 콘텐츠를 생성하도록 유도하는 데이터를 학습 데이터 사이에 추가하거나 변조하거나 삭제하는 것이 가능하다.

  • 일반적으로 개발된 생성 AI 모델의 데이터를 보호하기 위해 생성 모델을 사용하여 '정상' 또는 양성 데이터의 분포를 학습하고 이를 활용하여 제로데이 악성코드와 같이 분포에 맞지 않는 '비정상적인' 객체를 식별하려는 시도[151] 등을 고려할 수 있다. 포이즌이 발생한 시점을 탐지하거나 방어 방법을 사용하여 영향을 받지 않은 모델을 생성하고[152], 모델 학습 전에 비정상적인 학습 지점을 필터링하고[153], 잠재적 취약성에 대한 포괄적인 인식을 개발하고 표적 공격으로부터 보호하기 위한 적절한 조치를 취하고[154], 데이터셋 변조에 대한 방어 기술을 개발[149]하는 것은 이러한 솔루션 중의 일부이다. 또한 개발자와 보안 분석가는 다음과 같은 예방 조치를 고려하고 제공해야 한다[155].

데이터 공격 방어 기법
기술 내용

사전 식별 및 완화

  • 데이터에 대한 사이버 위협으로부터 데이터를 보호하려면 공격 경로를 사전에 식별하고 완화하는 것이 중요하다. 여기에는 시스템 동작, 네트워크 트래픽, 입출력 패턴을 지속적으로 모니터링하고 분석하여 비정상적이거나 악의적인 활동을 탐지하는 것이 포함된다.

  • 고급 분석 및 이상 탐지 기술을 활용하여 조직은 잠재적인 공격을 식별하고 적시에 예방 조치를 취할 수 있다[140].

학습용 데이터 검증

  • 학습용 데이터를 신중하게 선별하고 검증하여 오염되거나 악의적인 샘플이 포함되지 않도록 하는 것이 필요하다.

  • 데이터 소스를 철저히 조사하고 데이터 검증 기술을 활용하여 데이터 중독 공격의 위험을 완화한다[140].

인증된 방어 기능

  • 인증된 방어의 목표는 데이터 중독 공격에 견고함을 보장하는 것이다.

  • 이 기법에 대한 가장 잘 알려진 연구는 이 목적을 위해 만들어진 프레임워크[158]이다. 이 프레임워크는 특정 방어에 대해 전체 공격 영역을 검사하도록 설계되었으며, 이상 징후 제외 및 경험적 위험 최소화를 채택한다.

참고: 적대적 공격에 대한 방어 연구 사례 [161][162][163]

  • 생성 AI 모델에서는 일부 데이터 유형에 대한 공격이 심한 수준이다. 비디오, 시계열 데이터와 같은 이미지, 텍스트, 표 형식 데이터 등이 이에 해당한다.

  • 이러한 모델은 의도된 용도와 인간의 삶에 미치는 영향으로 인해 지속적으로 공격에 노출된다. 그리고 사소한 보안 위협이 발생할 경우에도 생성 모델로 인한 오류는 치명적일 수 있다(섹션 05-2b 참조).

  • 방어 메커니즘을 선택할 때 개발자는 모델이 받을 수 있는 데이터 공격을 고려한다.

    다음은 생성 AI 모델에 대한 적대적 데이터 공격과 관련된 최근 연구 사례이다.

개선 의견 보내기

Last updated