04 인공지능 시스템의 추적가능성 및 변경이력 확보
생성 AI 모델의 성능을 추적하고 모니터링하기 위해서는 다양한 방법을 구현해야 하며, 시스템 로그 유지, 데이터 모니터링, 콘텐츠 생성에 대한 AI 모델과 사람의 기여도 추적 등이 포함된다. 모델의 변경이력을 관리하는 것은 향후 발생할 수 있는 모든 문제의 원인을 추적하는 데 필요하다. 또한 모델을 재학습할 때 데이터 상황에 대한 변경 사항을 기록하고 데이터 변경 시간, 액세스 사용자, 변경 내용 등의 세부 정보가 포함된 보고서를 생성하는 것도 종합적인 모니터링과 관리를 위해 필요하다.
04-1 인공지능 시스템의 의사결정에 대한 추적 방안을 수립하였는가?
콘텐츠 생성에 대한 책임을 보장하기 위해 사용된 데이터와 사용자 피드백이 결과물에 미치는 영향을 분석해야 하며, 학습 데이터, 사용자 피드백 및 모델 성능에 대한 모니터링은 지속적으로 이루어져야 한다.
추적 계획은 AI 모델의 개발과 유지관리에서 다음과 같이 활용된다.
생성 AI 모델과 AI 모델의 개발 과정에서 발생하는 모든 이벤트와 작업을 기록함으로써 책임 소재를 규명
이상 징후와 잠재적인 보안 침해를 식별하여 승인되지 않은 활동에 신속하게 대응
사용자 데이터를 분석하여 모델의 성능 최적화 및 사용성 향상
개발된 모델의 개선을 위한 점검 및 분석에 필요한 데이터를 제공하여, 개선이 필요한 부분의 식별 및 변경, 변경 영향 모니터링
생성 AI 모델은 일반적으로 사용자로부터 획득한 새로운 데이터를 공급하여 지속적으로 재학습하기 때문에 전체 생명주기 모델을 고려한 추적 방법이 확보되어야 한다. 또한 운영자나 사용자 등 인적 측면이 인공지능 시스템의 산출물에 미치는 영향을 추적하기 위해서는 지속적으로 모니터링 해야한다.
04-1a 인공지능 시스템의 의사결정에 대한 기여도 추적 방안을 확보하였는가?
인공지능 시스템의 콘텐츠 생성에 모델이 어떻게 기여하는지 이해하려면 출력 생성의 영향 정도(예: 로그 수집, 사용자의 사용 이력, 입력/출력 데이터 로그 등)를 추적해야 한다.
생성 AI 모델에서 출력 생성 과정의 기여도를 추적하는 방법을 확보하는 것은 모델의 무결성 및 보안을 유지하는 데 필수적이다. 이것은 책임, 준수, 보안, 최적화 및 계획적인 출력 생성 과정에 필요한 데이터를 제공한다. 출력 생성에 대한 생성 AI 모델의 기여를 확보하고 추적하기 위해 구현할 수 있는 여러 조치와 접근법이 있다[99][141][150].
모델 모니터링 및 로깅
생성 AI 모델의 활동 및 성능을 추적하기 위한 견고한 모니터링 시스템을 구축해야 한다. 여기에는 입력 데이터, 모델 구성 및 각 생성 출력에 대한 타임스탬프와 같은 관련 메타데이터의 로깅이 포함된다. 이 정보를 캡처함으로써 특정 출력에 대한 모델의 기여를 추적하고 이해할 수 있다.
데이터 프로버넌스
생성 AI 모델을 훈련시키기 위해 사용된 데이터의 기원과 계보를 추적하는 데이터 프로버넌스 시스템을 구축해야 한다. 이 시스템은 훈련 데이터의 출처와, 적용된 사전 처리 단계 및 훈련 과정 중에 이루어진 변환과 같은 세부 사항을 기록해야 한다.
감사 및 검증
생성 AI 모델의 출력에 대해 정기적인 감사와 검증을 수행해야 한다. 이는 수동 검사 또는 품질, 정확성 및 원하는 기준에 대한 준수 여부를 확인하기 위한 자동화된 도구의 사용을 포함할 수 있다.
사용자 피드백 및 평가
사용자에게 생성된 출력에 대한 피드백 및 평가를 제공하도록 권장한다. 이 피드백은 생성 AI 모델의 성능을 평가하고, 개선할 영역을 식별하며, 출력 생성 과정에서 모델의 영향을 이해하는 데 사용될 수 있다.
04-1b 인공지능 시스템의 의사결정 추적을 위한 로그 수집 기능을 구현하였는가?
생성 AI 모델의 전체 생명 주기를 고려하여 추적가능성을 확보하기 위해서는, 모델의 학습 과정, 운영 중 생성 결과, 인공지능의 구현 조정 및 사용자 입력 데이터, 피드백과 같은 정보를 지속적으로 수집해야 한다. 생성 AI 모델에 로그 수집 기능을 구현하는 것은 콘텐츠 생성 모니터링을 위해 중요하다. 생성 AI 모델의 로그 수집 기능은 훈련 데이터셋, 사용자 프롬프트 및 피드백 등 다양한 출처에서 데이터를 캡처하고 기록한다.
이러한 로그는 출력 생성 과정 중에 발생할 수 있는 문제나 오류의 근본 원인을 파악하기 위한 디버깅 용도로 사용될 수 있다. 이는 생성된 콘텐츠의 품질을 개선하고 원하는 품질 기준을 충족하는 데 도움을 줄 수 있다[92]. 또한 로그는 생성 AI 모델을 개선하고 성능을 최적화하기 위해 모델이 어떻게 작동하고 어디에서 개선이 필요한지에 대한 통찰력을 제공하는 데 사용될 수 있다.
04-1c 지속적인 사용자 경험 모니터링을 위해 사용자 로그를 수집・관리하고 있는가?
로그 관리는 개발된 생성 AI 모델의 사용을 통해 얻은 데이터를 지속적으로 수집, 저장, 처리, 종합 및 분석을 하는 것이며, 모델 사용의 움직임과 데이터를 기록하는 주요 개념은 모델 성능을 최적화하고, 기술적 문제를 파악하며, 리소스를 더 잘 관리하고, 보안을 강화하기 위한 것이다.
사용자 로그를 수집하는 방법은 사용하는 시스템에 따라 각각 방법이 다를 수 있다. 개발자는 필요한 데이터를 수집하도록 구성할 수 있는 내장 로깅 기능을 사용하거나 제3자 로깅 도구나 소프트웨어가 필요할 수 있다.
참고: 생성 AI 모델의 MoE 방식으로 인한 지속적인 품질 모니터링의 중요성
일부 사용자와 전문가들은 GPT-4의 성능이 떨어졌다고 주장하며, 이에 대한 원인으로 오픈AI의 '모델 쪼개기' 작업, 즉 '전문가 믹스(MoE, Mixture of Expert)' 방식을 지목했다. 이 방식은 GPT-4를 여러 개의 작은 전문 모델로 분리하고, 질문에 따라 이들을 연결하거나 혼합하여 사용하는 것을 의미한다.
이 논쟁의 배경에는 오픈AI가 GPT-4 출시 시 자세한 기술적 세부 사항을 공개하지 않았다는 사실에 있다. 이로 인해 외부에서는 모델의 변경 여부를 확실히 확인하기 어려운 상황이며, 이는 일부 사용자들 사이에서 오픈AI의 폐쇄성에 대한 비판을 불러일으키고 있다.
이러한 상황은 인공지능 기술의 복잡성과 지속적인 발전, 그리고 사용자 기대치와의 균형을 맞추는 과정에서 발생하는 일반적인 문제를 반영한다. 기술의 빠른 진화와 사용자의 다양한 경험은 이 분야의 연구와 개발에 대한 지속적인 토론과 평가를 필요로 한다.
04-1d 인공지능 시스템이 생성한 콘텐츠를 식별하기 위한 방안을 마련하였는가?
생성 AI 기반 서비스에서 콘텐츠에 대한 식별 방안을 마련하는 것은 콘텐츠를 무단 활용하는 것을 방지하는 데 효과적이다. 이는 콘텐츠와 관련된 사용자・개인에게 직접적인 영향을 미치기 때문에 매우 중요하다. 또한 이는 크리에이터가 생산한 콘텐츠에 대해 책임을 지게 함으로써 책임성을 보장하고, AI 개발의 윤리적 관행을 장려한다. 적절한 콘텐츠 식별 방안은 책임 있는 AI 사용과 연계되어 AI 기술을 사용한 콘텐츠 제작 및 배포와 관련된 윤리적 문제를 해결한다[339].
법적 관점에서 콘텐츠 식별 방안은 잠재적인 법적 쟁점에 대비하여 「지식재산 기본법」을 준수하고 표절 혐의의 위험을 완화할 수 있다. 워터마킹 기법은 특히 AI가 생성한 콘텐츠를 식별하는 데 있어 다양한 조직과 생성 AI 개발자가 자주 사용한다.
생성된 콘텐츠에 워터마킹 기술을 사용하는 것에 대한 규제 동향
대한민국
(2023. 5.) 「콘텐츠산업진흥법」 개정
「콘텐츠산업진흥법」은 콘텐츠산업의 진흥과 콘텐츠 창작자의 권리 보호를 목적으로 하고 있다.
최근 인공지능 기술로 창작된 콘텐츠(텍스트, 이미지, 음악 등)가 인공지능 기술로 창작된 것으로 인정받을 수 있도록 관련 법-제도 정비가 필요하다는 의견이 제기되어 개정안이 발의되었다(제26조-이용자 보호조치).
미국
(2023.10)바이든 행정부 첫 'AI 행정명령', AI 생성 콘텐츠 워터마킹 표준 개발 발표
조 바이든 대통령은 AI 기술에 대한 미국 정부의 첫 번째 주요 구속력 있는 조치인 '안전하고 신뢰할 수 있는 인공지능(Safe, Secure, and Trustworthy AI)에 관한 행정명령'을 발표했다.
EU
(2022. 4.) 디지털 서비스법(DSA)
인터넷 기업이 온라인상의 잘못된 정보, 불법 콘텐츠, 상품 및 서비스로부터 유럽 사용자를 보호하기 위해 2022년 4월 유럽의회에서 승인되었다.
이 법안은 AI가 생성한 콘텐츠(이미지, 오디오, 비디오)에 해당 콘텐츠를 생성한 주체를 식별할 수 있도록 눈에 잘 띄는 표시를 하도록 의무화한다(제35조-위험 완화-⒦).
중국
(2022. 11.) 인터넷 정보서비스 심층합성 관리 규정 발표
인공지능 딥 러닝 기술을 활용하여 텍스트, 이미지, 영상, 음성 등의 정보를 생성하거나 편집하는 딥 합성 서비스를 규제하기 위한 규정을 발표하였다.
이 규정의 세부 조항 중 서비스 제공자는 다음과 같은 서비스를 제공하는 경우, 대중이 콘텐츠를 생성한 주체를 인식할 수 있도록 눈에 잘 띄는 위치와 영역에 이를 표시해야 한다고 명시하고 있다(제3장 데이터 및 기술 관리 기준 - 제17조).
생성된 콘텐츠에 사용되는 워터마킹 기술 동향
The Coalition for Content Provenance and Authenticity(C2PA)
이미지에 대한 허위 및 오해의 소지가 있는 정보의 확산을 해결하기 위해 Adobe, Sony, BBC 등이 공동 설립한 마이크로소프트 주도의 C2PA 기술 표준 단체이다.
C2PA는 온라인에서 오해를 불러일으킬 수 있는 정보의 확산을 해결하기 위해 AI로 생성된 콘텐츠를 포함한 미디어 콘텐츠의 출처와 이력(또는 출처)을 인증하는 기술 표준을 개발하는 것을 목표로 한다.
Meta, Inria
메타는 비식별 워터마킹 기술인 '스테이블 시그니처' 기술을 프랑스 국책 연구기관 인리아와 함께 오픈소스로 공개했다(2023. 10.)
스테이블 시그니처는 아키텍처 변경 없이 생성 프로세스 자체에 워터마킹을 병합하고, 생성되는 모든 이미지에 특정 워터마크가 숨겨지도록 사전 학습된 생성 모델을 조정하는 방식이다. 이 워터마크는 오픈소스 생성 AI 모델에서 생성된 이미지에 대한 디지털 지문 또는 서명 역할을 하도록 설계되었다.
생성 AI 모델을 위한 워터마킹 기법에는 AI 모델이 생성한 디지털 콘텐츠에 마크 또는 신호를 삽입하는 것이 포함된다. 이러한 워터마크는 콘텐츠 제작에 사용된 AI 모델을 식별하는 등 다양한 용도로 사용된다. AI로 생성된 콘텐츠에 대해 워터마킹 표준을 도입하는 것은 사기, 속임수, 잘못된 정보 그리고 지식재산권 분쟁과 관련된 문제를 해결하는 데 그 목적이 있다[342][343][344]. AI 워터마킹의 사용은 AI 생성 콘텐츠가 개인을 속이거나 오도하는 데 사용될 위험을 줄이는 데 중요한 역할을 할 것으로 기대된다. 생성 AI의 워터마킹 기술은 다음과 같은 이유로 중요하다.
속성 및 식별: 워터마크는 생성된 콘텐츠의 배후에 있는 AI 모델 또는 사람을 식별하여 적절한 속성 및 책임을 보장한다[345].
자산 보호: 생성 AI 기반 모델에서 워터마킹은 콘텐츠를 보호하는 데 필수적이다. 워터마킹은 추적과 검증을 가능하게 하여 콘텐츠가 잘못 표현되거나 오용되지 않도록 보장한다[342][343].
진본성 신호(Signal of Authenticity): 워터마크는 AI로 생성된 자료를 다른 콘텐츠와 구별하는 신호 역할을 한다. 이는 생성된 AI 결과물의 사실성과 관련된 문제를 해결하고 잘못된 정보를 방지하는 데 필수적이다[342].
지식재산 보호: 전통적으로 지식재산 보호에 사용되던 워터마킹 기술을 활용하면 생성 AI의 맥락에서 보안을 강화할 수 있다[346].
생성된 텍스트 내에 고유 식별자, 신호를 삽입하는 등 텍스트 기반의 생성 AI 콘텐츠를 표시하기 위한 워터마킹 기법도 개발되고 있다[350]. 이는 숨겨진 코드, 고유한 문구 또는 눈에 쉽게 띄지 않는 문자 집합일 수도 있고, 글쓰기 스타일에 미묘한 변화를 주는 방법일 수도 있다. 이는 생성된 텍스트 기반 콘텐츠에 고유한 지문 역할을 할 수 있을 것으로 기대된다[351].
04-2 학습 데이터의 변경이력을 확보하고 데이터 변경이 미치는 영향을 관리하였는가?
모델 개발 과정에서 생성 AI 모델의 학습 데이터가 변경되기 때문에 생성 AI 모델을 적절하게 유지관리하고 개선하기 위해서는 학습 데이터의 변경 사항을 추적하고 관리하는 것이 중요하다. 데이터 변경이력을 유지하면 모델의 발전 과정과 성능에 미치는 영향을 이해할 수 있으며, 적시에 재학습하거나 업데이트할 수 있다.
새로운 데이터가 학습 데이터셋에 추가될 때 모델 성능의 변화를 모니터링하면 새 데이터의 영향을 평가할 수 있다. 학습 데이터 변경이력을 효과적으로 관리하기 위해 원인, 구조, 성능 평가 결과, 일반적인 평가 결과의 기록을 관리해야 한다.
04-2a 데이터 흐름 및 계보(lineage)를 추적하기 위한 조치를 마련하였는가?
데이터 변경으로 인한 영향을 관리하는 것은 해당 변경이 모델의 성능에 어떻게 영향을 미칠 수 있는지를 이해하고, 부정적인 영향을 완화하기 위해 조치하는 것을 포함한다. 이는 새 데이터에서 모델을 재학습・파인튜닝하고, 업데이트된 모델을 배포하기 전에 철저하게 테스트하며, 배포한 후에는 성능을 밀접하게 모니터링하는 것을 포함할 수 있다. 또한 업데이트된 모델에 의해 영향을 받을 수 있는 사용자나 이해당사자에게 변경 사항을 알리는 것도 중요하다.
데이터의 흐름과 계보는 데이터 변경의 역방향, 순방향, 종단 간 관점에서 추적할 수 있으며, 추적을 위한 고려 사항은 다음과 같다.
데이터 흐름과 계보 추적을 관리하기 위해 데이터 정책팀을 구성하는 것이 유용한가?
데이터 흐름과 계보 추적을 위해 메타데이터를 기록하고 유지할 것인가?
데이터 흐름 및 계보 추적을 위해 데이터 로딩, 매핑, 관리, 시각화 보고 기능을 구현하는 것이 유용한가?
모델 개발 과정에서, 모델의 특성값을 저장하고 공유하는 특성 저장소 기능을 구현하는 것이 유용한가?
데이터는 원본으로 추적할 수 있는가?
04-2b 데이터 소스의 변경에 대한 모니터링 방안을 확보하였는가?
생성 AI 모델에서는 훈련 데이터의 변경이 모델의 콘텐츠 생성 능력에 미치는 잠재적 영향을 특히 고려해야 한다. 데이터에 대한 모든 변경은 개발된 모델이나 사용자를 손상하지 않고 편향된 출력 생성의 원인이 되지 않도록 주의 깊게 테스트하고 검증해야 한다. 또한 데이터 개인정보보호 및 보안과 관련된 규정이나 기준을 준수해야 할 수도 있다.
모델 개발을 위해 오픈소스 데이터셋을 사용할 때, 데이터셋의 변경이나 업데이트가 자주 발생할 수 있으므로 모델의 성능을 향상하기 위해 주기적인 모니터링을 통해 최신 데이터셋을 반영하는 것이 필요하다.
04-2c 데이터 변경 시, 버전관리를 수행하였는가?
모델의 개발 과정 중 데이터 변경이 발생하는 경우, 예를 들면 훈련 데이터를 업데이트하거나 오류로 인해 라벨링을 다시 수행하면(라벨이 있는 데이터로 모델 개발 과정을 채택한 경우) 모델의 학습 결과도 변하게 된다. 또한 이전에 훈련에 사용된 데이터셋과 완전히 다른 특성을 보이거나 전체 데이터셋이 교체되면 성능이 크게 저하될 수 있다. 이런 경우에는 추가 교육이 필요할 수 있다.
따라서 훈련 데이터에 변경이 일어날 때 사용된 훈련 데이터의 버전뿐만 아니라 그 버전으로 훈련된 생성 AI 모델도 함께 관리되어야 한다. 특히, 새로운 데이터 추가, 사용자 프롬프트, 사용자 피드백으로 인해 훈련 데이터를 변경해야 할 때 훈련이나 테스트에 사용된 새로운 데이터의 비율을 기록하고, 모델의 성능 변화를 추적할 수 있어야 한다.
또한 데이터에 이루어진 어떠한 변경 사항(변경 일자, 변경 사유, 시스템에 미칠 수 있는 영향 등)을 포함하여 문서화하는 것이 중요하다.
04-2d 데이터 변경 시, 이해관계자를 위한 정보를 제공하는가?
데이터 변경 정보를 제공하는 것은 변동 사항을 추적하고 관리하기 위한 명확한 프로세스와 가이드라인을 확립하는 데 중요하며, 생성 AI 모델의 훈련 데이터와 출력 생성 방식에 대한 투명성을 높일 수 있다. 정보 제공은 고객, 규제기관, 내부 팀 등과 같은 이해관계자와의 신뢰를 구축하는 데 도움이 될 수 있다.
여러 이해관계자가 참여하는 생성 AI 모델을 개발하는 과정에서는 이해관계자의 역할을 고려하여 데이터 변경으로 인한 재훈련 및 세부 조정, 주요 하이퍼파라미터 변경, 개발된 모델의 설계와 같은 조치를 이해하기 위한 정보를 제공해야 한다.
데이터 변경 시 이해관계자 및 제공하는 정보 예시
최종 사용자
최종 사용자에게는 그들의 개인정보나 보안에 영향을 줄 수 있는 변경 사항에 대해 알려 줘야 한다.
법무(규제) 팀
데이터 변경으로 인한 잠재적인 법적 영향에 대한 명확한 커뮤니케이션
제3 서비스 제공자
제3자 조직 및 사용자에게는 그들의 작업에 영향을 줄 수 있는 변경 사항에 대해 알려줘야 한다.
경영진
데이터 변경의 효과를 평가하기 위한 평가 지표 및 핵심 성과 지표(KPI)[323]
데이터 과학자, 엔지니어
데이터 변경 프로세스 문서화, 버전관리 포함
개발된 모델을 사용하는 제3자 조직 및 사용자에게 필요한 문서 및 정보* * 정보 수용자가 개발된 모델의 서비스 공급자로서의 역할을 수행하는 경우
개발자/IT 팀
업데이트된 모델을 포함하기 위한 호환성 및 모델 요구사항
모델의 입력 및 출력 형식에 대한 문서화
API, 데이터 파이프라인 또는 인프라에 필요한 조정 관련 지침
04-2e 신규 데이터 확보 시, 인공지능 모델의 성능평가를 재수행하였는가?
새로운 데이터를 확보하거나 획득한 후에는 그것을 생성 AI 모델에서 사용하기 위해 운영 중인 기개발 모델과 성능을 비교해야 한다. 새로운 데이터가 인간의 판단에서 기존 훈련 데이터와 유사하더라도 이미 훈련된 인공지능 모델은 기존 훈련 데이터에서 학습한 데이터 특성과 다를 수 있다.
참고: OpenAI 생성 AI 모델 성능 평가 사례
저자는 OpenAI의 생성 AI 모델의 성능 분석을 검토한다. 저자는 추상적 텍스트 요약에 생성 AI 모델을 사용하는 방법에 대한 가이드를 제시하고 Ada, Babbage, Curie, Davinci 및 Turbo와 같은 다른 모델의 성능을 비교한다. 평가에는 기초 진실과 생성된 요약 사이의 유사성과 의미론적 차이를 측정하는 ROUGE_L, BLEU 및 BERT_F1이라는 지표가 포함된다.
결과는 Turbo 모델이 일관성, 비용 효율성 및 텍스트 유사성에서 다른 모델을 능가한다는 것을 보여준다. 이 기사는 특정 사용 사례, 문제 요구사항, 사용 가능한 리소스를 기반으로 올바른 생성 AI 모델을 선택하는 것의 중요성을 강조하며 마무리된다.
Last updated