05 데이터의 활용을 위한 상세 정보 제공

  • 생성 AI 모델을 위한 데이터를 구축할 때 인터넷 문서, 서적, 위키피디아와 같은 다양한 소스의 데이터를 결합하여 활용할 수 있다. 활용하는 데이터셋은 각 이해관계자의 작업 등을 위해 데이터 수집 기준, 정제 기준, 학습 데이터 선별 시나리오 등 충분한 정보를 제공・기록・관리함으로써 데이터 추가 구축 또는 문제 발생 시 원인을 추적할 수 있는 기반을 제공한다.

  • 생성 AI 모델의 학습 및 테스트 단계에서 활용되는 데이터는 관련 작업의 성능을 평가하는 데 중추적인 역할을 한다. 그러나 데이터에는 민감하고 편향된 정보가 포함된 경우가 많으므로 주의가 필요하다.


05-1 데이터의 명확한 이해와 활용을 지원하는 상세한 정보를 제공하는가?

  • 데이터의 재활용, 사용자 피드백 반영, 동일한 형식의 추가 수집이 필요한 경우, 원시 데이터를 명확하게 설명하기 위한 메타데이터를 제공하는 것이 필요하다. 메타데이터는 데이터와 데이터의 출처를 특성화하여 모델 개발 및 평가 전반에 걸쳐 적절한 이해와 활용을 보장하는 중요한 도구 역할을 한다. 메타데이터에는 인종, 성별, 데이터 생성 또는 획득 시간, 데이터 소스, 결과에 영향을 미칠 수 있는 사용 언어, 상호작용 유형, 번역 및 기타 관련 세부 정보를 포함한 중요한 특성이 포함될 수 있다.

  • 또한, 사용자 피드백을 통해 얻은 학습 데이터와 테스트 데이터 또는 재학습 데이터의 상세 정보, 획득한 데이터의 일반적인 상황 및 환경 요인, 시스템을 사용하거나 영향을 받는 개인의 일반 정보, 메타데이터, 라벨링 운영 가이드 등을 확보하여 개발자뿐만 아니라 이해관계자가 수집된 데이터를 이해하고 편향이나 오류 가능성을 예방할 수 있도록 한다.

05-1a 정제 전과 후의 데이터 특성을 설명하였는가?

  • 데이터의 정제 작업은 라벨링 작업 전에 학습 데이터를 구축하는 데이터의 선별・처리 단계이다. 만약, 사용자가 정제 과정을 거친 데이터만을 사용할 때는 원시 데이터의 특징을 정확하게 파악할 수 없다. 따라서 향후에 추가 데이터를 수집할 가능성을 고려하여 정제하는 관련 정보와 데이터 정제 전·후의 특성을 설명해야 한다.

  • 특히 민감한 데이터의 경우 시스템이 편향되기 쉬운 경향이 있다. 따라서 데이터 품질 확보, 데이터 관리 최적화, 데이터 구축 목적 수립, 데이터 유형 분석, 정제 기준 정보 및 정제 도구 정보 등을 제시한다. 각 데이터의 설명 가능한 특성은 다음과 같다.

    • 텍스트 데이터: 텍스트 분석 과정의 정확성, 단어 의미, 어휘 사용, 텍스트 길이, 텍스트의 문법적 정확성, 텍스트 내용의 적절성, 주제와의 연관성 등

    • 데이터 출처: 레드팀[91] 접근 방식 적용

    • 이미지 데이터: 이미지 크기, 해상도, 비율, 화질, 촬영 장비, 개인정보, 저작권, 위치 정보 등*

    • 비디오 데이터: 화질, 비디오 손실, 개인정보, 정치적 의견, 특정 인물 비하, 환경 조건 등* * 개인정보 보호법 제25조, 제58조에 따르면 CCTV(제25조 상세 설명), 이동형 영상정보처리기기(드론, 자율주행차 카메라 등 제25조의2 상세 설명)와 같은 영상정보처리기기(개인의 영상 또는 사물의 영상을 촬영하거나 네트워크를 통해 영상 또는 이미지를 전송하기 위해 일정한 장소에 지속적으로 설치되는 기기)를 사용할 경우 제한사항을 숙지해야 하며, 영상정보처리기기 관련 정보를 반드시 기재할 필요가 있다.

05-1b 학습 데이터와 메타데이터(metadata)를 구분하였으며, 각각의 명세자료를 확보하였는가?

  • 생성 AI를 위한 인공지능 모델의 학습 데이터는 이미지, 음성, 텍스트, 비디오 등 다양한 형식이 주를 이루고 있으며, 메타데이터는 JSON(JavaScript Object Notation), XML(eXtensible Markup Language) 등의 형식으로 작성된다. 생성 AI 모델에서 메타데이터는 개인 식별 정보 탐지를 가능하게 해준다.

참고: 효율적인 데이터 관리에 대한 연구

Grab Technology 팀은 거버넌스 관련 메타데이터 생성 자동화를 위해 데이터 거버넌스 팀과 협력하여 방대한 양의 데이터 엔티티(entity)에 대한 데이터 분류 시스템(Gemini)을 구현하였다. Gemini는 데이터 플랫폼과 통신하고, 데이터를 분류 및 그룹화하는 서비스이다.

05-1c 보호변수(protective attribute)의 선정 이유 및 반영 여부를 설명하였는가?

  • 사용자・개인의 이름, 인종, 성별, 나이, 직업, 여권 정보, 소셜 미디어 계정 정보 등과 같은 특성은 일반적인 분야에서 사회적 문제를 야기할 수 있고 개발된 생성 AI 모델이 대화형 AI 애플리케이션에서 사용되면 추가 사용을 위한 프록시가 될 수 있기 때문에 더욱 중요하게 다루어야 한다.

  • 수집・구축된 데이터의 장래 이용자를 고려하여 개발하고자 하는 인공지능 시스템의 목적과 데이터셋의 보호 변수 반영 이유, 과정, 반영 내용 등을 설명한다. 생성 AI 모델은 영업비밀, 개인정보, 기밀정보 등 민감한 정보에 대해 학습될 수 있다. 생성 AI 애플리케이션의 액세스 및 입력에 대한 강력한 제한을 설정하면 생성 AI의 기능을 활용하면서 민감한 정보를 보호할 수 있다.

  • 공정성을 보장하고 편견을 피하며 개인을 차별이나 해로움으로부터 보호하기 위해 데이터셋을 작업할 때 고려해야 하는 몇 가지 방법 중 보호 변수를 강조한다. 이러한 변수를 책임감 있고 윤리적으로 처리하여 생성 AI 모델을 사용할 때 공평한 결과를 도출하는 것이 중요하다.

참고: 민감 정보에 관한 이슈 사례 및 고찰

  • 2023년 3월 29일, 미국에서 한 법학 교수가 유명 GPT 기반 인공지능 챗봇으로 수업 중 한 학생을 성희롱하여 '성희롱한 법학자의 명단'에 올랐다. 심지어 이 챗봇은 2018년 3월 《워싱턴 포스트》 지의 기사를 인용하기도 했다. 추가 조사 결과, 챗봇이 환각을 일으켜 인용문을 조작한 것으로 밝혀졌다.

    • 출처: 워싱턴 포스트, 챗봇이 성희롱 스캔들을 일으켜 실제 법대 교수를 피고인으로 지목, 2023-04.

  • 2022년 11월 18일, 과학을 위해 특별히 설계되고 4,800만 개의 과학 논문으로 학습된 인공지능 비서인 대규모 언어 모델이 인종 차별적이고 부정확한 과학 문헌 콘텐츠를 생성하기 시작했다는 이유로 3일 만에 다운되었다.

    • 출처: MIT Technology Review, Meta의 최신 대규모 언어 모델이 온라인에서 단 3일만 살아남은 이유, 2022-11.

  • 2022년 11월 18일, 오픈소스 생성 AI 모델 기반 AI 챗봇 중 하나가 사용자 중 한 명에게 자살을 권유했다. 벨기에의 한 아버지는 이 챗봇과 몇 주 동안 대화를 나눈 후 지구의 건강을 개선하기 위해 자살했다.

    • 출처: 브뤼셀 타임즈, 벨기에 남성이 챗봇과 대화를 나눈 후 자살로 사망, 2023-03.

05-1d 라벨링 작업자를 위해 교육을 시행하고 작업 가이드 문서를 마련하였는가?

  • 생성 AI 기반 서비스 사용의 맥락에서 데이터 라벨링은 학습 또는 파인튜닝에 사용되는 데이터에 주석을 달거나 태그를 지정하는 프로세스를 포괄한다. 생성 AI 기반 서비스는 명시적인 레이블 없이도 콘텐츠를 생성할 수 있지만 데이터 라벨링은 개발 및 배포의 여러 측면에서 여전히 중요하다.

  • 데이터 라벨링은 학습 데이터 분류, 증강 데이터셋 생성, 강화 학습 기반 파인튜닝을 위한 보상 함수 정의, 생성된 콘텐츠 조정, 편향성이나 공정성 문제의 식별 및 완화 등의 작업에 사용된다. 이 라벨링 프로세스는 모델을 안내하고, 성능을 평가하며, 윤리 및 품질의 고려 사항을 해결하는 데 도움이 되므로 효과적이고 책임감 있는 생성 AI 시스템을 보장하는 데 필요하다. 따라서 라벨링된 데이터로 모델을 학습시키기로 결정했다면 본 항목을 반영한다.

  • 데이터 라벨링 작업은 인공지능 모델 학습을 위한 정제 데이터의 주석 또는 답변 작업에 해당한다. 인식 작업의 평가는 개인의 안전에 영향을 미칠 수 있으므로 작업에 주의가 필요하다. 프로젝트에 따라 전문가 분야가 달라질 수 있으므로 전문가의 참여를 권고한다. 다수의 전문가를 선정하고 합의하는 과정을 통해 데이터셋(라벨링 작업)의 품질을 확보할 수 있다. 그런데 이때 작업의 품질을 확보하기 위해서는 작업자를 교육해야 하고 세부 작업 가이드 문서도 필요하다.


05-2 데이터의 출처는 기록 및 관리되고 있는가?

  • 학습용 데이터의 품질은 인공지능 모델의 편향, 윤리적 이슈 등의 측면에서 성능에 큰 영향을 미치는 중요한 요인 중 하나이므로, 데이터를 수집하거나 구축하는 과정에서 품질을 확보하도록 노력해야 한다. 경우에 따라서는 원시 데이터를 구매하거나 오픈소스 데이터셋을 활용할 수 있다.

  • 오픈소스 데이터셋을 활용할 때, 다수의 사용자가 데이터 활용 과정에서 발견한 오류가 추후에도 발견될 수 있으며, 이로 인한 데이터셋 수정이나 재구축으로 데이터 버전이 변경될 수 있다. 데이터가 변경되면 인공지능 모델의 동작에도 영향을 줄 수 있으므로 이러한 문제에 대응하기 위해서는 학습에 활용한 오픈소스 데이터셋의 명확한 출처, 구축 시점, 오픈소스 데이터셋의 버전 등과 같은 정보를 기록하고 관리해야 한다.

05-2a 신뢰할 수 있는 출처로부터 제공되는 데이터셋을 사용하였는가?

  • 생성 AI 모델은 효과적인 학습을 위해 관련성이 높은 대규모 데이터셋에 크게 의존한다. 고품질 데이터셋은 더 나은 모델 성능과 출력에 기여하고, 신뢰할 수 있는 출처의 소스는 잘 선별된 데이터 및 정보를 제공하여 편향되거나 오해의 소지가 발생할 수 있는 결과의 위험을 낮춘다.

  • 신뢰할 수 없는 데이터셋을 이용하여 생성 AI 모델을 학습시키는 경우, 편향・환각・오류의 결과로 나타날 수 있다. 심지어 개인이나 인권 단체로부터 소송을 당할 가능성도 있다. 오픈소스 데이터셋을 구축할 때는 인지하지 못했던 데이터 편향의 가능성이 존재할 수 있기 때문이다.

  • 환각(Hallucination)이란 부정확한 정보를 사실처럼 전달하는 현상을 의미한다. 이런 환각 현상은 사용자에게 혼란을 줄 수 있으므로 생성 AI 모델을 학습시킬 때는 신뢰할 수 있는 소스를 사용해야 한다.

  • 생성 AI 모델의 개발을 위한 데이터는 크라우드소싱, 웹 크롤링, 합성 데이터 생성, 공개 데이터셋 활용, 사용자 생성 콘텐츠, 데이터 증강, 고객 데이터 등 다양한 방법으로 제공되는 데이터를 사용할 수 있다[98]. 각 방법에는 고유한 장점과 고려 사항이 있으며, 방법 선택은 프로젝트의 특정 요구사항과 제약 조건에 따라 달라진다. 산업별 데이터셋은 생성 AI 모델이 도메인별 패턴, 용어 및 콘텍스트를 이해하는 데 도움을 주어 좀 더 정확하고 관련성 높은 콘텐츠를 생성하는 데 도움이 될 수 있다.

참고: 환각으로 인한 브랜드 가치 훼손 사례 [100]

  • 뉴욕타임즈(NYT)는 브랜드 가치 훼손을 명목으로 OpenAI와 마이크로소프트를 상대로 소송을 제기.

  • 피고들의 모델이 타임스 콘텐츠를 동의나 보상 없이 복사, 재현, 의역하는 동시에, 실제로 발행하지 않은 콘텐츠를 타임스에 부당하게 책임 지워서, 타임스에 상업적 및 경쟁적 손해를 입히고 있음

  • AI 용어로 이것은 ‘환각’이라고 불리며 다른 말로 표현하면 허위정보임.

  • 오렌지 주스가 비호지킨 림프종과 관련이 있다고 보도했다는 내용의 정보성 기사를 요청하는 프롬프트에 대한 응답으로, GPT 모델은 ‘뉴욕타임스가 2020년 1월 10일에 ‘오렌지 주스와 비호지킨 림프종 간의 가능한 연관성을 발견한 연구’라는 제목의 기사를 발표했다’고 허위 정보를 만들었음.

  • 이런 허위정보는 사용자들이 얻고 있는 정보의 출처에 대해 오해를 일으키고, 제공된 정보가 뉴욕타임스에 의해 검증되고 발행됐다고 오도함.

  • 어떤 주제에 대해 타임스가 작성한 내용을 묻는 검색 엔진 사용자에게 타임스 기사의 무단 복사본이나 부정확한 위조본이 아닌, 기사 자체로의 링크를 제공해야 함.

05-2b 오픈소스 데이터셋을 활용하는 경우, 출처를 명시하였는가?

  • 일반적으로 생성 AI 모델 학습 과정에는 빅데이터와 방대한 파라미터 크기가 필요하기 때문에 개발자들은 대부분 오픈소스 데이터셋을 사용하며, 극단적인 경우에는 서로 다른 오픈소스 데이터를 융합해서 쓰기도 하여 오픈소스 데이터셋의 사용이 불가피한 상황이 되고 있다.

  • 오픈소스 데이터셋을 활용하여 생성 AI 모델을 개발할 경우, 과거・현재・미래에 발생할 수 있는 데이터 편향의 원인을 파악하기 위해 획득한 데이터의 명확한 출처, 해당 데이터의 버전 정보 및 관련 정보를 명시하고 관리할 필요가 있다.

    • 위키피디아, 깃허브, 북코퍼스 등 데이터셋의 출처에 대한 자세한 정보를 제공하는 문서 또는 추가 섹션을 준비하는 것을 권장한다.

    • 데이터셋의 사용 날짜와 버전에 대한 언급도 필요하다. 예를 들어, 구글의 LaMDA에는 사용한 데이터 소스에 대한 문서가 있으며, OpenAI에는 생성된 콘텐츠의 경로와 출처를 보여주는 탐색 옵션이 있다.

참고: 출처를 명시하지 않은 생성 AI 서비스의 금지 사례 [102]

  • 데이터 유출 사건과 생성 AI의 "알고리즘 '훈련'을 위한 개인 데이터의 대량 수집 및 저장"에 대한 법적 의무가 없기 때문에, 이탈리아는 EU의 획기적인 개인정보 보호법인 「일반개인정보 보호법(GDPR)」의 관련 의무를 제공할 때까지 생성 AI 기반 챗봇의 사용을 금지했다.

  • 이 AI 챗봇은 사용자의 연령을 확인하지 않아 미성년자가 자의식에 비해 부적절하고 부적합한 답변에 노출되게 했고, 데이터 유출 사건(이 사건에서 회사는 데이터 유출 문제에 직면하여 사용자의 대화 및 결제 정보를 노출시켰다)에 직면했다.

참고: (연구 예시) 안정적 확산 모델을 위한 지식재산권 침해 조사 [43]

  • 생성 AI 모델의 일종인 확산 모델에서 데이터의 복제 문제를 탐구함

    • 확산 모델이 고유한 예술 작품을 생성하는지 또는 학습 데이터셋에서 직접 콘텐츠를 훔치는지 여부를 조사함

    • 저자는 이미지 검색 프레임워크를 사용하여 생성된 이미지를 학습 샘플과 비교하고 콘텐츠가 복제된 시점을 감지함

    • 옥스포드 플라워, 셀럽-A, 이미지넷, LAION 등 여러 데이터셋에서 학습된 확산 모델에 프레임워크를 적용하고, 학습 데이터셋의 크기와 같은 요소가 콘텐츠 복제율에 어떤 영향을 미치는지 논의함

      • <출처: 유포 예술인가, 디지털 위조인가? 유포 모델에서의 데이터 복제 조사[43]>

    • 널리 사용되는 안정적 확산 모델을 포함한 확산 모델이 훈련 데이터에서 노골적으로 복제하는 사례도 확인됨

    • 확산 모델이 훈련 세트의 데이터를 직접 복제하거나 여러 훈련 이미지의 콜라주를 제시할 수 있는 위험성을 강조하며 이를 콘텐츠 복제라고 명명함

해당 논문은 확산 모델이 개인정보보호, 데이터 소유권 및 저작권법을 위반할 가능성을 확인하고, 이에 대한 우려를 제기하였으며, 확산 모델의 위험과 이점을 이해하고 생성 AI 모델의 신뢰성을 보장하는 방법을 개발하기 위한 연구가 필요하다고 제안함

개선 의견 보내기

Last updated