05 데이터의 활용을 위한 상세 정보 제공

  • 인공지능 학습용 데이터셋은 개발 과정에서 데이터가 추가로 수집될 수 있으며, 다른 유사 시스템의 학습 데이터로 사용될 수도 있다. 이때, 데이터 수집 출처, 특징 등 수집된 데이터의 정보의 제공이 미흡하다면 재사용성이 떨어지거나 데이터로 인해 야기된 문제에 대한 원인 파악이 어려울 수 있다. 따라서 수집 데이터의 올바른 활용과 문제 발생 시 명확한 원인 추적을 위해 데이터에 대한 상세 정보를 제공한다.


05-1 데이터의 명확한 이해와 활용을 지원하는 상세한 정보를 제공하는가?

  • 데이터를 설명하기 위한 데이터로서 메타데이터(metadata)를 정의할 수 있으며, 메타데이터에 원시 데이터(raw data)의 특징들을 기록하여 향후 데이터를 재활용하는 상황이나 동일한 형식의 추가 데이터 수집이 필요할 때 데이터에 대한 정보를 전달할 수 있다.

  • 개발자뿐만 아니라 인공지능 시스템과 관련된 이해관계자들이 수집 데이터를 이해하고 활용할 수 있도록 메타데이터, 상세 매뉴얼 등의 데이터에 대한 정보가 확보되어야 한다.

  • 이해관계자들에게 전달되어야 할 정보의 예로는 수집 데이터의 출처와 형식, 데이터 수집・정제・가공 방법, 데이터 라이선스, 편향 유발 가능성 있는 보호변수(protective attribute) 등이 있다.

​구글의 people+AI Research에서는 책임감 있고 투명한 데이터셋 정보의 문서화를 위해 데이터 카드의 작성 양식과 이를 작성할 수 있는 툴킷을 제공하고 있다.

05-1a 정제 전과 후의 데이터 특성을 설명하였는가?

  • 데이터 정제작업은 라벨링 작업 전 학습 데이터 구축을 위한 데이터의 선별 및 처리 단계로서, 정제 과정을 거친 데이터만을 사용하는 사용자는 원시 데이터의 특성을 정확하게 파악할 수 없다. 따라서 향후 추가 데이터의 수집 가능성을 고려하여 정제를 위한 관련 정보와 정제 전과 후의 데이터 특성이 설명되어야 한다.

  • 데이터 정제는 기본적으로 오픈소스 도구 등을 활용하여 정해진 규칙에 따라 데이터 일부를 제외 또는 변환하거나, 육안 검수 등의 방법으로 수행할 수 있으며, 정제된 데이터를 시각화하여 데이터 특성을 분석할 수 있다.

  • 만일 원시 데이터를 직접 수집한 경우, 데이터 구축 목적, 데이터 종류, 도메인 특성 등 정제를 위한 기준 및 정제 도구 정보의 제시가 필요하다. 다음은 데이터 종류별 데이터 정제 기준의 예시이다.

    • 이미지 데이터: 이미지 크기, 비율, 화질, 촬영 장비, 개인정보처리, 저작권 등

    • 텍스트 데이터: 텍스트 분량, 텍스트 문법 정확성, 텍스트 내용 적절성, 주제와의 연관성 등

    • 음성 데이터: 음량, 발음 정확성, 소음 및 잡음, 안들림(허용범위 기준), 개인정보, 저작권 등

05-1b 학습 데이터와 메타데이터(metadata)를 구분하고 각 명세자료를 확보하였는가?

  • 인공지능 학습 데이터셋을 활용하기 위해서는 데이터셋에 대한 정보를 파악해야 하는데, 이러한 정보를 메타데이터라고 한다. 메타데이터는 JSON, XML 등의 형식으로 제공할 수 있으며, 데이터셋 종류에 따라 다음과 같은 정보가 포함될 수 있다.

    • 이미지 메타데이터: 촬영일시, 촬영위치, 노출도 등

    • 텍스트 메타데이터: 제목, 텍스트 길이, 생성일 등

    • 음성 메타데이터: 녹음일시, 길이, 녹음자, 화자, 화자 수 등

  • 위와 같이 메타데이터와 학습 데이터는 구분되어야 하며, 각각에 대한 명세자료를 작성하여 개발자 관점에서 인공지능 모델 학습 등에 활용이 용이하도록 해야 한다.

참고: 음성 데이터의 학습 데이터와 메타데이터 명세서

  • 음성 데이터의 학습 데이터 명세서 예시

05-1c 보호변수(protective attribute)의 선정 이유 및 반영 여부를 설명하였는가?

  • 대규모의 데이터셋을 이용하는 인공지능 모델의 학습 과정에는 데이터셋 자체의 편향이나 잠재된 편향 등 다양한 편향을 함께 학습할 수 있다. 이런 경우 인공지능 모델의 성능 저하뿐만 아니라, 성차별이나 인종 차별 등의 윤리적 문제로 인해 인공지능 시스템의 서비스화가 어려울 수 있다.

  • 데이터 편향은 데이터 내 변수들을 분석하여 편향된 결과를 유발하는 데 많은 영향을 끼치는 특정 변수를 찾아내고, 이러한 변수들을 보호변수로 지정한 뒤 모델 학습에 반영되지 않게 하여 완화할 수 있다.

  • 따라서, 수집・구축된 데이터의 향후 사용자를 고려하여 개발하는 인공지능 시스템의 목적과 데이터셋의 보호변수 선정 이유, 과정 및 반영 여부에 대한 설명이 제공되어야 한다.

  • 데이터 라벨링 작업은 인공지능 모델을 학습하기 위한 원시 데이터의 주석(정답) 작업에 해당하며, 다수의 작업자를 통해 수행된다. 라벨링 작업은 데이터셋의 품질 확보뿐만 아니라 모델 성능에 직접적인 영향을 줄 수 있어 작업자의 교육 및 상세한 작업 가이드 문서를 마련하는 것이 중요하다.

  • 라벨링 작업은 데이터 종류에 따라 작업 대상, 범위, 상세 절차 및 라벨링 도구 등이 달라질 수 있다. 일반적인 라벨링 작업 절차는 아래와 같으며, 작업 절차에 따라 작업자를 대상으로 한 교육과 가이드 문서가 확보되어야 한다.

    • 데이터 획득 및 정제: 원시 데이터 획득 및 데이터 정제작업을 진행한다.

    • 라벨링 작업 대상 및 범위 정리: 원시 데이터 내의 어떤 항목들을 라벨링 하는지 대상 및 범위를 정의한다. 특히, 데이터 종류에 따라 세부적인 기준을 마련해야 한다(데이터 일부 라벨링, 개인정보 비식별화, 클래스 정의 및 관리 등).

    • 라벨링 방법 및 절차 수립: 라벨링 할 정보에 따라 자동・반자동・수동 등의 작업 방식을 결정하고, 작업의 배분 및 데이터별 라벨링 기준 등 상세한 작업 기준을 마련한다.

    • 라벨링 작업 진행: 상세 작업 기준으로 작업자 교육 후, 데이터 라벨링 작업을 실시한다(앞서 결정한 작업 방식에 따라, 자동・반자동일 경우, 적절한 라벨링 도구 선정 및 교육 진행).

05-1d 라벨링 작업자를 위해 교육을 시행하고 작업 가이드 문서를 마련하였는가?

  • 데이터 라벨링 작업은 인공지능 모델을 학습하기 위한 원시 데이터의 주석(정답) 작업에 해당하며, 다수의 작업자를 통해 수행된다. 라벨링 작업은 데이터셋의 품질 확보뿐만 아니라 모델 성능에 직접적인 영향을 줄 수 있어 작업자의 교육 및 상세한 작업 가이드 문서를 마련하는 것이 중요하다.

  • 라벨링 작업은 데이터 종류에 따라 작업 대상, 범위, 상세 절차 및 라벨링 도구 등이 달라질 수 있다. 일반적인 라벨링 작업 절차는 아래와 같으며, 작업 절차에 따라 작업자를 대상으로 한 교육과 가이드 문서가 확보되어야 한다.

    • 데이터 획득 및 정제: 원시 데이터 획득 및 데이터 정제작업을 진행한다. 라벨링 작업 대상 및 범위 정리: 원시 데이터 내의 어떤 항목들을 라벨링 하는지 대상 및 범위를 정의 한다. 특히, 데이터 종류에 따라 세부적인 기준을 마련해야 한다(데이터 일부 라벨링, 개인정보 비식 별화, 클래스 정의 및 관리 등).

    • 라벨링 방법 및 절차 수립: 라벨링 할 정보에 따라 자동・반자동・수동 등의 작업 방식을 결정하고, 작업의 배분 및 데이터별 라벨링 기준 등 상세한 작업 기준을 마련한다.

    • 라벨링 작업 진행: 상세 작업 기준으로 작업자 교육 후, 데이터 라벨링 작업을 실시한다(앞서 결정한 작업 방식에 따라, 자동・반자동일 경우, 적절한 라벨링 도구 선정 및 교육 진행)


05-2 데이터의 출처는 기록 및 관리되고 있는가?

  • 학습 데이터의 품질은 인공지능 모델 성능에 큰 영향을 미치는 중요한 요인 중 하나이므로 데이터를 수집하거나 생성하는 과정에서 품질 확보를 위해 노력해야 하며, 경우에 따라서는 오픈소스 데이터셋을 활용할 수도 있다.

    • 특히, 생성 AI 모델은 오픈소스 데이터셋, 웹 크롤링 등을 통해 대량의 데이터를 학습에 활용한다. 이때, 학습 데이터의 품질이나 내용이 신뢰할 수 없을 경우, 편향 또는 환각(hallucination)의 결과로 이어질 수 있어 신뢰할 수 있는 출처로부터 제공되는 데이터셋을 사용하는 등 출처 관리가 필요하다.

  • 오픈소스 데이터셋의 경우 다수의 사용자가 데이터 활용 과정에서 발견한 오류가 추후 발견될 수 있으며, 이로 인한 데이터셋 수정, 재구축으로 데이터 버전이 변경될 수 있다.

  • 이러한 데이터셋 자체 원인으로 발생할 수 있는 인공지능 모델의 문제 대응을 위해서는 학습에 사용한 데이터의 명확한 출처, 구축 시점, 오픈소스 데이터셋 버전 등의 정보를 관리해야 한다.

05-2a 신뢰할 수 있는 출처로부터 제공되는 데이터셋을 사용하였는가?

  • 학습 데이터를 직접 생산한다면, 데이터 획득 시 수집 출처(예: 크라우드워커, 아웃소싱 기관)의 객관성 확보가 필요하다. 또한, 수집 대상이 되는 데이터의 출처를 살펴 향후 소유권이나 사용권 이슈가 발생할 수 있는지 선제적으로 확인해야 한다.

  • 오픈소스 데이터셋을 사용하는 경우에는 해당 데이터셋의 품질이 신뢰할만한 수준인지 고려할 필요가 있다. 고려사항으로는 데이터가 법적으로 문제는 없는지, 데이터셋 규모가 학습하기에 충분한지, 데이터셋에 대한 논의나 업데이트가 활발하게 이루어지는지 등을 고려해야 한다.

  • WEF는 데이터 품질 보장을 위해 데이터셋을 학습시키기 전에 신뢰할 수 있는 데이터인지 미리 확인할 것을 권고한다.

참고: 지도학습을 위한 데이터 품질 관리 요구사항 – 출처의 신뢰성 확보

TTA 정보통신단체표준 TTAK.KO-10.1339:2021 - 지도학습을 위한 데이터 품질 관리 요구사항에서는 지도학습 계열의 인공지능 기술에 활용되는 데이터 획득 시 출처의 신뢰성 확보 측면에서 고려해야 할 내용을 정리하였다.

  • 데이터 획득 시 직접 생산 혹은 제3자에 의해 생산된 데이터의 중계의 2가지 방법으로 데이터를 획득할 수 있는데, 제3자에 의해 생산된 데이터를 중계하여 획득하는 경우, 데이터의 출처에 대하여 신뢰성을 확보하여야 하며, 다음과 같은 요소를 고려할 수 있다.

    • 제3자가 데이터 획득 시 개인정보보호, 지식재산권, 사전 승인/허가 등과 관련하여 정식으로 절차를 밟고 문제없이 획득하였는지 여부

    • 제공하는 데이터셋의 규모가 충분히 커, 데이터 사용자가 원하는 학습용 데이터를 제공하는 데에 문제가 없는지 여부 예) 규모가 충분히 크지 않은 경우, 데이터 획득을 재차 시도하고자 할 때 수급에 문제가 있을 수도 있음

    • 해당 데이터가 지속적인 업데이트 및 추가 제공 등이 이루어지고 있는지 여부

    • 데이터와 함께 설계서의 내용이 명확히 제공되는지 여부

    • 해당 데이터의 활용건수 및 인용건수가 많아 범용성이 높은지 여부

  • 반면, 데이터를 직접 생산(이미지/동영상 촬영, 발화 녹음, 텍스트 작성 등)하는 경우, 위의 내용 중 첫 번째 사항을 고려하여야 한다.

05-2b 오픈소스 데이터셋을 활용하는 경우, 출처를 명시하였는가?

  • 인공지능 모델 학습에 오픈소스 데이터셋을 사용한 경우, 학습 시점에는 발견되지 않았던 오류나 편향된 결과가 나올 수 있다. 또한, 편향된 결과는 사회 인식 변화에 따른 윤리적 문제와도 결부될 수 있어 오픈소스 데이터셋 구축 당시 인식하지 못한 데이터 편향의 발생 가능성이 있다.

  • 따라서 오픈소스 데이터셋을 활용하여 학습기반 인공지능 모델을 구축할 경우, 과거・현재・미래 시점에 발생할 수 있는 데이터 편향의 원인 파악을 위해 확보된 데이터의 명확한 출처 및 관련 정보를 명시하여 관리해야 한다.

개선 의견 보내기

Last updated