12 인공지능 시스템 구현 시 발생 가능한 편향 제거

  • 프롬프트 필터링과 같은 강력한 메커니즘을 통해 편향성을 방지하려는 노력에도 불구하고 개발된 생성 AI 모델은 여전히 편향성에 취약할 수 있다. 사용자가 간접적인 질문・요청을 통해 편향된 결과물을 생성할 수 있기 때문에 여전히 모델에 편향성이 발생할 수 있다(인종차별 사례[213] 참조).

  • 편견은 인종, 성별, 사회경제적 조건, 자동화 편향과 같은 개인별 배경이나 요인으로 인해 발생할 수 있다. 모델 학습 중에 의도하지 않게 억제된 그룹 데이터를 사용하는 경우에도 편향이 발생할 수 있다. 따라서 공정하고 편향되지 않은 결과를 얻으려면 이러한 편향을 식별하고 해결하는 것이 필수적이다.


12-1 소스 코드 및 사용자 인터페이스로 인한 편향을 제거하기 위해 노력하였는가?

  • 개발된 생성 AI 기반 모델의 한계에 따라 모델 개발 과정의 세 가지 고유한 범주(사전, 중, 사후)에서 편향이 발생한다. 편향성을 방지하기 위해 개발된 모델의 구현 단계에서 주기적으로 코드를 검토하여 개발자의 제한된 배경지식, 편향된 데이터셋 사용 또는 편향성이 코드에 반영되었는지를 확인해야 한다.

  • 개발된 모델의 파인튜닝 또는 편향성‧환각의 완화를 위해 사용자 테스트와 피드백을 포함할 경우, 사용자 인터페이스 보고서나 사용자의 피드백 입력을 통해 편향성이 발생할 수 있다는 점을 고려해야 한다.

참고: 텍스트-이미지 변환 모델 편향 사례

  • AI가 인터넷에서 데이터를 수집하여 편향된 데이터셋으로 학습하면 인간의 편견을 물려받을 수 있다는 것은 잘 알려져 있다.

  • 최근 인공지능 회사 OpenAI의 텍스트-이미지 변환 도구인 DALL-E 2에서도 수집된 데이터의 출처로 인해 AI 모델이 인간의 편견을 물려받았고, 편향된 데이터로 인해 편향된 콘텐츠가 생성되어 인종 및 성별 편견이 발생했다.

  • 연구원들은 AI 모델의 편향을 예방하기 위해, 백그라운드에서 사용자 프롬프트에 '흑인', '여성'과 같은 키워드가 추가되고 있음을 발견했다. 이는 AI 모델의 인종과 성별에 대한 편향을 예방하기 위해 적용한 방법이었는데, 이것이 편향성을 해결한 것이 아니라 오히려 편향성 관련 문제를 야기했다.

<출처: https://www.newscientist.com/article/2329690-ai-art-tool-dall-e-2-adds-black-or-female-to-some-image-prompts/>

12-1a 데이터 접근 방식 구현 과정 등 소스 코드에서의 편향 발생 가능성을 확인하였는가?

  • 편향성은 편향된 데이터, 편향된 알고리즘, 편향된 설계 선택 등 다양한 방식으로 나타날 수 있다. 또한 생성 AI 모델의 특성과 이러한 모델의 학습에 사용되는 데이터셋의 다양성으로 인해 다양한 형태의 편향성(인지, 알고리즘, 평가, 자동화 등)이 발생할 수 있다.

  • 또한 프로그래밍 과정에서 개발자의 의식적/무의식적 편향(예측/비예측)으로 인해 편향의 문제가 발생할 수 있으며, 모델에 사용될 데이터에 접근하는 방법, 알고리즘 규칙, 사용할 변수 등을 구현하는 과정에서 개발자로부터 편향이 발생할 수 있다.

  • 이러한 접근 방식 외에도 이를 위해 개발된 가이드라인, 도구 및 기타 솔루션이 있다. 개발자가 프로그래밍 과정에서 편견을 갖지 않도록 장려하는 지침은 조직 문화에 도움이 될 수 있다. 마이크로소프트는 책임감 있는 대화형 AI 개발을 위한 안전 지침을 발표했다. 다음은 개발자가 가상 도우미 봇 또는 가상 비서를 사용하여 생성 AI 모델을 설계할 때, 특히 개발된 모델의 가능한 결과물에 대한 윤리적 고려를 위해 관련 질문을 할 때 따라야 하는 사항이다.

참고: 마이크로소프트의 개발자 안전 가이드라인을 사용하여 가상 챗봇 구축[271]

  • 대화형 생성 AI 모델과 피드백 메커니즘 또는 봇을 설계하고 개발하여 잠재적 사용자와 개인에게 생성 AI 모델에 대해 안내하는 개발자는 개발 프로세스 전반에 걸쳐 전문가와 지속적으로 협의해야 하는 어려움에 직면할 수 있다. 그러나 이러한 어려움에도 불구하고 개발자는 윤리, 개인정보보호, 보안, 안전, 포용성, 투명성, 책임성과 같은 원칙을 준수해야 할 중대한 윤리적・법적 책임이 있다. 봇과 생성 AI 모델의 책임감 있고 신뢰할 수 있는 운영을 보장하기 위해 이러한 원칙을 성실히 준수해야 한다.

  • 마이크로소프트는 대화형 생성 AI 또는 스마트 봇을 설계할 때 개발자를 돕기 위한 지침을 준비했다.

    • 봇의 목적을 명확히 하고 봇이 결과적인 사용 사례를 지원하는지를 특별히 주의해야 한다.

    • 제품 또는 서비스의 일부로 봇을 사용한다는 사실을 투명하게 공개해야 한다.

    • 인간과 봇의 교환이 봇의 역량을 넘어서는 상호작용으로 이어질 경우에는 인간에게 원활하게 업무를 넘길 수 있도록 보장한다.

    • 관련 문화적 규범을 존중하고 오용을 방지할 수 있도록 모델을 설계한다.

    • 모델이 사람들을 공정하게 대우하는지를 확인한다.

    • 모델이 사용자 개인정보를 존중하는지를 확인한다.

    • 모델이 데이터를 안전하게 처리하는지를 확인한다.

    • 모델에 접근이 가능한지를 확인한다.

12-1b 사용자 인터페이스 및 상호작용 방식으로 인한 편향을 확인하였는가?

  • NIST[165]에 따르면, 생성 AI 모델의 사용자 인터페이스와 상호작용 방식은 모델의 정확성과 신뢰성에도 영향을 미치는 편견을 유발할 수 있다. 개발된 생성 AI 모델의 사용자 인터페이스와 상호작용 방식에서 편향을 식별하는 것은 여러 가지 이유로 중요하다.

  • 개발된 생성 AI 모델의 사용자 인터페이스 및 상호작용 방법으로 인한 편견을 식별하려면 사용자 조사, 테스트 및 분석은 물론이고 이러한 시스템에 도입될 수 있는 편견의 유형에 대한 이해가 필요하다. 이러한 단계를 수행함으로써 개발자는 모든 사용자가 포용하고 액세스할 수 있는 생성 AI 모델을 만들 수 있다.

  • 이 외에도 생산 및 운영 비용 때문에 일부 유명 조직에서는 사용자 프롬프트와 피드백에 필터링 메커니즘을 적용하여 프롬프트 수준에 대한 예방 조치를 하고 있다. 예를 들어 OpenAI는 인터페이스에서 발생할 수 있는 차별을 방지하기 위해 적극적으로 노력해 왔다. OpenAI는 인공지능 시스템의 편견을 식별하고 완화할 수 있는 기술을 개발하여 인공지능의 편견과 차별 문제를 해결하기 위해 노력하고 있다. OpenAI의 도구는 개발자가 좀 더 공평한 AI 시스템을 만들 수 있도록 지원할 뿐만 아니라 AI 시스템이 특정 집단의 사람을 차별하는 데 사용되지 않도록 하기 위한 것이다[273]. 또한 OpenAI는 실제 얼굴이 포함된 이미지 업로드와 사기성 콘텐츠 제작 시도를 거부하는 등 편견을 줄이고 안전성을 개선하기 위한 새로운 기술을 DALL-E 2 모델에 구현하고 있다[274].

참고: 사용 사례 - 잘 알려진 대화형 생성 AI 모델 차별 방지 사례

몇 가지 대화형 생성 AI 봇을 테스트하기 위해 인종 및 성별과 관련된 편향된 결과물을 표시하도록 했다. 실험 결과, 사용자 프롬프트에 대한 간단한 필터링 메커니즘만으로도 인터페이스에서 차별 예방 조치를 취하는 것을 확인할 수 있었으며, 개발된 모델이 기본적인 차별 문제를 성공적으로 처리할 수 있음을 보여주었다.

  • OpenAI

참고: 사용자에게 알리기 위한 생성 AI 모델 인터페이스의 예시

개발자 또는 시스템 설계자는 그래픽 도구를 사용하여 생성 결정, 생성된 콘텐츠, 관련 프롬프트‧작업, 경고, 데이터셋‧모델 정보, 생성 세션 중 존재하는 관찰자, 생성된 인종‧성별 관련 콘텐츠 비율 등의 통계 정보를 최종 사용자에게 알릴 수 있다.

  • Stable 확산의 텍스트-이미지 모델에서 수행되는 실험의 인터페이스

<Source: Humans Are Biased. Generative Ai Is Even Worse Stable Diffusion’s text-to-image model amplifies stereotypes about race and gender — here’s why that matters[275]. >

개선 의견 보내기

Last updated