juooo1117

[Module 1] AI 윤리: 데이터 처리 및 수집에서의 윤리 이슈 본문

Artificial Intelligence/LG Aimers: AI전문가과정

[Module 1] AI 윤리: 데이터 처리 및 수집에서의 윤리 이슈

Hyo__ni 2024. 1. 2. 19:32

Part 1. 데이터 분석과 AI학습에서 유의할 점

데이터를 잘 해석하고 있는가?

상관관계인지 인과관계인지를 잘 파악해야 한다. 하지만 실제로 두 관계를 섞어서 혼용하는 실수가 빈번하게 발생한다.

 

데이터 전처리와 분석방법은 적절한가?

  -  그래프에 Error bar 를 추가하자

  -  데이터에 적합한 통계 테스트를 찾아야 한다.

  -  outlier 를 제거해야 한다.

  -  데이터를 표준화해야 한다.

  -  데이터를 깊이 분석하는 EDA(Exploratory Data Analysis)는 정말 중요한 과정이다.

 

학습에 쓰는 데이터는 충분한가?
  -  많은 수의 parameter를 확보하기 위해서, 보통 인공지능 알고리즘에는 million scale data(백만건) 정도는 필요하다.

  -  데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다. 

  -  training data 는 test data 와 달라야 한다.

Black Box Algorithm

  -  AI 모델을 속을 들여다 볼 수 없다. (모델 안에 있는 수많은 parameter 값에 따라서 결정되기 때문)

  -  실제 사례에서는 모델의 성능뿐 아니라 모델의 결과/결정에 대한 '설명력' 부분도 굉장히 중요하게 여겨진다. 

  -  알고리즘의 내면을 가시화해서 보여주는 것들 → 사후설명력(post-hoc explainability)

  -  사후가 아닌 처음부터 해석 가능한 모델(interpretable model)을 만들 수 있다. (하지만 굉장히 어려움!)

 

Handling the Web data

  -  정보의 대표성

  -  의견의 대표성(Spiral of silence) : 인터넷 상의 의견이 대표성 있는 의견이 아닐 수 있음을 인지해야함

  -  따라서 인터넷 정보를 이용할 때는 이런 '편향 현상'에 주의해야 함. (오정보는 더욱 빨리 산발적으로 퍼져나간다.)

  -  오정보의 빠른 확산으로 인한 '인포데믹' 현상 → infodemic: 사실정보와 함께 오정보 양이 늘어서 구분이 어려워지는 정보 과부화 현상

 

윤리에 대한 법적 제도

  -  GDPR: 개인정보를 보호하고 과다광고, 혐오 표현의 노출을 규제하는 플랫폼을 단속하는 법 제도

  -  Digital Services Act: 유럽연합을 중심으로 빅테크 기업 대상 플랫폼 유해 컨텐츠 단속 의무 강화, 전세계로 확산된다.

 

AI and Ethical Decisions

  -  인공지능 알고리즘으로 인한 부작용 (Predictive Policing) → COMPAS (Correctional Offender Management Profilling for Alternative)

  -  우리가 만든 알고리즘이 사회의 편향을 조장하고 있는 것은 아닌지 유의해야 한다.

 

 

[결론] 데이터 분석과 AI 학습에서 유의할 점

데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요하다.

알고리즘이 가지는 설명력, 편향, 신뢰의 문제에 주의해서 접근해야 한다.