1. 데이터 분석과 AI학습에서 유의할 점
🧐 목차
- 데이터에 대한 해석(데이터를 잘 해석하고 있는가)
- 데이터 전처리와 분석 방법은 적절한가
- 학습에 쓰는 데이터가 충분한가
- Black box algorithm
- Handling the Web data
- 윤리에 대한 법적 제도
- AI and Ethical Decisions
<데이터 학습시 유의할 점>
- 데이터의 해석
- overfitting
- 오정보의 탐지
- 알고리즘의 편향을 비롯한 윤리와 신뢰 문제
- 오차 범위
- 블랙박스 모델
- 학습이 가지는 편향 현상
지금은 세상의 모든 것들이 기록이 되는 데이터의 시대 !
태어나는 순간부터 모든 순간의 사건과 경험에 대해서 다양한 데이터가 생성 및 기록된다.
이를 기반으로 혁신적인 서비스들이 개발되어 우리 생활을 더욱 편하게 해준다.
🧐 1. 데이터에 대한 해석(데이터를 잘 해석하고 있는가)
예시) 초콜렛 소비, 인지기능, 노벨상 수상자의 연관성에 대한 논문
초콜렛을 많이 먹으면 노벨상을 탄다?
👉 국민 한 명당 먹는 초콜렛이 1년동안 5kg이 넘는 나라는 인지 기능이 향상되어 노벨 수상자가 많이 나오지 않을까라는 아이디어를 제시하였다.
다크초콜릿 섭취 ➡️ 인지기능 향상 ➡️ 노벨상 수상?
🤷♀️ 위 아이디어는 상관관계이지만 반드시 인과관계인 것은 아니다.
⭐상관관계와 인과관계와 다르기 때문에 섞어서 혼용하는 실수를 하면 안된다.⭐
🧐 2. 데이터 전처리와 분석 방법은 적절한가
<에러바가 없는 도표?>
에러바가 없는 그래프는 사람들이 신뢰하지 않는다.
그러나 에러바는 시각적인 가이드를 줄 뿐이기 때문에 실제로 데이터 해석시 적절한 통계 테스트를 써야한다.
<데이터 전처리 및 분석 방법>
- Error bar추가하기
- 적합한 통계 테스트 찾기
- 아웃라이어 제거하기 (너무 크거나 작은 경우 제거하기)
- 데이터 표준화 하기 (정규화)
- EDA(Exploratory data analysis) 과정에 충분한 시간 보내기⭐
- 예) 가격이라고 적힌 필드에 마이너스 값이 있으면 안되는 것처럼
👉 데이터를 관찰하고, 정제하여 깨끗한 데이터를 만들었을 때 좋은 결과가 나올 수 있게 된다.
🧐 3. 학습에 쓰는 데이터가 충분한가
<인공지능 알고리즘에 필요한 데이터의 양은?>
👉 보통 100만 데이터는 있어야 많은 수의 parameter를 학습할 수 있다고 한다.
모델이 너무 단순하면 충분히 학습되지 않아 모델에 대한 적절한 선택을 할 수 없다 - underfitting
특정 데이터에 특화되어 데이터가 조금만 달라져도 무용지물 알고리즘 - overfitting
우리가 찾는 모델은 underfitting과 overfitting 사이에서 적절히 잘 학습한 모델이다.
이는 데이터가 약간 변하거나 오차가 있어도 여전히 유연하게 대처할 수 있는 좋은 알고리즘이 된다.
또한 학습에 쓰이는 데이터는 테스트 데이터와는 서로 다른 데이터가 쓰여야한다.
<학습에 쓰는 데이터의 양이 충분한가?>
- 데이터 학습의 결과가 적절한 수준인지에 대한 인식이 있어야 한다.
- 학습 데이터는 테스트 데이터와 달라야 한다.
🧐 4. Black box algorithm
👉 학습 결과물을 실제로 어떻게 받아들이는지에 대해 블랙박스 알고리즘 때문에 문제가 많다.
- ai 모델은 속을 들여다 볼 수 없다.
- 알파고의 경우도 바둑을 잘 두지만 어떻게 해서 다음 수를 두게 했냐는 질문에 쉽게 설명해주지 못한다.
- 의사결정 나무와 같은 알고리즘과 달리 ai 모델은 그 안의 수많은 parameter값에 따라 결정되어 어떻게 해석을 할지 막막하다
👉 그래서 이를 블랙박스 모델이라고 부르기도 한다.
<예) 탈세범 잡기 알고리즘>
- 면세범위 초과 물품, 위장 반입, 원산지 조작 등 세관에서 벌어지는 불법 행위를 적발하는 AI 기술 개발
- 이전 과정의 경우 세관원의 의사결정나무에 기반했다면 딥러닝이 소수의 물건만 검사하면 된다고 알려주는 형태가 되었다.
- 세관원이 코로나로 인하여 전수검사를 못할 때 유용하게 쓰인다.
- 처음에는 블랙박스 형태여서 세관원이 왜 이 알고리즘을 써야하는지 알 수 없었다.
- 그래서 성능은 조금 떨어지지만 설명력을 높여주는 알고리즘을 제시하였더니 잘 쓰일 수 있었다.
실제 사례에서는 성능 뿐만 아니라 ⭐ 설명력 ⭐ 이라는 부분도 굉장히 중요하게 여겨진다.
⭐성능, 설명력 모두 중요하기 때문에 실제 알고리즘 만드는 분들도 설명력을 높이기 위해 노력중이다.
<AI 모델의 결정에 설명력 더하기 (개와 고양이를 구분하는 COMPUTER VISION 기술)>
- 흔히 AI기반 학습 알고리즘은 설명이 가능하지 않고 블랙박스 형태라는 단점이 존재한다.
- High risk결정에서는 설명력도 정확도 만큼이나 중요해진다.
- Saliency map, SHAP와 같이 post-hoc explainability를 제공하는 기술이 생겼다.
Saliency map이란?
사람이 특정 사물을 인지할 때 왼쪽에서 오른쪽 아래로 순서대로 보는 것이 아닌
눈에 띄는 영역, 즉 ⭐관심영역⭐을 먼저 인지하여 그 곳에 시선을 집중하게 된다.
예를 들어 그림 속 🐕를 인식하기 위해 왼쪽 위부터 보는 것이 아닌 눈에 띄는 영역(🐕가 있는 영역)을 먼저 보는 것과 같다.
이러한 인지 방식을 컴퓨터에 적용하여 Mapping한 것을 Saliency Map이라고 한다.
화면에서 눈에 띄는 영역, 다른 영역에 비해 픽셀 값의 변화가 급격한 부분들을 모아 매핑하여 관심있는 물체를 관심 없는 배경으로부터 분리시키는 것을 의미한다.
이 방법은 이미지에서 중요한 부분을 추출하는데에 드는 비용을 절약할 수 있게 만든다는 장점이 있다.
- 알고리즘 내면을 가시화 해서 보여주는 것 ➡️ 사후 설명력(post-hoc explainability) 기술이 생김
- 사후가 아닌 처음부터 해석가능한 모델 interpreter model도 만들 수 있지만 어려워
- 중요한 것은 사후 모델을 검증하다보니 모델이 내는 결과가 신뢰성이 없는 경우도 생김
- 예) one pixel attack => 하나의 픽셀 정보가 바뀌었는데 인식을 잘못하여 설명(알고리즘 학습 결과가 달라짐)
- 사람은 픽셀 하나가 바뀐다고 결정이 바뀌지 않는데 알고리즘은 단 하나의 픽셀만 바뀌어도 공격에 취약함을 보여준다.
- 학습 결과가 바뀔 수 있는 위험성 증가
⭐ 모델이 얼마나 노이즈에 민감한지도 관심을 가져야 한다.
🧐 5. Handling the Web data
<빅데이터 학습에서 많이 사용되는 인터넷 웹데이터 다룰시 주의 사항>
웹데이터는 주의할 점이 굉장히 많다 ➡️ 특히 정보의 대표성!!
우리가 수집하는 sns, 인터넷, 블로그, 커뮤니티 글들이 대중의 의견이라 할 수 있을까?
➡️ 많이 언급된다고 꼭 중요한 토픽인 것은 아니다.
- 의견의 대표성 spiral of silence
- 인터넷 상의 의견이 대표성 있는 의견이 아닐 수 있음을 인지해야한다.
- 소셜 링크를 통한 빠른 정보의 전파, 봇의 참여, 극단화 현상 주의하기
- 목소리가 큰 사람이 강한 의견을 내면 자신은 그 의견과 다르지만 누군가 강한 의견을 내고 있기 때문에 자신이 소수라 생각하고 다들 침묵하여 이 현상이 부각이 되면 점점 한가지 의견만 대표성을 가진 듯 보인다는 착각을 일으키게 된다 ➡️ 이를 ⭐편향 현상 ⭐ 이라고 한다
<편향 현상>
- 인터넷 글 분석시 편향 현상에 주의 ➡️ sns로 더 빠르게 편향 현상이 전파될 수 있어 유의해야한다.
- 특히 오정보는 사실 정보에 비해 더 빠르고 산발적으로 퍼져나간다.
- 오정보는 산발적으로 퍼지고 사실 정보는 모두 연결되어 퍼진다.
- 오정보는 급격히 빠르게 나갈 수 있고 인포데믹 현상도 일으킬 수 있다.
- 인포데믹이란(infodemic)사실 정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상
- ➡️( 사실과 오정보 양쪽이 너무 많아서 도저히 어떤 정보가 오정보인지 사실인지 모르겠다라는 정보의 과부화 현상을 나타낸다)
⭐ 인터넷 정보 분석시 이 정보가 가진 대표성과 진실성이 있는지 유의하기
⭐ 데이터 과학자는 사용자의 불편도도 민감하게 고려해야 한다.
<개인정보 보호>
- 데이터 사용과 서비스 개발에 사용자 어려움을 반영해야한다.
- 우리가 만드는 서비스가 사용자의 어려움을 증가시키는 것은 아닌지
- 꼭 필요한 정보만을 요청하고 있는지
- 데이터는 안전하게 보관하고 있는지 고려가 필요하다
<잊혀질 권리 The right to be forgotten>
- 개인정보 보호 ➡️ 잊혀질 권리가 사회적 이슈가 되고 있다
- 과거사건이 해결되었는데 인터넷에 검색이 되어 내 미래 취업과 사회생활 방해가 되면 안된다.
- 사생활 노출이나 과거 기록에 대해 포털과 인터넷 서비스에서 삭제되지 않아 개인정보의 과다 노출 피해
- 스페인 변호사 곤살레스 사례(10년전 빚으로 본인의 집이 경매당한다는 뉴스가 구글에 검색)
- 유럽사법재판소 판결은 원데이터에 대한 삭제는 인정하지 않되 이 데이터의 검색 결과에 대한 삭제 요구는 인정될 수 있다고 판결
한 번 올라온 정보는 삭제하기 힘들다 => 플랫폼에서 너무 많은 곳에 자동으로 복제가 되기 때문
우리가 생각하는 것처럼 delete 버튼을 눌러 해결되지가 않는다.
하지만 검색시 그 결과를 나오지 않게 할 수는 있다.
⭐ 우리가 다루는 데이터가 어떻게 보관는지, 개인정보를 침해하지는 않는지, 데이터 과학자가 꼭 챙겨야 한다.
🧐 6. 윤리에 대한 법적 제도
데이터에 대한 가장 강력한 규제를 하는 곳 ➡️ 유럽
<GDPR>
- GDPR ➡️ 개인정보를 보호하고 과다 광고에 노출, 혐오 표현의 노출을 규제하는 플랫폼을 단속하는 법 제도
- EU에 있는 제도이지만 인터넷은 모두 연결되어 있기 때문에 우리나라에서 만드는 서비스도 GDPR을 유의 깊게 살펴볼 필요가 있다.
- 최근 유럽 연합에서는 더욱 더 구체적으로 DIGITAL SERVICE ACT에 대해 정의를 하고 있다.
- DIGITAL SERVICE ACT
- 유럽 연한 중심으로 빅테크 기업 대상 플랫폼 유해 콘텐츠 단속 의무 강화, 전세계로 확산
- 네티즌의 성별, 인종, 종교 등에 기반한 알고리즘으로 개인화 추천 광고를 노출하지 않음
- 어린이 대상 개인화 추천 광고 전면 금지
- 디지털 서비스 사업자는 혐오 발언, 아동 학대, 테러 선동 등 불법 콘텐츠 유통도 막아야한다.
⭐ 데이터 과학자는 서비스를 넘어 사회가 가지는 윤리적 가치에 대해 민감하게 알고 법 제도의 변화도 따라가야 한다.
🧐 7. AI and Ethical Decisions
인공지능의 결정을 얼마나 신뢰할 수 있는가? 문제에 대해 다루기
<법 분야 - COMPAS 제도>
- 인공지능 알고리즘으로 인한 부작용 (Predictive Policing)
- COMPAS - (Correctional Offender Management Profiling for Alternative Sactions)
- Northpointe, Inc가 개발 & 소유한 피고의 미래 범죄 위험을 점수로 예측하는 Software Tool.
- 미국 법원의 형사 재판에서 판사들의 의사 결정을 지원하기 위해 사용하고 있으며, 현재 캘리포니아 주, 뉴욕 주, 위스콘신 주, 플로리다, 워싱턴 등 12개 기타 관할권 법원에서 사용 중
- ➡️ 피고의 재범 수치를 통계로 제공 ➡️ 판사가 결정을 내릴 때 참고하는 점수
- ➡️ 인종차별이 있다는 보고서가 나옴
<인공지능 알고리즘으로 인한 부작용>
- 2014년, 비슷한 시기에 사소한 절도로 인해 체포된 두 사람
- 한 명은 무장강도 2건 전과가 있으며 무장강도를 시도하다 체포된 백인
- 다른 한 명은 4건의 경범죄 전과가 있으며 타인의 자전거를 타다가 적발된 흑인
- 인공지능은 흑인을 더 위험도를 높게부과 ➡️ 각각 3, 8점 = 인종 차별적
- 백인은 2년후 재범하여 추가 기소가 있었지만 여성은 추가 기소가 없었음
➡️ 알고리즘은 단지 흑인이기 때문에 위험 점수를 더 크게 보여주는 편향 현상이 있었다.
⭐알고리즘이 어떤 편향을 포함하고 있는 지
⭐ 우리가 만드는 알고리즘이 사회 편향을 조정하고 있는 것은 아닌지 알아보기
<알고리즘이 채용에 사용될 때 편향이 있었던 사례>
- 인공지능 알고리즘으로 인한 부작용 (Recruiting)
- Amazon의 ai기반 채용 시스템이 IT직군에 남성 지원자만을 추천하는 문제 발생
- 남성 지원자가 다수였던 과거 10년 동안의 이력서 데이터를 학습한 알고리즘이 남성을 선호하고, 여성 지원자의 평가 점수를 낮춤
- 14년부터 ai기반의 채용을 목표로 진행되던 해당 프로젝트는 2018년 폐기
- 하버드 latanya Sweeney 교수도 algorithm bias에 대한 유사한 이슈를 제기하여 감사(audit)시스템을 제안
<인공지능 알고리즘으로 인한 부작용(Hate Speech)>
- microsoft Tay
- 백인 우월주의자와 여성, 무슬림 혐오자들이 차별 발언을 하도록 학습하여 공개 16시간만에 서비스 중단 (2016)
- 마이크로소프트에서는 Zo라는 13세 여성 캐릭터의 챗봇을 새로 공개했는데 소수자에 대한 대화 자체를 피해 컨텐츠 검열이라는 지적을 받음
- 한국도 이루다와 같은 사례가 있었음
⭐ 알고리즘의 결과들이 우리의 윤리 규범과 잘 맞는지 상충되지는 않는지 살펴볼 필요가 있다.
⭐결론⭐
<데이터 분석과 ai 학습에서 유의할 점>
- 데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요
- 고품질의 데이터가 입력되었을 때 학습 결과도 유의미하며 ,데이터가 가지는 오차 범위와 특이점, 대표성에 대한 충분한 이해를 가지고 접근해야한다.
- 데이터의 품질이 알고리즘의 학습 품질을 결정하기 떄문에, 데이터에 대한 많은 노력을 들여야한다. 특히 오차의 범위, 특이점, 대표성이 있는지도 항상 고민해봐야 한다.
<알고리즘의 설명력, 편향, 신뢰의 문제에 주의>
- 블랙박스 알고리즘이 실제 사회에서 사용되기 위해서는 많은 경우 (성능만 높은 것이 아닌)설명력 보강이 필요하며
- 노이즈와 데이터 가변성에도 대처 가능한 알고리즘을 개발하도록 노력해야 한다.
- ai가 다양한 사회 서비스에서 인간 결정을 돕거나 대체함에 따라 윤리적 의사결정이 확보되도록 점검해야 한다.
# 출처: lg aimers 강좌