안녕하세요 K-IN 입니다.
데이터 마사지에대해서 알아보겠습니다.
인터뷰 및 업무와 관련해서 해당 포스트가 도움이되길 바랍니다.
데이터 마사지란?
데이터 분석 결과가 예상하거나 의도한 방향과 다를 때 데이터의 배열을 수정하거나 관점을 바꾸는 등 동일한 데이터의 해석이 달라지도록 유도하는 것을 말합니다.
데이터의 수치 자체를 바꾸는 데이터 조작과는 차이가 있으나 분석가의 주관적인 판단이 개입되므로 지양해야합니다.
아래는 대표적인 데이터 마사지 방법입니다.
- 편향된 데이터 전처리
- 매직 그래프 사용
- 분모 바꾸기 등 관점 변환
- 의도적인 데이터 누락 및 가공
- 머신러닝 모델의 파라미터 값 변경 및 연산 반복
- 심슨의 역설
이제 각각에 대해서 살펴보겠습니다.
편향된 데이터 전처리
이상치 또는 결측값 등의 전처리를 의도하는 방향에 유리하도록 하는 것입니다.
예를 들어, A회사와 B회사의 수치를 비교할때 A회사의 수치가 크도록 유도하고자 이상치 선정 기준을 높이는 등의 전처리를 하는 것을 말함.
매직 그래프
그래프의 레이블 간격 또는 비율을 왜곡하여 수치의 차이를 실제보다 크거나 작게 인식되도록 유도하는 방법입니다.
데이터 조작과 다름이 없으므로 매우 주의해야합니다.
아래는 그래픽 제조사의 매직그래프 사용 사례입니다.
숫자의 차이는 1이지만 마치 두 배정도 차이가 있는 것처럼 보이도록 레이블 간격을 설정하였습니다.
분모 바꾸기 등 관점 변환
분모를 어떻게 설정하느냐에 따라 받아들여지는 느낌이 달라질 수 있습니다.
예를 들어 숙성을 하는 위스키의 Angel's share(천사의 몫) 비율을 더 크게 혹은 더 작게 보이도록 표현할 수 있습니다.
여기서 천사의 몫이란 숙성과정에서 증발되는 위스키를 말합니다.
좀더 구체적으로 말해볼까요?
- 전체 1000L 중 증발되는 양이 450L이고 출하되는 위스키의 양이 350L라고 합니다.
- 이때, 전체 1000L 중 450L가 증발되었으니 45%가 증발하였다고 표현하는 것이 옳으나
- 출하되는 위스키 350L 중 천사의 몫이 450L라고 할 경우 128%가 증발하였다고 표현됩니다.
의도적인 데이터 누락 및 가공
물가 상승률 등의 연단위로 계측한 데이터를 3년 간격으로 데이터를 보여주거나 특정 연도들의 평균을 그래프로 그려서 실제로는 큰 변화가 없지만 물가가 상승 혹은 하락인것처럼 표현하는 것을 말합니다.
머신러닝 모델의 파라미터 값 변경 및 연산반복
머신러닝 모델의 결과값도 어느정도 유도가 가능한데 의도한 대로 데이터 성향을 조정하거나 모델의 파라미터 값을 변경해가며 다양하게 연산을 반복하여 머신러닝 결과를 조정할 수 있습니다.
심슨의 역설
데이터의 세부 비중에 따라 전체 대표 확률이 왜곡되는 경우가 있습니다. 대표적인 예로 버클리 대학의 입학 차별 사례가 그것입니다.
지원자 수 | 합격률 | |
남성 | 8,442 | 44% |
여성 | 4,321 | 35% |
남성의 합격률이 여성의 합격률보다 높아보이지만 학과별 합격률을 보면 개별학과의 합격률은 오히려 여성이 높았습니다.
또한, 남성들은 경쟁률이 낮은 학과에 지원을 다수한 반면 여성들은 경쟁률이 높은 학과를 위주로 지원을 많이 하였습니다.
(심슨의 역설에 대한 예시를 들기 위함으로 학과별 합격률 데이터는 생략)
따라서, 위 남성과 여성의 합격률 데이터는 대표확률이 왜곡된 결과입니다.
맺음말
지금까지 데이터 마사지의 종류와 그 예시들을 살펴보았습니다.
업무 및 인터뷰 등과 관련하여 해당 자료를 참고하시어 좋은 성과를 내길바랍니다.
이상입니다.
K-IN 올림.
'프로그래밍 > AI' 카테고리의 다른 글
M1 맥북에서 Zulu 를 이용한 konlpy 환경 구성하기 (0) | 2023.08.13 |
---|---|
[인공지능][AI] 머신러닝과 딥러닝의 차이점 (0) | 2023.05.06 |