Are you solving the right problem? Are you using the right data?
나는 문제를 명확하게 정의해 풀고 있는가? 나는 올바른 데이터를 사용하고 있는가?
[소개]
이 책은 어떻게 데이터 분석을 하면 되는지 자세하게 가이드를 알려준다.
데이터에서 찾아낸 인사이트를 자신의 결론으로 이끄는 이야기로 만드는 능력이 바로 데이터 문해력이라고 한다.
목적과 문제를 올바른 데이터와 연결해서 가치 있는 결론을 낼 수 있도록 하는 사고방식과 기술을 안내해 준다.
[계기]
처음으로 데이터 분석 프로젝트를 진행해보려고 하니 어디서부터 어떻게 시작해야 할지 어려웠다.
무조건 데이터 먼저 고르고 가설을 세우려고 했지만, 그조차도 데이터를 먼저 보고 가설을 끼워 맞추려고 했었다.
이 책을 읽고 어떤 부분이 문제이며 올바른 방향성을 알게 되어 제대로 프로젝트를 분석해보려고 한다.
먼저, 책의 공감되는 내용과 중요한 내용을 정리해 보았다.
데이터 활용에 실패하는 두 가지 이유
1️⃣ 풀고자 하는 문제가 명확하지 않다.
2️⃣ 정의한 문제와 사용하는 데이터가 일치하지 않는다.
데이터 활용 프로세스 단계
1️⃣ 목적 및 문제를 정의
2️⃣ 지표를 결정
3️⃣ 현재 상태를 파악
4️⃣ 평가
5️⃣ 원인을 분석
6️⃣ 해결 방안을 모색
1️⃣ 목적 및 문제를 정의
무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 '문제'가 발생한 것인지
- '문제'가 무엇인가
- 그 문제를 일으키는 '원인'은 무엇인가
- 그 원인에 대한 '해결 방안'은 무엇인가
2️⃣ 지표를 결정
짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 한다.
- 어떤 데이터 요소와 지표가 더욱 목적에 부합하는가
- 어떤 데이터 형태와 그래프가 효과적인가
- 결국 무슨 말을 할 수 있는가
3️⃣ 현재 상태를 파악 4️⃣ 평가
'평가'를 하기 위해 필요한 것은 바로 '비교'이다.
- 성과 및 사실, 결과를 확인할 것
- 그 결과에 대해 평가를 진행할 것
데이터를 활용해서 결과물을 만들 때, 자기 생각과 주관을 전하면 ❌
더욱 엄밀하고 객관적으로, 논리적인 주장을 전달해서 상대방이 이해할 수 있도록 해야 한다 ❗️
데이터를 결론에 짜 맞추지 말자❗️
'무슨 말을 하고 싶은지, 어떤 것을 확인하고자 하는지, 이에 따라 ◦◦라는 데이터를 △△라는 데이터와 비교했다'라는 과정이 데이터 활용에 있어서 필수이다.
데이터 중심으로 접근하는 사람의 결과물은 대체로 '결과'로 끝난다. 하지만 그렇지 않고 '목적 중심'으로 접근하는 사람은 '결론'까지 말한다.
'데이터 활용한다'란, 결과가 아니라 결론을 도출하는 것
결과 : ◦와 △는 차이가 있습니다.
결론: ◦와 △의 차이가 존재한다는 것은, ______라는 의미입니다.
ex. 결과) 전통 공예 산업 종사자 수와 전 제조업 평균 종사자 수의 감소 폭은 차이가 있습니다.
결론) 전통 공예 산업 종사자 수는 같은 제조업 중에서도 그 감소 폭이 현저하게 크며, 심각한 상황이 지속되고 있습니다.
비교의 기술
- 추이와 변화를 본다
- 편차를 고려한다
- 평균을 사용한 분석 패턴 -> 흔하면 ❌
평가 기준의 정리
데이터 평가 기준 | 대표적인 지표 |
값의 크기 | 평균값, 합계 |
추이 | 선형 그래프, 막대 그래프, 변화율 |
등락 폭 | 표준편차, 도수 분포도 |
비율 | 분수, 퍼센트 |
📍'이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까'라는 관점에서 생각하고, 필요한 기준을 선정해 활용해 보자.
📍'왜 그 결과에 이르렀는지'와 '왜 그 문제가 일어나고 있는지'
5️⃣ 원인을 분석
'최근 매출이 떨어졌다'는 '문제'가 있다고 가정을 해보면
- 매달 이벤트를 하자!
- 상품 포장 디자인을 개편하자.
- 온라인에 더 자주 정보를 게시하자.
원래는 매출이 떨어진 원인을 분석하고 나서, 이를 해결하기 위한 방안과 행동을 제안해야 한다.
why?
주요 원인이 타사의 유사품이 더 싼 가격으로 판매되고 있기 때문일 수 있을지 모르기 때문
so!
원인 후보를 열거한다 → 지표를 결정한다 → 관련성을 확인한다
대체로 '원인이 하나'인 경우는 매우 드물며, 일반적으로는 2개 이상의 원인을 고려해야 한다.
원인을 생각난 것을 뭐든지 열거하지 말자 ❌
이게 정말일까? '당연히 이거지'라고 주관적으로 원인 후보를 판단하지 말자 ❌
산포도
문제와 결과를 나타낼 지표가 정해져 있고 데이터 또한 수집 완료된 상태를 전제로 하는 경우 ✅
상관관계 분석
상관관계 분석을 하고 상관계수는 ◦◦입니다. ❌
◦◦ 문제 및 결과가 ◦◦ 라는 원인과 어떤 관계가 있는지 상관분석을 수행한 사례입니다. ✅
실제로 분석에 활용한 데이터는 ◦◦ 실적과 ◦◦ 와 ◦◦ 두 가지입니다. 이 두 데이터를 ◦◦ 함수에 적용하고 그 결과를 나타냈습니다.✅
상관계수는 ◦◦ 이러합니다. 따라서 다음과 같은 결론을 도출할 수 있습니다. ◦◦ 를 늘리면 ◦◦ 가 증가한다 등.✅
데이터 수집이 어려운 경우 ☹︎
1. 유사한 데이터에는 어떤 것이 있을지 생각해 본다.(정확도는 약간 떨어지더라도, 데이터가 없는 것보다는 낫습니다.)
2. 지금 바로 수집을 시작한다.(시간적인 여유가 있는 상태이고, 본질적인 데이터가 필요하다면)
3. 정량적이 아닌, 정성적인 정보로 대응한다.(설문조사 응답 및 청취 자료 등.)
4. 포기한다.(해당 부분은 본인의 가정을 통해 보완)
알아두어야 할 주의사항🚨
1. 직접적인 관계인지, 간접적인 관계인지
2. 원인은 한 가지가 아니라, 여럿이거나 복잡할 수도 있다
3. 선형이 아닌 관계성도 존재한다 -> 단순히 상관계수만 도출하기보다는 산포도로 시각화하는 것을 추천한다.
4. 상관관계는 인과관계를 나타내는 것이 아니다.
6️⃣ 해결 방안을 모색
참신한 아이디어만 내면 된다는 생각이라면, 애당초 데이터는 필요 없다.
결과와 유효성에 차이가 생기는 '원인' 파악 유무가 중요하다.
그럼 '해결 방안'으로 바로 뛰어들기 전에 취해야 할 행동은 무엇이 있을까요? 그것은 바로 '원인'을 분석하는 것이다.
'해결 방안'은 '문제'에 직접적으로 적용하는 것이 아니라, '문제'를 일으키고 있는 '원인'에 적용하는 것이다.
'해결 방안'을 고민하는 것은 마지막 단계이다❗️
🔔 도전 문제
필자의 아들이 실제로 고민하는 내용입니다. 아들은 중학교 때 전교 회장이 되었는데, 취임 전에는 학생회 고문 선생님이 학생회 활동은 주 1일이라고 했으나 취임하자마자 그 말이 뒤집혀서 주 3일 이상 활동하는 경우가 많았다고 합니다.
그런 시간을 보내던 중, 귀가하여 다음과 같은 말을 필자에게 전했는데, 이것이 바로 도전 문제의 출발점입니다.
"원래 주 1일만 활동한다고 들었는데, 실제로는 주 3일도 넘게 활동하고 있어. 거짓말한 것도 너무 나쁘고, 고문 역할도 그만두는 것이 어떨까?
🔸정의한 문제와 관련하여, '원인'이 무엇인지 다양하게 열거해 본다.
🔹앞선 '원인'에 대해 직접적이고 효과적인 '해결 방안'을 수립해 본다.
(내 답변)
"처음에는 주 1일만 활동한다고 들었는데, 실제로는 주 3일도 넘게 활동하고 있어. 거짓말 한것도 너무 나쁘고, 고문 역할도 그만두는 것이 어떨까? |
풀어야 할 문제 |
내 답변) 학생회 활동이 주 1일에서 주 3일 이상 하는 경우가 많다, 거짓말 하게 되어 기분이 좋지 않다, 학업에 집중할 수 없다 |
원인 |
내 답변)해야할 일이 많다, 정해진 시간내에 해결되지 않았다, 의사 전달이 잘못되었다, 학생회 활동에 시간을 많이 투자하기 때문에 |
해결 방안 |
내 답변)업무를 조율해보자, 인원을 충원해보자, 고문 선생님과 다시 대화를 해본다, 고문 선생님께 직접 조율 요청을 한다, 그만 둔다. |
(예시)
"처음에는 주 1일만 활동한다고 들었는데, 실제로는 주 3일도 넘게 활동하고 있어. 거짓말 한것도 너무 나쁘고, 고문 역할도 그만두는 것이 어떨까? |
풀어야 할 문제 |
예) 업무가 많아 하루로 끝나지 않음, 선생님이 거짓말을 했다는 심리적 스트레스 |
원인 |
예) 업무 방식의 비효율성(효율):개인의 업무 역량 부족, 비효율적인 프로세스 ,업무량 과다(양), 오해가 있음, 소통의 부족, 의도적 거짓말 |
해결 방안 |
예)업무분장 재고, 프로세스 재고, 업무내용 재고, 외부위탁 검토, 직접 소통, 선생님 사과, 선생님 교체 |
직접 과제와 관련해 시트를 만들어보고 비교해 보았다.
이러한 사고방식은 데이터 활용과 분석에만 필요한 것이 아니다. 토론을 진행하거나 기획하는 사람에게도 필요한 능력이며, 데이터를 쓰지 않아도 되는 문제를 다룰 때도 필요할 수 있다.
필자가 지식이나 방법론을 열심히 암기해 봤자 데이터 분석에는 소용없다고 말한 근본적인 원인이 바로 이것입니다⭐️
결과와 결론은 다르다
계산과 분석을 해서 나온 결과물은 어디까지나 '결과'이며, 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 '결론'이다.
우리가 '데이터 활용'을 할 때 마지막으로 필요한 것은 당연히 '결론'이다.
결과와 결론에 이르는 과정은 본질적으로 같다. 결론이란 결과를 기반으로 도출하는 것이기 때문이다. 하지만 표현 방식은 다르다.
그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미친다고 한다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소이다.
➕정보(아이디어 1)를 기점으로 다른 아이디어(아이디어 2)를 떠올리는 것이 짝짓기입니다.
활용할 수 있는 짝짓기
개인-조직
방법론(하는 법)-의식(의욕)
있다(그렇지만 할 수 없다)-없다
내 아이디어 부정하기 '만약 이게 아니면' 되묻기
기계가 할 수 없는, 인간만 가능한 가치 생성기술!! 스스로 정답에 대해 고민하고, 이를 합리적으로 논할 수 있다.
데이터 문해력이란, '데이터에서 무언가를 읽어내는 능력'이 아니라 '스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력'이라고 생각한다.
이 책을 읽고 데이터 분석과 활용하는 방법뿐만 아니라 단순히 데이터를 가공하여 결과를 얻는 것에 그치는 것이 아니라, 문제 해결을 위한 소스로 활용될 수 있도록 데이터 분석 프로세스를 알 수 있었다.👏🏻👏🏻
이제 진짜 나의 데이터 문해력으로 데이터를 분석해 보러 가보자.👀
'데이터 분석 프로젝트' 카테고리의 다른 글
[Kaggle/MYSQL]식품 배송 데이터분석 2️⃣Instacart Market Basket Analysis (0) | 2024.01.27 |
---|---|
[Kaggle/MySQL] 식품 배송 데이터분석1️⃣ Instacart Market Basket Analysis (0) | 2024.01.16 |
[DACON]학습 플랫폼 이용자 구독 갱신 예측 해커톤 후기(~12.11) (0) | 2023.12.12 |
[MySQL] VSCode와 MySQL 연결하면서 생긴 문제들☹︎(feat.sqlite3) (0) | 2023.11.28 |
데이터 분석 프로젝트 : 해외방송시장조사(주 이용 OTT 서비스) (1) | 2023.11.28 |