『헬로 데이터 과학』
안녕하세요, 솬씨티입니다. '헬로 데이터 과학'이라는 책을 읽고 감명받은 부분을 쓰고, 데이터 과학에 관한 저의 생각을 쓰려고 합니다. 데이터 과학은 알면 알수록 기초에 충실해야하는 분야인 것 같습니다. 발췌한 부분은 기울여서 표시할테니 참고 바랍니다.
* 문제 특성에 맞는 도구 선택
- 간단한 도구로 시작하여 복잡한 도구로 옮겨간다.
- 분석 초반에 최대한 데이터 크기를 줄인다.
▶Opinion : 데이터 자체가 보통 방대하기 때문에 그것을 줄여 의미를 찾는 과정이 데이터 과학의 처음이자 끝이라고 할 수 있습니다.
* 문제 해결 단계별로 적절한 도구들
(1) 데이터 준비 (하둡, 데이터 베이스)
(2) 탐색적 데이터 분석 (엑셀, R)
(3) 통계적 추론 / 예측 (파이썬, R)
(4) 해결책 구현 (파이썬, 커스텀 코드)
(5) 결과 소통 (엑셀)
* 데이터 문제 정의하기
"만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다." -알버트 아인슈타인
▶Opinion : 이 책의 장점은 단순히 데이터 그 자체의 분야만 다룬 것이 아니라 위인들이 남긴 명언과 접목시켜 데이터에 관한 통찰력을 높였다는 것입니다.
* 어떤 대상도 측정할 수 있는가
경영 통계 전문가인 더그 하버드는 그의 책 『뭐든지 측정하는 방법 How to Measure Anything』에서 추상적인 대상을 구체적인 측정의 대상으로 바꾸는 구체화의 3단계를 소개한다.
(1) 만약 중요한 일이라면, 어떤 식으로든 관찰할 수 있다.
(2) 관찰 가능한 일은 수치 혹은 범위로 표현할 수 있다.
(3) 수치 혹은 범위로 표현될 수 있는 일은 측정할 수 있다.
요약하면, 자신에게 중요한 일이라면 어떤 식으로든 그 양상이나 효과를 관찰 혹은 감지할 수 있을 것이고, 그렇다면 이는 어떤 수량이나 범위로 측정할 수 있기에, 모든 것은 측정의 대상이라는 것이다. 반대로 어떤 형태로도 관찰이 불가능한 일은 자신에게 중요한 일이 아니라는 논리도 성립한다. 실제로는 측정할 수 없는 것을 무시했을 때 상당한 부작용을 겪을 수 있지만, 여기서는 자신이 측정할 수 없다고 생각하는 대상도 잘 생각해보면 측정할 수 있다는 의미로 이해하자.
▶Opinion : 경영학의 대가인 피터 드러커도 비슷한 말을 남겼죠. "측정할 수 없으면 관리할 수도 없다. If you can't measure it, you can't manage it." 같은 맥락인 것 같습니다. 측정이 가능해야 다음 step으로 진행할 수 있습니다.
* 메타데이터의 중요성
-데이터가 누구에 의해, 어떤 목적과 방법으로 언제 어디에서 수집되었는지가 포함되면, 이를 메타데이터라고 부른다.
- 데이터 과학자에게 데이터는 원재료와 같다. 데이터가 원재료라면 메타데이터는 데이터에 대한 품질보증서와 같다. 품질보증서가 없는 제품을 어떻게 믿고 쓸 수 있겠는가?
반대로 스스로 데이터를 수집하고 가공할 경우에도 데이터가 수집 및 가공된 과정을 꼼꼼히 기록할 필요가 있다. 이렇게 양질의 메타데이터를 갖춘 데이터는 당면한 문제뿐 아니라, 추후에 다른 문제를 풀 때에도 유용하게 쓰일 수 있다. 또한 데이터 분석을 아웃소싱하거나 여러 사람이 공동으로 작업하는 경우는 이런 기록의 중요성을 말할 것도 없다.
▶Opinion : 메타데이터의 중요성입니다. 메타데이터이 확실하게 규명되어야 데이터의 신뢰성을 얻을 수 있기 때문입니다.
"제가 넷플릭스의 데이터 과학 지원자들에게 찾는 것은 만족할 줄 모르는 배고픔과 호기심입니다. 흥미있는 데이터를 떠올리기만 해도 절로 침이 흐르는 사람을 뽑고 싶습니다. 또한 끈기도 중요한데, 데이터 과학은 끝이 없는 일이기 때문에 포기하지 않아야 하니까요." _ 케이틀린 스몰우드(넷플릭스의 데이터 과학 총괄 매니저)
▶Opinion : 추천 알고리즘으로 유명한 넷플릭스의 데이터 과학 총괄 매니저의 명언입니다. 배고픔과 호기심을 동시에 강조한 만큼 Data Scientist의 업무가 결코 녹록치 않다는 것을 알 수 있는 명언인 것 같네요.
좀 더 공부하고 실무적인 데이터를 분석해서, 지금 회사에서도 그렇고 앞으로도 데이터 관련 업무 수행을 맡아 조금 더 성과를 내고 싶네요. 앞으로도 더 유익한 데이터 관련 글을 포스팅해드리겠습니다. 감사합니다.
'Business > IT Knowledge' 카테고리의 다른 글
쿠팡이츠, 배달 플랫폼 산업의 떠오르는 다크호스 (1) | 2020.12.02 |
---|---|
GIF 배너(Animated Banner) 광고 시장 현황 (0) | 2020.08.11 |
Ad Monetization(온라인 광고 수익화) 2020년 상반기 최신 동향_5 (3) | 2020.07.08 |
Ad Monetization(온라인 광고 수익화) 2020년 상반기 최신 동향_4 (0) | 2020.07.07 |
Ad Monetization(온라인 광고 수익화) 2020년 상반기 최신 동향_3 (0) | 2020.07.06 |
댓글