본문 바로가기
Business/IT Knowledge

책 헬로 데이터 과학 발췌 및 서평

by 솬씨티 2020. 7. 19.

『헬로 데이터 과학』 

안녕하세요, 솬씨티입니다. '헬로 데이터 과학'이라는 책을 읽고 감명받은 부분을 쓰고, 데이터 과학에 관한 저의 생각을 쓰려고 합니다. 데이터 과학은 알면 알수록 기초에 충실해야하는 분야인 것 같습니다. 발췌한 부분은 기울여서 표시할테니 참고 바랍니다. 


* 문제 특성에 맞는 도구 선택
- 간단한 도구로 시작하여 복잡한 도구로 옮겨간다.
- 분석 초반에 최대한 데이터 크기를 줄인다.

▶Opinion : 데이터 자체가 보통 방대하기 때문에 그것을 줄여 의미를 찾는 과정이 데이터 과학의 처음이자 끝이라고 할 수 있습니다. 



* 문제 해결 단계별로 적절한 도구들
(1) 데이터 준비 (하둡, 데이터 베이스)
(2) 탐색적 데이터 분석 (엑셀, R)
(3) 통계적 추론 / 예측 (파이썬, R)
(4) 해결책 구현 (파이썬, 커스텀 코드)
(5) 결과 소통 (엑셀)


* 데이터 문제 정의하기
"만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다." -알버트 아인슈타인

▶Opinion : 이 책의 장점은 단순히 데이터 그 자체의 분야만 다룬 것이 아니라 위인들이 남긴 명언과 접목시켜 데이터에 관한 통찰력을 높였다는 것입니다.


* 어떤 대상도 측정할 수 있는가
 경영 통계 전문가인 더그 하버드는 그의 책 『뭐든지 측정하는 방법 How to Measure Anything』에서 추상적인 대상을 구체적인 측정의 대상으로 바꾸는 구체화의 3단계를 소개한다.
(1) 만약 중요한 일이라면, 어떤 식으로든 관찰할 수 있다.
(2) 관찰 가능한 일은 수치 혹은 범위로 표현할 수 있다.
(3) 수치 혹은 범위로 표현될 수 있는 일은 측정할 수 있다.

요약하면, 자신에게 중요한 일이라면 어떤 식으로든 그 양상이나 효과를 관찰 혹은 감지할 수 있을 것이고, 그렇다면 이는 어떤 수량이나 범위로 측정할 수 있기에, 모든 것은 측정의 대상이라는 것이다. 반대로 어떤 형태로도 관찰이 불가능한 일은 자신에게 중요한 일이 아니라는 논리도 성립한다. 실제로는 측정할 수 없는 것을 무시했을 때 상당한 부작용을 겪을 수 있지만, 여기서는 자신이 측정할 수 없다고 생각하는 대상도 잘 생각해보면 측정할 수 있다는 의미로 이해하자. 

▶Opinion : 경영학의 대가인 피터 드러커도 비슷한 말을 남겼죠. "측정할 수 없으면 관리할 수도 없다. If you can't measure it, you can't manage it." 같은 맥락인 것 같습니다. 측정이 가능해야 다음 step으로 진행할 수 있습니다.


* 메타데이터의 중요성
-데이터가 누구에 의해, 어떤 목적과 방법으로 언제 어디에서 수집되었는지가 포함되면, 이를 메타데이터라고 부른다.

- 데이터 과학자에게 데이터는 원재료와 같다. 데이터가 원재료라면 메타데이터는 데이터에 대한 품질보증서와 같다. 품질보증서가 없는 제품을 어떻게 믿고 쓸 수 있겠는가?
 반대로 스스로 데이터를 수집하고 가공할 경우에도 데이터가 수집 및 가공된 과정을 꼼꼼히 기록할 필요가 있다. 이렇게 양질의 메타데이터를 갖춘 데이터는 당면한 문제뿐 아니라, 추후에 다른 문제를 풀 때에도 유용하게 쓰일 수 있다. 또한 데이터 분석을 아웃소싱하거나 여러 사람이 공동으로 작업하는 경우는 이런 기록의 중요성을 말할 것도 없다. 

▶Opinion : 메타데이터의 중요성입니다. 메타데이터이 확실하게 규명되어야 데이터의 신뢰성을 얻을 수 있기 때문입니다. 


"제가 넷플릭스의 데이터 과학 지원자들에게 찾는 것은 만족할 줄 모르는 배고픔과 호기심입니다. 흥미있는 데이터를 떠올리기만 해도 절로 침이 흐르는 사람을 뽑고 싶습니다. 또한 끈기도 중요한데, 데이터 과학은 끝이 없는 일이기 때문에 포기하지 않아야 하니까요." _ 케이틀린 스몰우드(넷플릭스의 데이터 과학 총괄 매니저)

▶Opinion : 추천 알고리즘으로 유명한 넷플릭스의 데이터 과학 총괄 매니저의 명언입니다. 배고픔과 호기심을 동시에 강조한 만큼 Data Scientist의 업무가 결코 녹록치 않다는 것을 알 수 있는 명언인 것 같네요.


좀 더 공부하고 실무적인 데이터를 분석해서, 지금 회사에서도 그렇고 앞으로도 데이터 관련 업무 수행을 맡아 조금 더 성과를 내고 싶네요. 앞으로도 더 유익한 데이터 관련 글을 포스팅해드리겠습니다. 감사합니다.

댓글