본문 바로가기
Business/IT Knowledge

[ML] 밑바닥부터 시작하는 머신러닝 Chapter 1-2

by 솬씨티 2020. 3. 10.

1-3. How to Learn Machine Learning

이번 시간에는
머신 러닝의 기본 Process에 대해 알아보겠습니다.

Machine Learning 기본 Process

이렇게 이루어져있는데요.
기본적인 용어 설명을 먼저 해드리겠습니다.

Model : 예측을 위한 수학 공식이나 함수를 뜻합니다.
형태는 간단하게 1차 방정식이나 확률분포 등의 형태로 표현됩니다.

Algorithms : 어떠한 문제를 풀기 위한 과정을 뜻합니다.
Model을 생성하기 위한 (훈련)과정이라고 생각하시면 됩니다.

위 설명처럼 중학교 때 배우는 1차 방정식 y=ax+b 도
머신러닝의 Model로 구현될 수 있습니다.
여기서 y는 예측값(prediction value)
a,b는 알고리즘(algorithms)의 변수 
x는 New data로 볼 수 있습니다.

이해하기 쉽도록 사례를 하나 들겠습니다.

<출처 : 왓챠, 옥자 예상 관객 수>

옥자의 총 관객수가 예측값(prediction)이고
그 예측 값을 구하기 위해서는 y=ax+b라는 모델에
마션, 킹스맨, 캡틴 아메리카, 인터스텔라의
총 관객수 & 왓챠의 '보고싶어요' data를 활용해
학습을 시키는 원리입니다.

그러면 알고리즘 변수인 a와 b의 근사값이 나올 것이고,
마지막으로 y=ax+b 모델에 
옥자의 왓챠 '보고싶어요' data인 12,008을 대입하면
옥자의 총 예상 관객 수(prediction) 727만명으로 예측할 수 있습니다.


1-4. Types of Machine Learning

최성철 교수님은 결국 Machine Learning을
선을 찾고 선을 긋는 과정이라고 합니다.
그렇다면 어떤 종류의 선을 그어야 되나? 
하는 질문에서부터 강의가 시작됩니다.

그 질문에 대답을 하기 위해 세가지 기법을 사용합니다.

Regression (회귀, 추세선을 긋는 것)
Regression을 활용한 사례로는
주가 예측, 경제 성장률 예측, 영화 관람객 예측 등이 있습니다.

데이터 (X,Y) 에서 X'의 Y'를 예측해봐! 


Classification (분류, 데이터의 유형을 나누는 것)
기존 데이터를 바탕으로 데이터 유형을 나누는 것
Classification을 활용한 사례로는
스팸 메일 여부, 게임 어뷰저 여부, 신문기사 분류 등이 있습니다.

데이터 (X,Y) 에서 X'의 Y'를 분류해봐! 


Clustering (군집, 데이터를 모으는 것)
아무런 사전 정보 없이 데이터 유형을 나누는 것
이를 활용한 사례로는 고객 집단 나누기 등이 있습니다.

데이터 X에서 X를 n개로 나눠봐! (울 회사 트래픽입니다)


또한 Y data의 존재 여부에 따라 
Supervised와 Unsupervised로 나눌 수 있다고 하네요.

머신러닝 전개도


1-5. Data Era

현재의 빅데이터 시대가 오기 전에
데이터를 저장하고 처리하기 위한 Information System이
먼저 발전하였습니다.

1960년대 IBM에서 은행 거래 정보를 저장하기 위해
IBM 704 시스템을 개발하였습니다.

1970년대에는 협의의 Management Information System 출현하였습니다.
흩어져 있는 다양한 정보를 통합하여서 보여주었습니다.

1980년대에는 초기 단계의 인공지능기능이 들어간 
업무 지원 시스템이 출현하였습니다.

1990년대부터 본격적으로 데이터 처리 시스템이
Business 전사적으로 쓰이기 시작하였습니다.

SCM – 공급 사슬망 관리, 제품 생산/배송 체계의 전사적 관리
CRM – 제품 구매자 분석을 통한 맞춤형 마케팅, 제품 공급 구축
KMS –기존 문서 저장 관리 시스템을 넘어 사내 지식 관리 및 제공
ERP – 전사적 자원 관리, 사내 모든 시스템 및 데이터의 통합 관리

이렇게 발달하다가...
한 제품으로 데이터의 엄청난 paradigm shift가 일어나는데요...

바로 잡스 형님의 아이폰..!!

아이폰의 탄생을 기점으로 기업 데이터의 존재 의의는
기업의 효율성 향상에서
개인 삶의 가치 향상으로 전환! 하게 됩니다.

더불어 IoT 분야가 확장되면서 
빅데이터 저장 및 처리할 수 있는 서버의 수요가
자연스럽게 증가하였고, 클라우드 산업이 발전하게 됩니다.

<출처 : 하용호 Data Scientist, What will come next?>

결국 이게 도화선이 되어
빅데이터에 기반한 머신 러닝이 발달하게 됩니다.

<출처 : 하용호 Data Scientist, What will come next?>


이제까지 머신러닝에 대한 Overview 살펴보았습니다.

다음 편부터는 파이썬을 활용한 본격적인 머신러닝에 대해
알아보겠습니다. 감사합니다.^_^

댓글