본문 바로가기

책 요약 정리/핸즈온 머신러닝 2판

1장(머신러닝에 대한 개념학습) 요약 정리

머신러닝이란 데이터로부터 "학습"할 수 있는 시스템을 만드는 것이다.

학습이란 작업에서 주어진 성능지표를 더 나아지게 하는 것을 의미한다. 

 

머신러닝이 도움이 될 수 있는 문제 유형 4가지는 

1. 명확한 해결책이 없거나 복잡한 유형 2. 수작업으로 만든 규칙리스트를 대체할 경우에 해당하는 유형

3. 변화하는 환경에 적응 하는 시스템을 만들어야 할 유형 (Ex) 주식?) 4. 사람에게 통찰을 제공할 유형 (ex) "데이터 마이닝")

데이터 마이닝이란 대용량의 데이터를 기반으로 보이지 않는 패턴을 찾는 것 

 

머신러닝의 도전과제는

부족한 양, 낮은 품질, 대표성 없는 :  데이터.

과소 적합 과대 적합된 모델이다. 

 

과대 적합 : 훈련 데이터에 있는 잡음에 비해 모델이 너무 복잡할 때 일어난다. 

해결책 -

1. 샘플 (데이터)수를 늘린다. 2. 모델을 단순화한다. (모델에 규제를 건다. (L1, L2), 간단한 알고리즘 사용한다. 특성이나 파라미터를 줄인다.) 3. 훈련 데이터의 잡음을 줄인다. (이 상치 제거, 오류 데이터 수정)

 

과소 적합 : 훈련 데이터에 있는 잡음에 비해 모델이 너무 단순할 때 일어난다. 

1. 모델을 복잡화 한다. (모델 파라미터가 많은 강력한 모델 선택) 2. 학습 알고리즘에 더 좋은 특성 제공 (특성 공학)

3. 모델의 제약을 줄인다. (규제 하이퍼 파라미터 감소 )