Machine learning
-
SVM(Support Vector Machine) 서포트 벡터 머신Machine learning/Algorithms 2020. 11. 28. 09:30
SVM 서포트 벡터 머신은 머신 러닝 모델 중 가장 많은 계산을 필요로하는 모델 중 하나이다. 특히 이 모델은 차원 수가 많아서 다른 머신러닝 모델이 작 적용되지 않는 데이터셋에서 좋은 성능을 보여줄 수 있다. 1. SVM이란 SVM은 각 영역에서 가장 균일한 점을 생성하는 다차원 공간(hyperplane, 초평면)에 표시되는 다양한 유형의 데이터 점 간의 경계를 최대화하는 표면을 찾는 모델이다. 어떤 데이터 유형이라도 사용 가능하며 차원이 높은 데이터에서 특히 이점을 갖는다. 2. SVM 모델 종류 1) Maximum margin classifier 최대 마진 분류기 최대 마진 분류기는 분리 폭의 margin이 최대를 갖는 초평면을 구함으로써 분류한다. 빨간 동그라미와 파란 동그라미를 구분할 수 있는 ..
-
Tree-based Machine Learning Models 트리 기반 모델 2Machine learning/Algorithms 2020. 11. 12. 10:05
저번 포스팅에서 트리 기반 모델에 대한 기본적인 이해를 정리해 보았고 이번 포스팅에서는 트리 기반 모델의 앙상블 기법에 대해 알아보도록 한다. 1. Bagging Classifier Bagging Classifier는 Tree Classifier의 high variance 및 low bias 문제를 보완하고자 반복 샘플링 및 정확환 결과 집계를 활용한 모델이다. Bagging은 모든 열 / 변수를 선택하고 각 샘플에 대해 개별 트리를 맞추면서 행을 샘플링한다. 각 샘플에 대해 랜덤으로 특정 행이 선택되지만 열(변수)은 모두 선택된다. 1-1. Bagging Classifier 예제 (Decision Tree Model과 비교) 1) Bagging classifier 모델 생성 및 학습 from sklea..
-
Tree-based Machine Learning Models 트리 기반 모델 1Machine learning/Algorithms 2020. 11. 11. 15:16
Decision tree, Bagging, Random forest, Boostring등 현재 업계에서 많이 사용되는 트리 기반 모델에 대해 알아본다. 1. 트리기반 모델이란? 트리기반 의사 결정 모델은 feature space를 여러 개의 영역으로 나누는 것을 목표로 동작하는 알고리즘이다. feature space를 평균(회귀) 또는 모드(분류)를 기반으로 주어진 관찰에 대한 예측을 수행한다. 2. 트리 기반 모델의 평가 척도 트리기반 의사 결정 모델은 Impurity(불순도)로 측정되며 설정된 불순도 기준에 따라 변수가 Stopping criteria(중지 기준)에 도달할 때까지 반복적으로 분할한다. 불순도 측정 척도는 크게 세 가지가 이용된다. 1) Entropy 엔트로피 샘플이 완전 균질하면 엔트..
-
통계학의 선형회귀분석과 머신러닝의 Ridge, Lasso 회귀 모델 비교Machine learning/Algorithms 2020. 11. 10. 17:30
1. 통계학 모델링과 머신러닝 모델링의 주요 차이점 Statistics modeling Machine learning 방정식 형태로 변수 간의 관계를 공식화함 규칙 기반이 아닌 데이터에서 학습할 수 있는 알고리즘 데이터에 대한 모델 피팅 수행 전에 모델 곡선의 모양을 가정해야함 제공된 데이터를 기반으로 복잡한 패턴을 자동으로 학습할 수 있으므로 기본 형태를 가정할 필요 없음 85%의 정확도와 95%의 신뢰도로 output을 예측함 85%의 정확도로 output을 예측함 모델링에서 P 값과 같은 다양한 매개변수 진단이 수행됨 통계적 진단 테스트를 수행하지 않음 데이터는 train, test를 수행하기 위해 70-30%로 분할됨 학습 데이터에서 개발되고 테스트데이터에서 테스트된 모델 데이터는 train, v..
-
Supervised learning(지도 학습) VS Unsupervised learning(비지도 학습)Machine learning/Algorithms 2019. 6. 17. 16:41
2019/06/17 - [Machine learning/Algorithms] - What is machine learning? 저번 포스팅에 이어 이번 포스팅에는 머신러닝의 두 가지 종류인 Supervised learning과 Unsupervised learning에 대해 작성해보려 한다. 지도학습이란, 머신러닝을 학습시킬 때 사용하는 데이터 셋의 각 데이터마다 정답이 표시되어 있는 학습방법을 말한다. 예를 들어, 사과 사진을 보여주고 "사과"라고 말해주는 것이다. 이 지도학습은 또 다시 두 가지로 나눌 수 있다. 분류(Classification)와 회귀(Regression) 이다. 분류(Classification)는 0 또는 1, 악성 또는 양성 등과 같이 불연속적인 값들을 예측하는 것이다. 강의에서 ..
-
What is machine learning?Machine learning/Algorithms 2019. 6. 17. 15:50
머신러닝을 공부하기 시작할 때, 가장 먼저 들었던 수업은 Andrew Ng교수님의 "Machine Learning" 이었다. 앤드류 교수님의 특징인 나긋함과 섬세함으로 강의가 진행되고 처음 머신러닝 공부를 시작할 때 듣는 사람도 이해할 수 있을 정도의 난이도라 편하게 이해할 수 있었다. 그 수업을 통해서 머신러닝, 딥러닝의 기본적인 개념들을 쉽게 이해하고 정리할 수 있었다. 그 때 정리했던 노트들을 오랜만에 발견하고 그 내용을 적어보려 한다. 처음 강의 내용은 머신러닝이 무엇인지에 관한 내용이다. "What is machine learning?" 이라는 질문에 답하는 형신인데, 앤드류 교수님은 Tom Mitchell의 말을 인용하여 설명해 주셨다. "A computer program is said to ..
-
[Kaggle 경진대회] Titanic: Machine Learning from DisasterMachine learning/Kaggle 2019. 3. 29. 21:58
[Kaggle 경진대회] Titanic: Machine Learning from Disaster 데이터 분석을 공부하거나 관련 직업을 가지고 있는 사람들이라면 한 번 쯤 들어봤거나 사용해본 사이트가 있을 것이다. 바로 Kaggle! 아무리 이론을 공부해도 실제로 적용해보지 않으면 기억에도 잘 남지 않을 뿐더러 올바른 방향으로 공부하고 있는지 알기 어렵다. 캐글에서는 기업들이 제공하는 데이터로 경진대회도 열어 가장 높은 확률로 예측한 사람이나 팀에게 상금을 주기도 한다. 진행중인 대회나 이미 종료된 대회일지라도 사이트에 올라온 데이터는 언제든 다운받아 쓸 수 있고, 데이터가 잘 정리되있는 편이어서 데이터 분석하기에 용이하다. 이미 끝난 대회의 경우 본인이 직접 예측한 분석결과를 캐글에 제출해서 채점할 수 ..