-
[Kaggle 경진대회] Titanic: Machine Learning from DisasterMachine learning/Kaggle 2019. 3. 29. 21:58SMALL
[Kaggle 경진대회] Titanic: Machine Learning from Disaster
데이터 분석을 공부하거나 관련 직업을 가지고 있는 사람들이라면
한 번 쯤 들어봤거나 사용해본 사이트가 있을 것이다.
바로 Kaggle!
아무리 이론을 공부해도 실제로 적용해보지 않으면
기억에도 잘 남지 않을 뿐더러
올바른 방향으로 공부하고 있는지 알기 어렵다.
캐글에서는 기업들이 제공하는 데이터로 경진대회도 열어 가장 높은 확률로 예측한
사람이나 팀에게 상금을 주기도 한다.
진행중인 대회나 이미 종료된 대회일지라도 사이트에 올라온 데이터는
언제든 다운받아 쓸 수 있고, 데이터가 잘 정리되있는 편이어서
데이터 분석하기에 용이하다.
이미 끝난 대회의 경우 본인이 직접 예측한 분석결과를
캐글에 제출해서 채점할 수 있기 때문에 분석 방향을 잡을 수 있고
다양한 사람의 풀이도 볼 수 있을 뿐만 아니라 대회에서 우승한 사람의
고급(?)ㅋㅋ 코드도 볼 수 있다.
아무튼..! 아직 캐글을 시작하지 않은 사람은
유튜브나 다른 여러 자료들을 보고 따라하면서
시작해보길 추천한다!
캐글을 처음 시작하는 경우
튜토리얼처럼 시작하는 경진대회가 있는데
바로 Titanic: Machine Learning from Disaster 이다.
이 경진대회는 경험해보는게 중요하다고 생각하기 때문에
최대한 train 데이터를 그대로 살려서 분석해보려 한다.
Titanic: Machine Learning from Disaster
https://www.kaggle.com/c/titanic
Titanic competition description
타이타닉호에 탑승했던 승객 정보를 이용하여 어떤 승객이 생존할 수 있었는지를 예측
Evaluation
평가 점수는 테스트 데이터의 승객의 생존을 예측하여 정확도를 평가
제출 파일에는 PassengerID와 Survived 이 두 가지 컬럼이 포함되어 있어야 함
Data Set
-
training set (train.csv) - 학습 데이터
-
test set (test.csv) - 테스트 데이터
- submission (gender_submission.csv) - 제출 양식
Data download
data 탭(https://www.kaggle.com/c/titanic/data)으로 들어가서
download all 을 눌러 다운받거나 파일을 하나씩 다운받는다.
(다운받기 전 동의란이 나오는데 동의를 누르면 다운로드를 진행할 수 있다.)
Data Dictionary
Variable Definition Key Survival 생존 유무 0 = 사망, 1 = 생존 Pclass 티켓 클래스 1 = 1st, 2 = 2nd, 3 = 3rd Sex 성별 Age 나이 Sibsp 형제 자매 / 배우자 Parch 부모님 / 자녀 Ticket 티켓 번호 Cabin 캐빈 번호 Embarked 선착장 C = Cherbourg, Q = Queenstown, S = Southhampton
Machine learning algorithms: RandomForestClassifier, DecisionTreeClassifier
LIST댓글
-