Kaggle
Kaggle은 2010년도에 설립된 예측모델 및 분석 대회 플랫폼입니다.
kaggle에 Competitions에는 주제가 정해지고 그에 맞는 데이터를 제공함으로써 많은 팀들이 참여해 원하는 결과를 추출해 대결을 합니다.
좋은 성적을 거둔 팀은 상금을 받습니다.
Datasets에는 따로 주제가 정해지지 않아서 자유롭게 주제를 선정하고 결과를 추출하면 됩니다.
아니면 데이터셋을 공유할 수도 있습니다.
캐글 페이지 주소 (https://www.kaggle.com/)
선택한 주제는 Titanic : Machine Learning from Disaster 입니다.
Binary classification으로 처음 해보는 사람들이 하기 좋은 주제입니다. 프로그래밍 언어는 Python을 사용했습니다.
주제는 실제로 타이타닉 호에서 어떤 특징을 지닌 사람들이 생존하는지 예측하는 것 입니다.
제공하는 데이터셋은 Training set은 891개 Test set은 418개 데이터를 제공받았습니다.
Features는 PassengerId, Survival, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked
PassengerId |
인덱스 |
Survival |
생존 여부 ( 0 = 죽음 / 1 = 생존 ) * training_set에만 존재 |
Pclass |
객실 등급 ( 1st = 1등급 / 2nd = 2등급 / 3rd = 3등급 ) |
Name |
승객 이름 |
Sex |
성별 ( male / female ) |
Age |
나이 |
SibSp |
형제자매나 배우자 |
Parch |
부모나 아이들 |
Ticket |
티켓 번호 |
Fare |
승객 요금 |
Cabin |
객실 번호 |
Embarked |
탑승 항구 ( S = Southampton / C = Cherbourg / Q = Queenstown ) |
'Kaggle > Titanic : Machine Learning from Disaster' 카테고리의 다른 글
② 데이터 분석 및 전처리 (0) | 2018.11.27 |
---|