본문 바로가기

Kaggle/Titanic : Machine Learning from Disaster

① Kaggle 주제 소개


Kaggle


Kaggle은 2010년도에 설립된 예측모델 및 분석 대회 플랫폼입니다. 

kaggle에 Competitions에는 주제가 정해지고 그에 맞는 데이터를 제공함으로써  많은 팀들이 참여해 원하는 결과를 추출해 대결을 합니다.

좋은 성적을 거둔 팀은 상금을 받습니다.



Datasets에는 따로 주제가 정해지지 않아서 자유롭게 주제를 선정하고 결과를 추출하면 됩니다.

아니면 데이터셋을 공유할 수도 있습니다.


캐글 페이지 주소 (https://www.kaggle.com/)


선택한 주제는 Titanic : Machine Learning from Disaster 입니다. 

Binary classification으로 처음 해보는 사람들이 하기 좋은 주제입니다. 프로그래밍 언어는 Python을 사용했습니다. 


주제는 실제로 타이타닉 호에서 어떤 특징을 지닌 사람들이 생존하는지 예측하는 것 입니다.


제공하는 데이터셋은 Training set은 891개 Test set은 418개 데이터를 제공받았습니다.

Features는 PassengerId, Survival, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked


 PassengerId

 인덱스

 Survival

 생존 여부 ( 0 = 죽음 / 1 = 생존 )       * training_set에만 존재

 Pclass 

 객실 등급  ( 1st = 1등급 / 2nd = 2등급 / 3rd = 3등급 )

 Name 

 승객 이름 

 Sex 

 성별 ( male / female )  

 Age 

 나이 

 SibSp 

 형제자매나 배우자

 Parch

 부모나 아이들

 Ticket

 티켓 번호

 Fare

 승객 요금

 Cabin

 객실 번호

 Embarked

 탑승 항구 ( S = Southampton / C = Cherbourg / Q = Queenstown )


반응형