프로젝트 동기 및 기획의도
1학년 1학기 동아리 프로젝트때 toughest sport 데이터셋을 활용해 스포츠들을 비교하는 시각화 작업을 진행했었습니다. 당시에는 스포츠들끼리의 비교에 그쳤지만, 이번에는 스포츠를 힘들게 하는 요인들과의 관계를 분석하고 싶다는 피드백과 호기심을 바탕으로 같은 데이터셋을 사용하여 프로젝트를 진행하게 되었습니다.
사용 환경
Google Colab
프로젝트 설명
toughest sport 데이터셋은 power, speed 등 스포츠의 힘든 요인을 나타내는 여러 특성의 수치를 합산한 total 점수를 바탕으로, total 점수가 높은 스포츠를 가장 힘든 스포츠로 분류하는 데이터셋입니다. 작년에 받았던 피드백 중 "어떤 특성이 가장 스포츠를 힘들게 하는지"에 대한 질문에 호기심을 자극하여, 이번 프로젝트에서는 먼저 각 특성들 간의 상관관계를 히트맵으로 시각화하였습니다. 그리고 total 점수와 밀접한 특성을 선형 회귀분석을 통해 회귀계수를 도출하고, mse를 통해 예측값과 실제값의 오차를 평가하였습니다.
개선방안 모색
다른 모델을 사용하여 기존 선형 회귀모델과의 성능을 비교하거나, 하이퍼파라미터 튜닝을 통해 모델 성능을 향상시키는 방법을 고려할 수 있습니다. 또한, 처음부터 다양한 요소가 포함된 데이터셋으로 작업을 진행하면 더 정밀한 분석이 가능할 것으로 보입니다.
감상
데이터셋에 스포츠를 힘들게 하는 특성과 스포츠들에 대한 데이터만 존재하여 활용할 데이터가 제한적이었지만, 이전에 해보고 싶었던 주제를 어느 정도 해소할 수 있어 만족스럽습니다.
시연


