랜덤포레스트를 활용한 필드하키 포지션 분류 가능성 분석
Copyright © The Korean Society for Precision Engineering
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract
Abstract The purpose of this study was to check the position classification prediction rate based on the movement data of field hockey players using the random forest algorithm. In order to achieve the purpose of this study, movement data were collected using wearable devices in 15 practice matches. The collected information was then analyzed using the Random Forest algorithm, one of the ensemble techniques, with Python, a high-level, general-purpose programming language. As a result of this study, first, the position classification prediction rate was 52.4±3.3% when data measured by GPS sensors were used. Second, when using the data measured by an inertial measurement unit (IMU) sensor, the position classification prediction rate was 50.8±2.4%. Third, when both Global Positioning System (GPS) and IMU data were used, the position classification prediction rate was 55.6±2.0%. As a result of the study, it showed that the prediction rate was the highest when both GPS and IMU data were used.
Keywords:
Random forest, GPS, IMU, Prediction rate, Position classification, Field hockey키워드:
랜덤포레스트, 위성항법장치, 관성센서, 예측률, 포지션 분류, 필드하키1. 서론
스포츠에서 경기력을 정확하게 예측하기 위해서는 다양한 변인들을 고려해야 되며, 기술적, 심리적, 생리학적 데이터가 요구된다[1]. 다양한 데이터는 엘리트 스포츠에서 팀 전략수립 및 마케팅, 스카우트를 위한 중요한 자료로 활용되고 있다[2]. 특히 구기 종목에서는 데이터를 활용하여 최적의 포지션 및 대체선수를 찾는 객관적인 자료로 활용하고 있기 때문에[3], 정확한 예측을 위해서는 종목별로 방대한 양의 데이터가 필요하며 다각적인 연구들이 필요하다.
정보통신기술의 발달로 인하여 컴퓨터, IT센서들을 활용하여 방대한 양의 데이터를 수집하고 분석이 용이해졌다[4]. 이로 인하여 다양한 분야에서 머신러닝(Machine Learning)을 활용하여 자동적으로 통계적 규칙이나 패턴, 예측모델 개발을 위한 연구들이 진행되고 있다[5]. 특히 머신러닝은 컴퓨터가 데이터를 기반으로 자동으로 학습하여 의사결정을 내리도록 훈련시키는 과정이다. 주로 활용되고 있는 알고리즘으로는 퍼셉트론(Perceptron), 로지스틱 회귀분석, 지지백터기계(SVM), K-최근접 이웃(k-NN) 등을 활용하여 종속변수와 상관성이 높은 변수 위주로 다양한 분야에서 결과를 예측하는 연구가 진행되어 왔다[6].
머신러닝의 장점은 의사결정의 우선순위를 지정하고 자동화하며, 실시간으로 입력되는 대량의 데이터를 처리하고 의사결정에 반영할 수 있다는 점이다. 이러한 특징은 1초당 약 1,000개의 데이터를 수집할 수 있고, 군집화와 패턴을 확인하여 경기력 향상을 위한 정보로 활용되는 스포츠분야에서 필요한 기술이다. 때문에 변수가 많아 경기력을 일반화하기 어려우며 경기결과를 쉽게 예측하기 어려운 스포츠에서 많은 연구가 필요하다.
이처럼 스포츠를 보다 정확히 예측하기 위해는 다양한 변인과 대량의 데이터가 요구되며 머신러닝을 진행하기 위해서는 단일 알고리즘 보다는 앙상블 기법을 활용하고 있다[7]. 랜덤 포레스트는 앙상블 학습방법의 일종으로 분류와 회귀분석을 위한 알고리즘으로 의사결정나무 알고리즘의 단점인 과적합 가능성을 극복하고 높고 안정적인 예측력을 갖는 것으로 알려져 있다[8]. 스포츠에서 머신러닝을 활용한 연구들은 경기력 향상, 결과예측, 부상예방에 대한 연구들이 진행되고 있다. 선행연구들을 살펴보면 신경망분석을 활용하여 2006 독일월드컵 대회의 승패예측 모형을 개발하여 87.5%의 예측률을 확인하였으며[9], 국내 남자 프로농구경기의 승패예측 모형에서 인공신경망과 로지스틱 회귀분석을 통하여 85% 이상의 예측률을 확인하였다[10]. 또한, 의사결정나무, 베이즈넷, 인공신경망, 앙상블 모델을 활용하여 승패예측을 하였는데 앙상블기법 중 배깅 기법에서 85.18%의 예측률을 확인하였다[11].
스포츠에서 선수들의 움직임을 정량화하는 방법은 크게 3가지가 있다. 첫 번째로 인공위성을 활용한 GPS (Global Positioning System), 자이로스코프(Gyroscope) 가속도계 지자계를 활용한 IMU (Inertial Measurement Unit) 센서, 카메라 영상을 통한 영상추적기술 등을 통해 선수들의 경기 중 움직임 정보를 실시간으로 수집하며 경기력분석 및 부상예방 등 다양한 분야에서 연구가 진행되고 있다[12]. 이처럼 움직임 정보는 스포츠에서 선수들의 경기력을 평가하는 중요한 데이터로 활용되고 있기 때문에 선수들의 특성을 반영할 수 있다.
따라서 본 연구는 앙상블 기법 중 하나인 랜덤포레스트 알고리즘을 활용하여 필드하키 선수들의 움직임 데이터를 기반으로 포지션 분류 예측률을 확인하고자 한다. 이를 통하여 향후 움직임 정보를 기반으로 포지션을 선정할 수 있는 기초자료를 제공하고자 한다.
2. 연구방법
2.1 연구대상
본 연구는 29명의 여자 하키 선수들을 대상으로 15번의 연습 경기에서의 움직임 정보를 수집하였다. 실험 전 선수들에게 연구의 목적과 실험 절차 등에 대한 설명을 하였다.
2.2 자료수집
본 연구는 15번의 필드하키 경기에서 선수들의 움직임 정보를 획득하였으며, 자료의 획득은 IMU 센서가 내장된 웨어러블 디바이스 기기(Vector, Catapult) 모델을 활용하였다. Fig. 1과 같이 경기시작 30분 전 주머니가 있는 조끼를 착용하고 웨어러블 디바이스를 넣어 고정하였으며, 경기가 끝난 후 디바이스를 수거하고 자료를 수집하였다.
2.3 연구변인
본 연구의 변인은 Table 1과 같다. 먼저 GPS센서로 측정되는 변인으로는 6개 구간별 이동거리와 구간별 이동비율, 최고속도(Velocity, km/h), 1분당 이동거리(Meter per min)를 활용하였으며, IMU센서로 측정되는 변인은 3축 가속도 움직임 값(Playerload)과 1분당 3축 가속도 움직임 값(Playerload per min), 강도별 가속과 감속 횟수를 활용하였다.
2.4 자료처리 및 통계분석
15번의 연습경기에서 나타난 움직임을 정량화하기 위하여 Microsoft Excel (Microsoft, Redmond, WA, USA) 소프트웨어에서 쿼터별, 포지션별로 분류하여 총 949개의 움직임 데이터를 추출하였다. 정확한 분류를 위해 파이썬 버전 3.7 (Python Software Foundation, NED)을 사용하여 다중공선성의 문제가 없는 VIF (Variance Inflation Factor) 값은 10 이하인 22개의 요인 만을 사용하였다.
데이터를 정규화하기 위해 Z값(z-score)으로 변화시키고, 학습데이터와 검증데이터의 비율은 80 : 20으로 설정하였으며, 정확성을 검증하기 위하여 K-fold 교차검증을 10회 실시하여 최종 예측률을 확인하였다.
Hyperparameter는 성능을 최적화하거나 편향(Bias) 과 분산(Variance) 사이의 균형을 맞출 때 알고리즘을 조절하기 위해 사용하며, 학습 전에 미리 사용자에 의하여 조정되어야 하며, 본 연구에서는 2-10까지 넣어 가장 높은 예측률을 확인하였다.
정확도(Accuracy)는 전체 데이터 중에서 실제로 A or B를 정확하게 예측한 비율을 설명하는 값이며, F1-score는 예측모델의 성능을 평가할 수 있는 지표이다. 정밀도(Precision)는 모델에서 A로 분류한 데이터 중 실제로 A분류된 비율이며, 재현율은 실제 A인 데이터에 대하여 모델에서 A로 정확하게 예측한 비율이다.
3. 연구결과
3.1 GPS데이터
Table 3은 GPS로 측정된 데이터를 활용하여 예측한 결과이다. 전체 949개의 데이터 중에서 테스트를 위하여 20%인 190개의 데이터를 활용하였다. 이 중 포지션이 Forward인 데이터 48개, Midfield 90개, Defender 52개가 활용되었다.
먼저 Forward의 예측결과를 보면 Precision 50%, Recall 2%, F1-score 4%로 나타났으며, Midfield의 예측결과를 보면 Precision 51%, Recall 91%, F1-score 66%로 나타났다. Defender는 Precision 75%, Recall 35%, F1-score 47%로 나타났으며, 알고리즘의 예측 정확성은 정확도는 54%로 확인되었다.
Fig. 1은 GPS데이터의 적합성을 판단하기 위한 그림으로 훈련 데이터의 샘플 수에 따른 정확성을 나타낸 그림이다. 학습데이터와 검증데이터의 일치율을 확인한 결과 500개 이상의 데이터에서 훈련 데이터와 검증 데이터의 과대적합은 피하나 정확성은 60% 이하로 나타났다.
Table 4는 K-fold 교차검증으로 모든 데이터가 최소 1 번은 테스트셋으로 쓰이도록 하여 10번의 테스트 결과 평균 정확도는 0.524±0.033으로 나타나 52.4±3.3%의 예측률로 확인되었다.
3.2 IMU 데이터 예측률
Table 5은 IMU로 측정된 데이터를 활용하여 예측한 결과이다. 전체 949개의 데이터 중에서 테스트를 위하여 20%인 190개의 데이터를 활용하였다. 이 중 포지션이 Forward인 데이터 48개, Midfield 90개, Defender 52개가 활용되었다.
먼저 Forward의 예측결과를 보면 Precision 35%, Recall 15%, F1-score 21%로 나타났으며, Midfield의 예측결과를 보면 Precision 50%, Recall 84%, F1-score 63%로 나타났다. Defender는 Precision 47%, Recall 15%, F1-score 23%로 나타났으며, 알고리즘의 예측 정확성은 정확도는 48%로 확인되었다.
Fig. 2은 IMU데이터의 적합성을 판단하기 위한 그림으로 훈련 데이터의 샘플 수에 따른 정확성을 나타낸 그림이다. 학습데이터와 검증데이터의 일치율을 확인한결과 300개 이상의 데이터에서 훈련 데이터의 정확성과 검증 데이터의 과대적합은 피하나 훈련데이터와 검증데이터의 정확성은 60% 이하로 낮아지는 경향을 보였다.
Table 6은 K-fold 교차검증으로 모든 데이터가 최소 1번은 테스트셋으로 쓰이도록 하여 10번의 테스트 결과 평균 정확도는 0.508±0.024으로 나타나 50.8±2.4%의 예측률로 확인되었다.
3.3 GPS+IMU 데이터
Table 7은 GPS로 측정된 데이터를 활용하여 예측한 결과이다. 전체 949개의 데이터 중에서 테스트를 위하여 20%인 190개의 데이터를 활용하였다. 이 중 포지션이 Forward인 데이터 48개, Midfield 90개, Defender 52개가 활용되었다.
먼저 Forward의 예측결과를 보면 Precision 67%, Recall 4%, F1-score 8%로 나타났으며, Midfield의 예측결과를 보면 Precision 51%, Recall 97%, F1-score 67%로 나타났다. Defender는 Precision 83%, Recall 29%, F1-score 43%로 나타났으며, 알고리즘의 예측정확성은 정확도는 55%로 확인되었다.
Fig. 3은 GPS+IMU 데이터의 적합성을 판단하기 위한 그림으로 훈련 데이터의 샘플 수에 따른 정확성을 나타낸 그림이다. 학습데이터와 검증데이터의 일치율을 확인한 결과 550개 이상의 데이터에서 훈련 데이터의 정확성과 검증 데이터의 과대적합은 피하나 훈련데이터와 검증데이터의 정확성은 60% 이하로 낮아지는 경향을 보였다.
Table 8은 K-fold 교차검증으로 모든 데이터가 최소 1번은 테스트셋으로 쓰이도록 하여 10번의 테스트 결과 평균 정확도는 0.556±0.020으로 나타나 55.6±2.0%의 예측률로 확인되었다.
4. 고찰
스포츠분야에서 데이터를 활용한 머신러닝 적용은 승패예측, 부상예측과 같은 연구들이 시도되고 있지만, 최적의 결과를 얻지 못하고 있다[13]. 이는 스포츠는 각각의 종목마다 특성이 있으며, 경기결과에 영향을 미치는 요인이 많다. 이에 정확한 예측을 위해서는 방대한 양의 데이터가 뒷받침되어야 한다. 이에 본 연구는 스포츠경기 중 웨어러블 디바이스로 측정되는 움직임 데이터를 기반으로 포지션분류를 연구한 결과에 대한 고찰은 다음과 같다.
4.1. 분류 예측률
팀 스포츠경기에서 포지션은 경기장에서 자신의 위치이며, 위치에 따른 행동능력이 요구된다. 필드하키는 11명이 경기에 들어가서 각자의 포지션에 맞게 경기를 하지만, 축구와 달리 오프사이드가 없어 공격수와 미드필드 선수들은 상대 수비수의 위치에 관계없이 빈공간을 찾아서 움직인다. 이러한 특성 때문에 데이터에서 Forward와 Midfield의 데이터 차이가 분류되지 못했기 때문에 Forward의 Recall 값이 낮게 나온 것으로 사료된다.
포지션을 분류하기 위한 연구들을 보면 선수들의 기술적인 요인들을 기반으로 분류되었지만, 본 연구에서는 GPS와 IMU센서로 측정되는 움직임 정보를 기반으로 포지션의 특성을 분류했기 때문에 뚜렷한 특성이 분류되지 못한 것으로 보인다. 이는 스포츠에서 선수들의 움직임에 대한 차이가 크게 없으며 변수의 특성이 이동거리와 속력에 대한 값이기 때문으로 사료된다. 따라서 경기전체에 대한 움직임 보다는 상황에 따른 움직임 정보를 수집해서 분류한다면 보다 포지션별 특성 차이가 나타날 것으로 사료된다.
4.2. 학습데이터의 양
머신러닝을 진행할 때 일반적으로 데이터셋의 크기는 다양하지만 일반적으로 10,000개의 데이터셋이 요구된다[14]. 하지만 스포츠에서 10,000개 이상의 데이터를 수집하기에는 어렵다. 특히, 필드하키 종목은 한국에서 비인기 종목이며, 데이터를 수집하기 위한 경기의 수도 한정적이기 때문에 선수들의 움직임 데이터를 수집하기에는 한계가 있다. 또한, 골키퍼 포지션은 큰 움직임이 없기 때문에 골키퍼를 제외한 필드선수만을 대상으로 진행했기 때문에 더욱 데이터의 양이 부족하였다. 때문에 본 연구 결과에서 포지션 예측률을 60% 이하로 나타난 것으로 보인다.
5. 결론
본 연구는 필드하키 경기에서 발생되는 움직임 정보를 두가지 센서로 측정된 데이터를 기반으로 포지션 분류 예측률을 비교하고, 활용가능성을 목적으로 연구되었다.
15번의 연습경기에서 측정된 949개의 데이터를 바탕으로 앙상블 모델 중 하나인 랜덤 포레스트를 활용하여 예측률을 확인 하였으며, 연구결과를 토대로 도출한 결론은 다음과 같다.
첫째, GPS센서로 측정된 데이터를 활용하였을 때 포지션 분류 예측률은 52.4±3.3%로 나타났다.
둘째, IMU센서로 측정된 데이터를 활용하였을 때 포지션 분류 예측률은 50.8±2.4%로 나타났다.
셋째, GPS와 IMU 데이터를 모두 활용하였을 때 포지션 분류 예측률은 55.6±2.0%로 나타났다.
스포츠에서 움직임 데이터를 측정할 수 있는 센서 중 GPS와 IMU센서 두 가지 모두 활용하였을 때 높은 예측률을 확인하였지만 결론적으로 예측률이 낮아 향후 연구에서는 더 많은 사례 수를 5000개 이상으로 추가하고 기술적인 변인도 함께 고려하여 연구된다면 보다 높은 예측률이 기대된다.
Acknowledgments
본 과제(결과물)는 2022년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기반 지역혁신 사업의 결과입니다(2022RIS-005).
REFERENCES
- Yun, Y., Lee, Y., (2006), Hierarchical importance and structure of factors in football performance, Korean Journal of Sport Psychology, 17(4), 87-100.
- Cho, J. H., (2012), Utilization and prospect of sport big data, The Korean Journal of Measurement and Evaluation in Physical Education and Sports Science, 14(3), 1-11. [https://doi.org/10.21797/ksme.2012.14.3.001]
- Hong, J., Park, J., (2016), Analysis athletic performance assessment factors and importance based on handball players' Position, Korean Journal of Sports Science, 25(4), 1443-1454.
- Sung, J. H., Cho, Y. S., (2019), Machine learning approach for pattern analysis of energy consumption in factory, Korea Information Processing Society, 8(4), 87-92.
- Jeong, D., Jeong, W., (2019), Prediction of rolling noise based on machine learning technique using rail surface roughness data, Journal of the Korean Society for Railway, 22(3), 209-217. [https://doi.org/10.7782/JKSR.2019.22.3.209]
- Yi, J. H., Lee, S. W., (2020), Prediction of english premier league game using an ensemble technique, KIPS Transactions on Software and Data Engineering, 9(5), 161-168.
- Buyrukoğlu, S., Savaş, S., (2023), Stacked-based ensemble machine learning model for positioning footballer, Arabian Journal for Science and Engineering, 48(2), 1371-1383. [https://doi.org/10.1007/s13369-022-06857-8]
- Ko, T., Yang, H., Syed., Kim, M., Choo, H., (2020). Prediction of change in network traffic with random forest. Proceedings of the Korean Institute of Information Scientists and Engineers, Collection of Academic Presentations, 637-639.
- Kim, J. H., Ro, G. T., Park, J. S., Lee, W. H., (2007), The development of soccer game win-lost prediction model using neural network analysis: FIFA world cup 2006 Germany, Korean Journal of Sport Science, 18(4), 54-63. [https://doi.org/10.24985/kjss.2007.18.4.54]
- Gu, S. H., Kim, H. S., Jang, S. Y., (2009), A comparison study on the prediction models for the professional basketball games, Korean Journal of Sport Science, 20(4), 704-711. [https://doi.org/10.24985/kjss.2009.20.4.704]
- Kim, W., Choi, Y., Yoo, D., (2018), Development of win-loss prediction models and strategies for improving winning rate of the Korean professional baseball teams using data mining techniques, Korea Journal of Sport Management, 23(3), 88-104. [https://doi.org/10.31308/KSSM.23.3.6]
- Lee, H., Kim, J., (2019), Application of electronic performance tracking system (EPTS) for dance evaluation of dancers and prediction model of injury prevention, The Journal of Sport, 17(4), 1597-1607.
- Kim, J., Cho, S., Kang, J., (2022), A study on optimization of convolutional neural network (CNN) for win-loss prediction of baseball game, Korean Society of Measurement and Evaluation for Physical Education and Sports Science, 24(4), 153-165.
- Benkendorf, D. J., Hawkins, C. P., (2020), Effects of sample size and network depth on a deep learning approach to species distribution modeling, Ecological Informatics, 60, 101137. [https://doi.org/10.1016/j.ecoinf.2020.101137]
Sports Science Center for National Team, Korea Institute of Sports Science, Researcher. His research interest is sports performance analysis.
E-mail: amdykje@naver.com
Professor in the Department of Sports Coaching, Catholic Kwandong University. His research interest is measurement and evaluation for physical education and sports science.
E-mail: shlee8283@cku.ac.kr
Sports Science Center for National Team, Korea Institute of Sports Science, Researcher. His research interest is sports data analysis.
E-mail: jeonghd@sportsmatics.co.kr