当前位置:首页 > 百科 > 正文内容

第14章:数据驱动的足球分析方法--《体育、运动与健康领域的人工智能》

施怜梦8个月前 (10-10)百科24
印刷厂直印●彩页1000张只需要69元●名片5元每盒-更多报价➦联系电话:138-1621-1622(微信同号)

01

主要内容介绍(如果喜欢本文的话欢迎您帮我传播!)

1. 核心观点

• 阐述在足球分析中利用数据驱动方法的潜力,核心是建立数据驱动的管道,涵盖数据收集、转换、处理和分析,为决策提供支持,介绍人工智能与体育科学结合带来的机遇。

2. 数据驱动方法介绍

• 定义:在人工智能范畴内,依靠数据支持决策、获取洞察并提升系统性能的方法,利用数据集训练机器学习模型、提取模式并生成预测。

• 在体育科学中的变革:体育科学因数据驱动方法发生深刻变革,从传统方法转向依赖数据分析、机器学习和先进传感技术,以解决运动表现、伤病预防和教练策略等问题。

• 在足球中的应用

• 优化决策:足球因球员互动复杂和数据丰富成为焦点,数据驱动方法可优化球员表现、预防伤病、制定战略决策,还能分析对手策略、提升球队动态。

• 伤病预防和球员健康:监测身体状况、工作量和恢复模式,预防伤病。

• 比赛分析:教练和分析师利用数据了解比赛模式、球员位置和球队阵型,制定战术。

• 球迷体验:提供高级分析、统计和可视化,加深球迷对比赛理解。

• 人才识别和球员招募:俱乐部通过数据评估球员表现、潜力和适配度。

3. 数据收集

• 历史发展

• 20世纪60年代起开发了一系列工具,早期通过量化球员步长、拍摄分析球员移动,虽有误差但能记录比赛数据。

• 20世纪90年代末和21世纪初,开发出确定球员场上位置的方法,收集来自全球定位系统、局部定位系统和视频跟踪系统的数据。

• 数据类型及收集方式

• 视频 - 基于系统

• 早期受相机分辨率限制,后来随着技术进步,开发出多种跟踪球员的方法,包括自动跟踪、基于阈值和霍夫变换的方法、从电视广播图像跟踪等,但存在局限性,如手动干预高、图像分割耗时等。近年来深度学习和机器视觉算法推动了分析发展,可用于多种应用。

• 时间序列

• 数据按固定时间间隔记录,包含球员跟踪、得分、生理指标等信息,有季节性和长期趋势等模式,可通过多种传感器收集,如GPS、加速度计、心率监测器等。

• 表格数据

• 信息以行列结构组织,适用于分析和计算,可用于创建机器学习模型,如球员统计、比赛数据、团队表现指标和伤病记录等。

• 图形表示

• 将球员建模为顶点,关系为边,用于传球交换分析和战术分析。

4. 处理和分析技术

• 数据预处理

• 目标是提高数据质量,处理缺失值、噪声、归一化等问题,包括处理缺失值(删除或插补方法)、数据清理(去除无关信息、纠正错误)、归一化和标准化(转换分类变量为数值)、特征工程(创建或转换特征)、处理不平衡数据、降噪以及频繁模式分析预处理等。

• 数据可视化

• 可在数据驱动管道的多个阶段进行,如通过探索性数据分析了解数据分布,用多种图表展示性能指标,进行球员轨迹映射,支持比赛决策和赛后分析等。

• 数据建模

• 监督学习:通过标记数据集学习输入输出映射,包括回归(预测数值)和分类(分类别)任务,有多种算法,如线性回归、支持向量机等,还介绍了人工神经网络在足球分析中的应用。

• 无监督学习:从无标记数据中提取模式,包括聚类(如K - Means、DBSCAN)和关联规则挖掘(如Apriori、FP - growth)。

• 半监督学习:利用标记和无标记数据训练模型,适用于标记数据有限的情况,有自我训练、协同训练和多视图学习等策略。

5. 应用

• 足球分析方法从简单统计到复杂数据处理,包括主成分分析和K - Means聚类用于识别获胜球队,将球员动作与场地位置关联进行战术分析,用时间序列分析球队战术行为,以及通过数据可视化工具描述球员行为等。

6. 结论

• 人工智能范畴内的数据驱动方法对足球产生深远影响,优化球员表现、预防伤病、辅助决策,足球作为动态且数据丰富的领域,将持续受益于数据驱动革命。

下面就是全文啦

评论区每一条留言我都会看,会回复的!

第14章:数据驱动的足球分析方法作者:西尔维奥·巴尔邦(Sylvio Barbon Junior),费利佩·阿鲁达·莫拉(Felipe Arruda Moura),里卡多·达席尔瓦·托雷斯(Ricardo da Silva Torres)摘要

本章深入探讨了利用数据驱动方法进行足球分析的潜力。特别是足球,因其复杂的球员互动和丰富的数据源,成为应用这些方法的理想领域。本章的核心概念是围绕在足球和体育科学中建立一个数据驱动的流程。这个流程自动化了数据的收集、转换、处理和分析,创建了一个从原始数据到有洞察力的决策的系统流程。我们旨在全面概述数据驱动技术如何革新足球表现分析。本章涵盖了人工智能(AI)与体育科学融合所带来的前景和可能性,为优化运动员和团队表现提供了路线图。

关键词

足球分析;数据科学;人工智能;机器学习;深度学习

14.1数据驱动方法简介

人工智能(AI)范畴内的数据驱动方法是指严重依赖数据来支持决策、获取洞察并提高系统性能的方法。这些方法利用大量数据集来训练机器学习模型、提取模式,并根据收集的数据生成预测或决策。特别是体育科学领域,在前沿数据驱动方法的推动下经历了深刻的变革。这种范式转变代表了与传统方法的背离,因为研究人员和从业者越来越依赖数据分析、机器学习以及先进的传感技术(例如可穿戴设备)来解开运动表现、伤病预防和教练策略的复杂性。

对于工程师来说,足球中的数据驱动解决方案是指数据分析、传感器技术和计算方法的创新整合,以优化球员表现、预防伤病和进行战略决策(Gamble等人,2020)。特别是足球,由于比赛的复杂性,其特点是动态的球员互动,传统分析难以全面捕捉,因此成为数据驱动方法的焦点。这项运动提供了丰富的数据源,包括通过GPS设备对球员的跟踪、视频片段以及详细的比赛统计数据,为复杂的分析提供了坚实的基础(Goes等人,2021a,b)。技术的进步,如可穿戴传感器和高分辨率摄像机,使得数据收集更加容易,使足球队能够实施先进的方法进行实时和赛后分析。在竞争激烈的足球世界中,球队不断寻求战略优势,数据驱动方法为了解对手策略、优化球员表现以及增强整体团队动态提供了见解。

本质上,足球采用基于数据处理流程的数据驱动方法来支持竞争优势。一个数据驱动的流程,也称为数据管道,是指一系列被编排用来自动化数据的收集、转换、处理和分析的过程和工具。数据驱动流程的目标是高效且可靠地将数据从不同来源移动到目的地,使其可用于分析、决策和其他应用。这个概念在数据工程、数据科学和商业智能领域尤为普遍。

▲ 图14.1数据驱动的足球分析的一般流程

数据可视化提供从分析中获得的见解;结果通常使用图表、图形、仪表盘或其他可视化表示来呈现。可视化工具帮助教练、分析师和利益相关者解释复杂数据并做出明智决策。另一方面,预测建模阶段涉及数据科学家和体育分析师应用技术。机器学习模型、统计模型和特定领域的算法被用来从处理后的数据中获取可操作的见解。这些模型有各种用途,包括预测伤病、分析球员属性、进行战术分析以及解决体育科学的其他方面问题。这两个阶段构成了决策支持工具,帮助教练、分析师和利益相关者做出与球员发展、比赛策略和整体团队表现相关的明智决策。

14.2数据收集

自20世纪60年代以来,为了对运动员在比赛和训练情况下的表现进行定量分析,已经开发了一系列手动和计算工具(Hughes和Franks,1997;Reep和Benjamin,1968)。最早试图分析球员在场上移动的研究采用了一种方法,首先是量化不同速度下足球运动员的步长。然后,研究人员拍摄了比赛中所有运动员的移动,并使用这些图像估计球员在每个速度下走了多少步。尽管这种数据收集方式存在固有的误差,例如过程的手动性质,但作者能够提供当时职业足球运动员在整场比赛中跑动距离的记录(Reilly,1976;Withers,1978)。

在20世纪90年代末和21世纪初,开发了几种方法,其主要目的是确定球员在场上随时间变化的位置。一旦确定了球员的位置,首先就能够更准确地量化运动员的身体表现变量,如跑动距离和速度。在那个时期,最早的研究从全球定位系统、局部定位系统和基于视频的跟踪系统收集数据。最近的一项调查(Rico - González等人,2020)发现,基于光学的系统、全球定位系统/全球导航卫星系统以及局部定位系统在专注于集体行为评估的研究中分别占60%、33%和7%。下面简要介绍这些系统。

14.2.1基于视频的系统

为了改进跟踪方法,Figueroa等人(2006b)提出了一种基于至少四个静态摄像机的方法,这些摄像机一起覆盖整个球场。每个摄像机都有其独特的图像分割方法,与文献中报道的方法不同(Choi和Seo,2014;Martín和Martínez,2014;Xu等人,2004),通过基于非参数形态学平整操作进行背景提取(该操作处理比赛期间场景中光照变化的特定问题)(Figueroa等人,2006a)。通过考虑球员模型和特定的形态学操作,通过分割团块来处理遮挡问题。分割过程使用图表示法进行,其中节点由球员的团块表示,边根据关于团块的信息定义,如团块之间的距离、颜色和移动方向。尽管应用研究(Barros等人,2007;Moura等人,未注明日期)使用这种方法报告的最佳自动跟踪率为94%,但一般来说,手动操作员干预过高且容易出错。此外,考虑到图像的空间和时间分辨率以及可用的计算资源,图像分割可能需要几个小时。在这个意义上,深度学习和机器视觉算法的最新进展允许基于自动分割和/或检测固定摄像机和电视广播来捕获相关数据(例如位置数据)。这些领域的发展促进了基于大量数据的扩展分析。使用机器视觉进行足球分析在多个应用中取得了最先进的结果(Manafifard等人,2017),从盘带检测(Barbon等人,2022)到基于时空模式的成功动作预测(Stival等人,2023)。最近,研究提出了姿态检测的概念,这是由与肢体运动学和估计动力学相关的生物力学研究问题所激发的,在足球中有相关应用(Monteiro等人,2022)。

14.2.2时间序列

时间序列数据由按固定时间间隔记录的数据点序列组成,展示了变量随时间的演变。每个数据点都与一个特定的时间戳或时间段相关联,形成一个时间顺序。数据的粒度由连续观察之间的时间间隔决定,例如足球比赛中每秒记录的球员跟踪数据。个体观察,如得分、球员位置、球的轨迹或生理指标,在特定的时间点被捕获,这为数据集的动态性质做出了贡献。

时间序列数据中明显存在季节性和长期趋势等时间模式。季节性模式揭示了在特定时间段内反复出现的趋势,例如由于天气条件或球员状态等因素,球队在某些季节表现不同。长期趋势则描绘了球队在较长时期内表现的逐渐改进或变化,受到战略调整或球员发展的影响。

事件序列,即捕捉事件发生的顺序,可以包括球员的移动,如盘带(Barbon等人,2022),为比赛中的动态构建提供了见解。每个数据观察都伴随着一个时间戳,指示球员表现指标或其他变量何时被记录。周期性事件,如联赛赛季中每周安排的比赛,为时间序列数据的结构化性质做出了贡献。

各种各样的传感器被用来捕获全面的数据。球员佩戴的通用定位系统(GPS)追踪器在训练和比赛期间提供关于他们的位置、跑动距离、速度和加速度的实时数据(Buchheit等人,2014)。可穿戴加速度计通过测量加速度、减速度和方向变化来补充这一点,为身体劳累和工作量提供有价值的见解。心率监测器是另一个不可或缺的组成部分,它跟踪球员的心率,提供关于心血管负荷、疲劳和整体健康水平的关键信息。智能球衣,配备有传感器,捕获球员的移动、姿势和生物力学数据,从而有助于伤病预防和性能优化(McDevitt等人,2022)。

球跟踪系统使用摄像机和传感器来监测球的移动,为球的控球权、轨迹以及诸如射门等关键事件提供见解。此外,嵌入在鞋钉中的压力传感器测量脚的压力,并为球员的步幅模式、平衡和地面接触力提供见解。环境传感器对于捕获温度、湿度和海拔等影响球员表现并有助于伤病预防策略的因素的数据很重要。此外,附着在球员身体上的生物力学传感器捕获关节运动和肌肉激活的数据,为生物力学和潜在伤病风险提供见解。球员佩戴的惯性测量单元(IMU)捕获运动、方向和速度变化的数据,有助于对球员动力学进行详细分析(Zhang,2014)。

14.2.3表格数据

表格数据是指以表格结构组织的信息,其中数据以行和列的形式呈现。这种格式是高度结构化的,适合各种分析和计算目的。通常,每行代表一个单独的记录或观察,而列对应于与这些记录相关的不同属性或变量。表格数据在许多领域都很常见,包括数据库、电子表格以及用于机器学习和数据分析的数据集。

表格数据适用于各种数据分析技术,包括统计分析、机器学习模型的创建以及探索性数据分析。表格数据的结构化性质简化了诸如过滤、排序和聚合信息等任务。此外,它作为创建数据集的基础格式,可以用于训练机器学习模型以预测结果、揭示模式并在足球分析和体育科学领域做出明智决策。

考虑球员统计数据,其中每行专用于一个特定的球员,列包含诸如球员ID、姓名、位置、进球数和助攻数等基本属性。这种表格排列提供了对个体球员表现指标的全面概述,创建了数据集(Brooks等人,2016)。

同样,当检查比赛数据时,表格格式将每行与一场独特的比赛对齐,而列详细列出相关信息,包括比赛ID、日期、参赛队伍和最终比分。这种结构化呈现使得能够对比赛相关变量进行系统评估,有助于全面的比赛分析。

团队表现指标是另一个关键方面,它们被封装在代表各个团队的行中。在这个表格结构中,列包含诸如团队ID、名称、获得的积分和失球数等属性,提供了对团队级表现的系统和详细描述。深入研究伤病记录,例如,表格结构通过将每行分配给一个球员伤病的特定实例来组织数据。相关列记录相关信息,如球员ID、伤病类型、发生日期和恢复时间。这种系统安排有助于对球员伤病进行详细检查,有助于伤病预防策略和球员健康评估。

14.2.4图形表示

另一个近期的趋势是使用图来对球员及其互动进行建模。在现有的公式中,球员被建模为顶点,边用于表示他们的关系。应用的例子包括基于传球图的传球交换分析(Zhou等人,2023)或基于球员在场上位置的战术分析(如果两个球员彼此靠近则存在一条边)(Stival等人,2023;Rodrigues等人,2019)。

14.3处理和分析技术

数据处理和分析是数据驱动流程的一个步骤,它在将原始数据转化为有意义的见解、提供模型以自动化复杂任务甚至发现模式方面起着关键作用。最后,这个阶段将所有收集的数据转化为可操作的见解,从热图到机器学习模型不等。预处理,即数据的清理和格式化;特征工程,增强数据表示以用于可视化和机器学习建模;数据建模用于模型选择和优化,选择和微调正确的模型。

14.3.1数据预处理

数据预处理的目标是提高数据质量,围绕着准备和清理原始数据使其适合分析或建模的理念。原始数据中常见的问题包括缺失值、噪声的存在以及缺乏归一化。为了解决这些挑战,采用了几种数据转换方法,其选择取决于数据的类型(例如图像、时间序列、结构化数据)和传感器的质量(例如噪声、缺失值和分辨率)。需要处理的主要任务包括以下内容:

• 处理缺失值:识别和处理缺失的数据点,以避免在后续分析中出现偏差和不准确。处理缺失值可以通过删除方法来解决,如列表式删除或成对删除,即删除带有缺失值的行或对。插补方法包括均值、中位数或众数插补,向前和向后填充,线性回归,K - 近邻,以及多重插补,每种方法都根据特定标准替换缺失值。

• 数据清理:去除无关或冗余信息,纠正错误,并解决数据集中的不一致性,以提高整体数据质量(Chu等人,2016)。主成分分析(PCA)用于特征降维,拼写检查算法用于文本数据纠正,统计离群值检测用于数值不一致,与外部来源的交叉验证用于验证,以及基于领域知识的规则验证检查。

• 归一化和标准化:将分类变量转换为数值表示,以与机器学习方法兼容。归一化是将数值特征缩放至一个标准范围,通常在0和1之间的过程。其目的是确保所有特征对模型训练过程的贡献相等,防止某些具有较大尺度的特征主导学习过程。标准化涉及将数值特征转换为均值为0且标准差为1。机器学习模型通常需要数值输入,因此转换分类变量是必要的。

• 特征工程:创建新特征或转换现有特征,以增强信息的表示,提高机器学习模型的学习能力(Nargesian等人,2017)。技术包括创建多项式特征以捕捉非线性关系,引入交互项以表示特征之间的协同作用,将数值特征离散化为箱以捕捉非线性关系,对数值特征进行对数变换以实现对称,缩放特征以确保均匀性,为时间序列数据生成基于时间的特征,如滞后特征,使用技术如独热编码将分类变量编码为数值形式,以及使用方法如TF - IDF或词嵌入从文本数据中提取特征。这些技术共同提高了机器学习模型的学习能力,通过提供更具信息性和相关性的特征。特征工程方法的选择取决于数据的性质和具体的建模目标。

• 处理不平衡数据:解决数据集中的类别不平衡问题,以防止模型偏向多数类(Rout,Mishra, Mallick,2018)。处理不平衡数据的各种方法包括重采样技术,如过采样(例如SMOTE)和欠采样,集成方法如平衡随机森林和简易集成,以及使用诸如隔离森林等技术进行异常检测。其目的是处理不平衡数据,以便更好地识别少数类中的模式。

• 降噪:识别和去除可能扭曲机器学习模型分析或训练的噪声数据或异常值(Garcia等人,2016)。识别和去除数据集中噪声数据或异常值的常见方法包括通过箱线图等图进行目视检查,基于z - 分数或IQR等度量的统计方法,以及诸如隔离森林和局部离群因子(LOF)等机器学习模型。方法的选择通常需要在统计严谨性和基于手头数据的实际考虑之间取得平衡。

• 频繁模式分析预处理:在频繁模式分析(例如关联规则挖掘)的背景下,预处理可能涉及连续变量的离散化以及将数据转换为适合模式发现的事务格式(Aggarwal,2014)。

上述方法对于解决足球和体育数据在分析、可视化和建模准备过程中面临的不同挑战至关重要。不同的传感器数据和采集系统可能需要不同的预处理方法,但它们同时面临着共同的挑战。目前,预处理的主要挑战在于确保数据的质量和一致性,特别是当面临不同的来源和格式时。不准确或不一致的数据可能会在分析中引入偏差,并产生不可靠的见解。此外,延迟或过时的信息可能会严重限制比赛中决策过程的有效性。通过强大的预处理方法解决这些挑战对于促进体育数据分析领域准确、可靠和及时的分析至关重要。

此外,采用旨在减轻时间错位的方法也很重要。例如,利用动态时间规整(DTW)(Barbon等人,2009)等技术对时间数据(包括事件和球员移动)进行对齐,确保同步并减少时间数据错位的可能性。解决错位问题至关重要,因为否则可能会导致错误的结论,并阻碍对顺序事件的准确分析。通过采用强大的方法来减少时间错位,体育数据分析师可以提高其分析的可靠性和准确性,有助于更准确地理解比赛期间发生的动态情况。

14.3.2数据可视化

数据可视化可以在数据驱动流程的几个阶段进行。采用探索性数据分析(EDA)方法,如直方图和散点图,可以初步了解球员统计数据和比赛事件的分布。例如,采用像t - 分布式随机邻域嵌入(t - SNE)(Soni等人,2020)这样的降维技术有助于可视化高维球员数据,提供球员相似性和差异的直观表示。

比赛中的决策支持需要实时可视化,包括动态射门图或实时球员表现更新等方法。机器学习模型,包括用于预测分析(如球员表现预测)的模型,可以无缝集成到这些可视化中,以帮助教练在比赛期间做出明智决策。另一方面,赛后分析受益于动画回放,利用数据驱动的动画等方法来重现关键时刻。战术图,通过像图可视化节奏(Rodrigues等人,2019)、Voronoi图或基于球员运动学的模型(Caetano等人,2021)(如图14.2所示)等算法生成,有助于可视化特定比赛阶段的团队阵型和球员位置。

▲ 图14.2基于运动学数据的两队所有球员的优势区域(卡埃塔诺等人,2021年)

在整个流程中整合数据可视化方法和算法增强了对足球相关数据的解释、沟通和利用。EDA、降维、聚类和交互式可视化技术的结合有助于在足球领域进行全面且有影响力的数据驱动分析。

14.3.3数据建模

数据建模是创建反映现实世界背景、其模式以及约束条件的表示的过程。它涉及生成一个抽象表示,如决策表、数学函数或数据结构,以理解数据元素之间的相互关系。其主要目的是通过提供数据的结构化和有组织的视图来支持各种应用和业务需求。本节涵盖三种主要方法:监督学习、半监督学习和无监督学习。在这些总体主题内,将探索针对足球分析量身定制的方法和算法,以了解在足球相关数据中用于预测建模和模式发现的各种技术。

14.3.3.1监督学习

机器学习算法允许创建能够预测结果的模型,如球员表现、比赛结果或伤病可能性(Fister等人,2015)。特别是,监督学习有助于在球员选择、比赛策略和整体团队表现方面做出明智决策。监督学习是一种基于标记数据集预测或估计输出变量的基本范式。这个数据集由输入 - 输出对示例组成,为算法在训练阶段学习从输入到输出的映射提供了基础,最终允许将所获得的知识推广到对未见过的数据进行预测。

14.3.3.2无监督学习

14.3.3.2半监督学习

半监督学习是一种利用标记和未标记数据训练机器学习模型的范式。在数据驱动的足球应用背景下,当标记数据有限但有大量未标记数据可用时,半监督学习可能是有价值的(Vandeghen等人,2022)。其目的是利用未标记数据来提高模型的性能和泛化能力。利用标记和未标记数据的组合提供了降低与手动标注数据相关成本的机会。这种降低在标注过程是资源密集型的场景中尤为显著。半监督学习包括一些旨在利用数据标签可用性进行模型训练的策略和算法。一个突出的策略是自我训练(Rosenberg等人,2005),它涉及在标记数据吉印通行迭代模型训练,然后以高置信度将伪标签分配给未标记实例。另一个方法是协同训练,同时在不同的特征子集或表示上训练多个模型,利用模型之间的一致性来标注未标记实例。多视图学习是一种利用不同数据表示或视图来提高模型性能的策略,通过捕捉互补信息。

14.4应用

14.5结论

人工智能范畴内的数据驱动方法不仅革新了体育科学,而且成为了足球这个复杂领域变革性变化的驱动力。本章揭示了数据驱动解决方案的深远影响,强调了它们在优化球员表现、预防伤病和为战略决策提供信息方面的关键作用。足球,因其动态的球员互动和多样的数据源,处于从这场数据驱动革命中受益的前沿领域。随着足球界继续在体育科学的动态景观中前行,数据驱动方法的整合有望成为世界上最受欢迎的运动中创新、卓越和成功的持久催化剂。

作者介绍:郭佰鑫(Max)

021yin.com

我的联系方式(*):MaxGBX

Linkedin领英:Baixin Guo

接私人分析咨询/视频制作/项目流程图/*文章代做/翻译/AI智能体工作流搭建/科研绘图/PPT制作也欢迎您的联系!

期待科研/产品合作!也期待和各位翻译出版前沿的书籍!接流程图/项目科研思路设计

▼ 麻烦您带一下备注!

收藏0

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。