展开菜单
【译】NBA高阶数据入门指南

【译】NBA高阶数据入门指南

【发布时间】:2024-06-10 08:05:02

火凤直播高清直播美女解说
  上图是篮球数据网站中,勒布朗·詹姆斯 (LeBron James) 的高阶数据栏。这些洋洋洒洒、被冠以Advanced的数据一定蕴藏着对进一步分析比赛至关重要的信息。仅凭模糊的直觉,我们大致能猜到其中一部分指标的含义。但在搞清楚它们的确切定义和来源之前,我们对这些指标的粗糙理解是难以支撑我们的观点论证的。   我找到一篇写于2013年、标题极其直白的文章:傻瓜也能读懂的篮球高阶数据入门指南。这篇文章描述客观、清晰,有不少例证;轻计算,重思想,讲的是这些高阶指标背后的核心逻辑。以及,最重要的一点:作者会指出指标的合理性和局限性,并鼓励我们不要迷信数据——也需要相信常识。   此外,需要说明以下几点:   ① 本文写于2013年。其中的案例均取材于当时的联盟;   ② 关于数据源,作者列出的一部分数据来源网站已失效。本文列出的13类高阶指标数据基本上在与中都能找到;   ③ 原文链接 (无需翻墙)。   EHRAN KHAN, October 18, 2013   NBA数据分析革命改变了我们看待和谈论篮球的方式。现在,如果没有相关数据来支撑你的想法,让你的观点更有说服力,你就无法展开更有深度的篮球讨论。当你读那些值得尊敬的篮球专栏作家(或者当你尝试努力靠近那个级别)的文章时,你会遇到很多的高阶指标。他们用这些指标支持他们的观点,提供令人震惊的比赛洞见。   但不要被这些指标和数据蒙蔽,重要的是你如何解读他们——这才是真正提升你懂球素养 (sophistication) 的事儿。   当深入研究球员和球队时,请使用本入门作为一个指南来学习这些指标。这些数据指标能更完整地刻画球员和球队,并且揭露那些隐藏的信息——它们可能可以支持你的观点,或者,完全改变你的观点。   以及,不要担心这些指标的计算。我会关于去哪找到这些相关指标给出建议。(Tip No. 1: 在你的浏览器中一直打开   跟着我,你会发现增强你NBA比赛分析能力的有效方法。   --【概述】--   经由前ESPN分析大师约翰·霍林格(John Hollinger)的推广,PER也许已经成为了最常用的高阶指标。但一个常见的误解是,这是一个决定一名NBA球员实力等级的全方位 (catch-all)的数据——很像棒球中的WAR (Wins Above Replacement)——但即使是霍林格本人也承认事实并非如此。   它的目标是衡量一名球员每分钟的效率 (productivity)。它的计分系统 (statistical point value system)将一名球员对球队的所有积极贡献项加总,同时减去所有消极贡献项。它的计算可以根据比赛节奏和在场时间进行调整(比如换算成每百回合或每分钟数据),以便更容易地对球员进行比较。   它的缺点是没有什么可靠的防守数据能输入到公式里。我们都知道,抢断 (steals) 和盖帽 (blocks) 不一定对应着好的防守。所以在PER体系下,防守专家处于劣势,而优秀的攻防兼备球员可能比只会进攻的球员排名更低 (比如2013年保罗·乔治 (Paul George) 的PER值比贾马尔·克劳福德 (Jamal Crawford) 和J.R.史密斯 (J.R. Smith) 低)。   顶级球员通常都位于PER排名的顶端,所以PER值能很好地反映球员之间相对水平的简况 (snapshots)。但要记住,PER不是一个包含一切的 (be-all) 终极 (end-all) 指标。   --【解读】--   在PER值评价体系下,根据ESPN2013年的PER值榜,排名前五的球员从高到低分别是勒布朗·詹姆斯 (LeBron James),凯文·杜兰特 (Kevin Durant),克里斯·保罗 (Chris Paul),卡梅隆·安东尼 (Carmelo Anthony)以及......布鲁克·洛佩兹 (Brook Lopez)。   这意味着洛佩兹是全NBA第五好的球员吗?当然不。   但这个结果确实告诉你,也许洛佩兹比你所认为的要好,尤其是在进攻端(进攻在PER体系中占很大权重)。   在谈论联盟最佳中锋的人选时,洛佩兹可能根本不在你的考虑范围之内。但洛佩兹的PER高于所有联盟的5号位的事实会提醒你,也许在你在下结论之前还需要挖掘得更深入一点。   --【数据源】--   对于不同的出处,具体的PER值可能会有细微的不同。这些差异通常可以忽略不计,差异的原因甚至可能只是舍入误差。因此球员的排名应该不会有啥改变。   Basketball-Reference在每个球员的个人页面上都有该球员的PER值(去搜索球员吧~)。你也可以在每个赛季的PER榜单中找到联盟的领头羊。   --【概述】--   WS用来衡量单个球员对其球队总胜场数的贡献。用一名球员制造的得分 (points produced) 和回合数(possessions)来计算一名球员的赢分贡献(marginal points), 再除以球队场均赢分,再通过一个复杂的公式,就能求出WS了。   防守贡献胜场数 (DWS, defensive win shares) 和进攻贡献胜场数 (OWS, offensive win shares) 由WS的定义细化而得。将OWS与DWS相加,便得到总的WS。   本质上,WS基于胜场数来衡量球员的价值。将WS分为OWS和DWS很重要,这样可以无偏倚地评估比赛的攻防两端。   我更关注WS甚于PER,因为其数值能体现你的直接价值。使用PER,你可以获知球员每分钟的效率,但其价值还是取决于你自己的判断。   我喜欢WS的另一点是它考虑了出场时间。上赛季(指2012~2013赛季)安德雷·布拉奇 (Andray Blatche) 比史蒂芬·库里 (Stephen Curry)的PER值更高,但库里的WS是布拉奇的两倍多。其中一个原因是库里的出场时间是布拉奇的两倍多,而WS体现了这一点。   WS的弊端在于,球员会因为伤病而缺席比赛。但WS有时按每48分钟来计算,以评价那些总体上场时间少但在球场上仍然做出巨大贡献的球员。   --【解读】--   这是一个很容易解读的指标。没有指标是完美的,因此,再次强调,WS也不是一个用以给球员排名的无所不包的指标。   但WS对于判断球员对于球队攻、防两端和球队总体成功的影响力,仍然是一个强有力的工具。   马克·加索尔 (Marc Gasol) 在2013年的WS榜上以11.5的数值排名第6,迈克·康利 (Mike Conley) 以9.9的数值排在第11位。这不是说他们分别是这个联盟中第6和第11好的球员,但它确实提醒你,即使他们没有打出惊人的数据,他们在场上是在做有助于赢球的事情的。   WS也能够帮助说明为何孟菲斯灰熊 (the Memphis Grizzles) 将鲁迪·盖伊 (Rudy Gay,被认为是队里最好的球员,去年的WS只有4.0) 交易走并不是简单地为了躲避工资帽的行为 (salary dump),也确实是有篮球上的意义的。   --【数据源】--      --【概述】--   篮球的一切都关乎效率。将每回合的得分最大化,失分最小化比总得、失分更重要。总得失分受到类似于节奏或者队伍打出的回合数这样的变量的影响,这些变量取决于教练的执教哲学(比如,上赛季休斯顿火箭队 (the Houston Rockets) 平均每场比灰熊队多打8个回合)。   进攻效率和防守效率的计算考虑了比赛节奏,计算每回合得分。为了使其数值更容易被理解,它们通常被换算成百回合得分,所以看上去与一场比赛的得分量级相似。   计算单个球员的进攻和防守率要复杂一些,因为很难弄清一个球员参与的回合数,尤其是在防守端。   --【解读】--   去年,纽约尼克斯队 (the New York Knicks)平均每场比赛正好得到100.0分,略高于联盟平均水平,在NBA球队中排名第11位。   很多人会说尼克斯队有着全联盟第11好的进攻。你总能在NBA的广播中听到这样的解读。然而,纽约其实有着联盟第3的进攻效率,这意味着从每回合看,这支球队打出了全联盟第3好的进攻。   他们的进攻才华被遮蔽了——他们有着联盟第5慢的比赛节奏。   --【数据源】--   因为对「到底什么能构成一个回合」有着不同的定义,不同网站给出的进攻和防守效率的数值会不一样。       官网也提供该数据,并提供很多筛选数据的选项。   --【概述】--   这个指标可能听起来与进攻/防守效率类似,但我想强调一下PPP指标的特殊版本。   Synergy Sports Technology的数据在NBA分析中得到越来越普遍的应用。这个网站根据具体的比赛类型来将球队和个人的得分分解到每回合。比如,你能看到洛杉矶湖人队 (the Los Angeles Lakers) 在每个持球挡拆回合中能够拿下多少分,或者蒂姆·邓肯 (Tim Duncan) 每次低位背打能得多少分。   --【解读】--   这个系列指标的数值是非常具体的。当深入研究球员或球队的得分倾向时,它们是很强大的工具。   你可以用这一系列指标支持你的观点,比如关于“谁是联盟中最好的低位单打球员”的主张或者类似性质的讨论。   当谈到低位球员时,你会想到大个子们。但你知道吗?科比·布莱恩特 (Kobe Bryant) 是上赛季全联盟每回合低位单打取分第5多的球员。在这些回合中,他的命中率超过了55%,并且有13%的回合要到了犯规。   --【数据源】--      --【概述】--   当衡量投篮效率时,只关注传统的投篮命中率 (Field goal percentage, FG%) 是不够的。投篮命中率平等对待两分球和三分球,即使三分球会带来至关重要的额外的一分。投篮命中率也没将罚球考虑在内。   真实命中率也能应用在球队分析中。但当用来分析球队时,一般习惯性地将罚球和投篮分开。此时应关注有效命中率 (effective field goal percentage, EFG%)。有效命中率严格地用罚球以外的常规投篮来衡量投篮效率。   --【解读】--   上赛季,安德烈·伊戈达拉 (Andre Iguodala) 的投篮命中率为45.1%,而詹姆斯·哈登 (James Harden) 的投篮命中率为43.8%。如果不加思考,你可能会认为一哥的进攻效率更高。   但一哥的三分命中率为31.7%(场均出手3.6次),罚球命中率更是极差的57.4%(场均3.4次),而哈登的这两项数据分别为36.8%(场均出手6.2次)和85.1%(简直高到另一个次元的场均10.2次)。   因此,哈登的真实投篮命中率达到59.8%,远好于一哥的52.0%。鉴于哈登的得分构成 (point distribution) ,他是一个效率远高于一哥的得分手。   记住,对球员的评价时也要考虑球员在场上的角色。真实命中率会有利于那些专注于高效射中三分(通常是空位三分)而不用负责进攻中的其他事情的三分接球投篮专家。事实上,像哈登,凯文·杜兰特 (Kevin Durant) 和詹姆斯这样的家伙,他们的真实命中率排在凯尔·科沃尔 (Kyle Korver) 和史蒂夫·诺瓦克 (Steve Novaks)之前(注:此二人当时是联盟中顶级的接球投篮手),可见他们那么高产量和高难度的进攻是多么高效。   --【数据源】--         --【概述】--   这个指标太基础了,计算起来很简单。   罚球率就是简单地用罚球获得数除以常规投篮数。   它是篮球分析界传奇Dean Oliver提出的“篮球成功四因素”中的一个。(注:四因素:投篮,篮板,失误,罚球。如果你对球队做的调整不能最终表现在对这四因素的影响上,那你实际上没有做出任何实质性的调整。)   罚球率是反映进攻效率的一个指标。罚球和三分、近筐投篮一样,都是最有效的得分方式之一。每次投篮能够获得的罚球数越多,进攻就越有效。   这个指标对于球员和球队、球场攻防两端的分析都适用。   --【解读】--   从球员的角度看,2013年,约翰·沃尔 (John Wall) 的投篮命中率只有44%,场均三分还不到一个。但如果他符合排行榜上的条件,他将成为全联盟排名15的得分手。为啥会这样?因为他交出了控卫中第3的罚球率(甚至在所有外线球员中第7的罚球率,排在詹姆斯和科比之前)。因此即使沃尔的有效命中率在同位置上排名倒数,凭借罚球产量,他也仍然是一个半高效 (semi-efficient) 的进攻球员。   从球队的角度上看,亚特兰大老鹰队交出了全联盟第6高的有效命中率(“四因素”中的另一个),但只有联盟第18的进攻效率。除非你也看看他们在NBA排名第25的罚球命中率,否则你可能很难指出造成这种差异的原因。亚特兰大在制造好的投篮机会和将投篮转换成得分方面非常高效,但除非他们能更频繁地上罚球线,否则他们仍然是一支进攻水平低于平均水平的球队。   --【数据源】--      --【概述】--   使用率用来衡量一名球员所占有的回合数占球队总回合数的百分比。一回合通常被定义为一次出手、投篮犯规或失误 (turnover)。   在这个指标上,支配大量球权的外线球员总体会处于领先(去年,大洛佩兹是唯一一个排名前10中的大个子,正好排名第10)。位于使用率排行榜上最顶端的通常都是比赛中最好的球员。   --【解读】--   一般来说,使用率提升时,效率会下降。一名超巨的显著特征就是他能在扛下大量球权的同时保持相对高效。   球队可以通过调整阵容来平衡场上球员的使用率。这是个有趣的指标,它能够反映当一支球队的球员名单发生变化时,新阵容的一些信息。   举例来说,我很好奇布鲁克林篮网队 (the Brooklyn Nets) 新的核心阵容如何作为一个整体来运转。这些首发球员去年的使用率加总起来,达到了126.6%。   这些球员的控球时间将会比去年削减不少。看看新教练贾森·基德 (Jason Kidd) 是如何管理这样一支自我意识爆棚、球星扎堆的球队,这将是件很有趣的事情。(注:彼时篮网队的首发阵容为加内特 (Kevin Garnett),乔·约翰逊 (Joe Johnson) ,大洛佩兹,保罗·皮尔斯 (Paul Pierce),德隆·威廉姆斯 (Deron Williams))   --【数据源】--      --【概述】--   与总篮板数不同,篮板率是一名球员最终抓住机会抢下篮板的次数占所有投失的投篮(产生篮板机会)的百分比。对于球队,篮板率适用于不同的比赛节奏(一场比赛中打出回合数越多的球队会投出更多球,制造更多篮板机会,进而提升篮板总数);对于球员,篮板率也能换算成场上每分钟计。   篮板率可以进一步划分为进攻篮板率和防守篮板率。   --【解读】--   对于球队,篮板率显示的是一支球队的篮板与对手的篮板之间的百分比差异。这种差异与篮板总数的差异是一致的,但转换成百分比后,篮板率更能体现一场比赛中两队间篮板的相对实力。   对于球员,这个指标更具启发性。那些上场时间少的球员,篮板总数会被拉低。当用篮板总数衡量篮板能力时,这些球员会被忽略。比如,密尔沃基雄鹿队 (the Milwaukee Bucks) 的新秀约翰·汉森 (John Henson) 去年场均抢下平庸的4.7个篮板,但这是因为他每晚只在场上待了13分钟。实际上,汉森的篮板率排名联盟并列第9,他抢下了场上所有篮板机会中的1/5——比德怀特·霍华德 (Dwight Howard) 和泰森·钱德勒 (Tyson Chandler)更高。   --【数据源】--      --【概述】--   这四个指标用类似的方式传达信息,所以我将它们放在一块儿讲。   同样地,这些“率 (rate) ”指标也可根据比赛节奏和上场时间换算,也同时适用于球员和球队。不同的数据源对这些指标的处理方式略有不同,但每个指标的本质都是显而易见的。   助攻率是指球员在场上助攻队友投篮得分占全队总投篮得分的百分比。   抢断率是指以球员的抢断告终的回合数占对手总进攻回合数的百分比。   盖帽率是指球员盖帽数在对手投球数(注:大部分版本的定义强调针对两分球的防守)中所占的百分比。   失误率是指球员以失误告终的回合数占其总占有回合数的百分比。   --【解读】--   我尤其关注球队的助攻率。了解受助攻得分的占比可以看出哪支球队更擅长移动球和创造空位。   就像篮板率一样,即使有些球员的上场时间短,导致他们的原始数据很低,你也可以看到他们在这些指标上表现出色。   明星球员的失误率能反映出其平时并不显然的才华。使用率高的球员通常在失误上也领先联盟,看起来好像他们正在伤害球队。但事实上,他们也许因为更低的失误率而在做额外的贡献。   举个德克·诺维茨基 (Dirk Nowitzki) 的例子。他是过去20年间除了迈克尔·乔丹 (Micheal Jordan) 之外,唯一一名在使用率超过30%的情况下还能将失误率保持在8%以下的球员。   --【数据源】--      --【概述】--   现在的统计工具强大到能将球员的投篮精确划分到场上各个分区位置。你能轻松看出球员和球队投篮在球场不同位置的分布和命中情况。   投篮分布数据通常按离框距离 (range)或区域来划分。离框距离的计算起点为篮圈,然后向外一次扩展5到8尺,直到三分线。区域划分从合理冲撞区 (restricted area) 开始,到油漆区其他的部分,再到中距离,再到三分线外。   投篮图对于单场比赛或整个赛季都适用。投篮图通常被绘制为热图 (heat map) 的形式,表示球员在特定区域投篮得分的频率。   --【解读】--   投篮图提供了更好的衍生出命中率数据的投射选择背景 (context)。   你能看见克里斯·波什 (Chris Bosh) 致命的中距离投篮——他在离篮筐16-24尺区域的投篮命中率冠绝全联盟——帮助迈阿密·热火队 (the Miami Heat) 打出了联盟顶级的进攻,因为当詹姆斯和德怀恩·韦德 (Dwyane Wade) 冲向篮下时,他能够让协防选择付出代价。或者你也能了解到里基·卢比奥 (Ricky Rubio)在得分上的挣扎并不都源自他糟糕的外线篮子——他还拥有全联盟后卫在合理冲撞区里最低的命中率。   --【数据源】--   提供按球员和球队的投篮离框距离和区域划分的投篮图。   --【概述】--   On/Off分段数据的概念很容易理解。它们只按一名球员在或不在场上来记录球队的表现。   一个球员的表现与另一个球员的On/Off的关系也可以追踪,不过找到这些数据要难得多。   --【解读】--   On/Off分段数据能证明一名球员对球队不同方面的影响力。但请注意,它不是一把完美的标尺,因为它没有将队友和对手的因素纳入考虑。因此在用这些指标进行评估时,务必带上你的常识。   比如说,萨博·塞弗罗萨 (Thabo Sefolosha) 的On/Off数据看上去不可思议,但要明白,他上场的几乎所有时间里,都与杜兰特、拉塞尔·威斯布鲁克 (Russell Westbrook) 和塞尔日·伊巴卡 (Serge Ibaka) 在一起。显然,是这些家伙驱动了球队的表现,而非塞弗罗萨。   On/Off数据中还有很多有趣的金矿值得挖掘。   想想看:上个赛季,当布兰登·詹宁斯 (Brandon Jennings) 在场上时,雄鹿队每百回合被对手多得4.4分。当詹宁斯 (通常被认为是雄鹿队最好的球员) 不在场上时,雄鹿队不仅减小了这一分差,而且每百回合比对手多得6.9分。   在刚刚过去的休赛期,他们决定抛弃詹宁斯,这奇怪吗?   --【数据源】--      另一个网站是它的On/Off部分包含了更多样的统计数据。   --【概述】--   和On/Off数据类似,特定阵容的表现也能被追踪,并且这类数据能够公开获取(即非内部数据)。   阵容数据可分为五人、四人、三人、两人组合的数据。   --【解读】--   不同的阵容的表现能反映出,在一个球队中哪些球员组合最有效。你可以使用这些数据来评价教练的轮换安排,以及预测球队未来的表现。   例如,如果你此前就知道印第安纳步行者队 (the Indiana Pacers) 的首发阵容每百回合能赢对手12.1分(在去年全联盟所有在场上同时打过超过500分钟的五人组合中排名第三),你大概能预料到他们在季后赛中的成功。先发球员在季后赛的上场时间更多,你可以想象步行者队击败热火队并进入NBA总决赛的场景,因为热火的阵容没有好到能匹配步行者的阵容。实际上,这种说法差点就应验了。步行者的首发在场上每百回合依然能赢过对手,但他们的板凳没有延续这种优势。(注:2012-2013赛季东决,步行者给热火造成了大麻烦,但鏖战七场后总比分3-4败北)   --【数据源】--   有最好的阵容数据。它是完全可定制的,所以你可以从那里获得几乎任何你想要了解的信息。         --【概述】--   我留给你们的最后一个高阶指标是经调整的正负值APM。APM的应用广度不如其他高阶指标,但很多人坚定地认为,这是一个体现球员对球队赢分 (scoring margin) 的直接影响的终极指标。   APM想做到的事情是,将每分钟内场上其他每位球员(队友或者对手)的能力作为控制变量,进而反映出一名球员在场上时对球队赢分的影响。   不要费心于APM的精确公式,除非你非常喜欢回归模型。   --【解读】--   APM本身表达的意思是,与一名联盟平均水准的球员(APM=+0.0)对比,一名球员百回合对球队的赢分贡献了多少分数。所以如果一名球员与四个平均水平的队友在场上时,其APM是+5.0,则他所在的球队要比五个平均水平球员的阵容每百回合的净得分要多5分。   当然,APM也存在一些问题。   首先,这样的回归存在很大的方差。因为队员的角色,队友,对手以及教练的执教体系的改变都会这些项在回归模型中的参数。其次,数据中有很多噪音。通常,最好的做法是通过多个赛季的APM值获得一些结论,以去除一些这样的噪音。现在还有一个正规化的APM (RAPM, regularized adjusted plus/minus),它试图过滤掉更多的噪音。   --【数据源】--   目前关于正负值,见得比较多的是BPM (Box plus/minus),与APM含义类似。提供该数据。

【译】NBA高阶数据入门指南

【译】NBA高阶数据入门指南