Post

ITRA 表现分会不会“越算越高”?

ITRA 表现分会不会“越算越高”?

从算法断裂、最佳成绩筛选,到男女组队赛的评分套利

摘要: ITRA 表现分试图把路线、距离和条件各异的越野赛成绩映射到同一尺度。然而,当一个系统同时具有“只保留最好成绩”和“根据参赛者历史表现统一校正赛事”两项特征时,就可能形成向上的反馈循环。男女必须共同完赛的组队赛,则是检验这一结构性问题的一个极端案例。

本文分析的是算法结构风险,不是对任何具体赛事或机构操纵分数的事实指控。ITRA 没有公开现行算法的完整公式,因此文中会严格区分官方可确认规则、旧版历史公式与理论推演。


一、先分清两个概念:单场分与综合表现分

ITRA 体系里至少存在两层分数。

第一层是 Race Score,即单场表现分。它主要根据选手的完赛时间、距离、爬升下降和海拔等可测量因素计算原始分,再通过一个赛事统一校正系数,处理路面技术性、天气和其他难以直接测量的因素。同一场比赛使用同一个校正系数,并同等应用于所有完赛者。

ITRA 当前的公开说明是:算法会将本场选手的实际表现,与这些选手此前在相近 km-effort 赛事中的表现进行比较,据此判断这一场比赛整体比正常情况快了还是慢了。排名、赛事知名度、精英选手是否到场以及 DNF 人数,都不被列为直接影响单场分的因素。(Itra)

第二层是 Performance Index,即综合表现分或 PI

目前官方规则并不只是简单地把最近五场平均,而是:

  1. 收集过去 36 个月内的成绩;
  2. 选择最好的若干场;
  3. 给予较新、较好成绩更高权重;
  4. 分别模拟使用 1 至 5 场成绩的结果;
  5. 选择能够产生最高 PI 的方案。

官方还明确表示:低分比赛和 DNF 通常不会降低 PI;拥有五场或更多成绩的跑者,相比成绩较少的跑者可能具有优势。(Itra)

这意味着 PI 并不是对选手日常水平的无偏估计,而更接近:

过去三年中,选手能够稳定触及的较高表现水平。

这样的定义本身可以有合理用途,但它也天然带有“只取上方、不取下方”的选择效应。


二、今天的 ITRA 算法,已经不是最初那套算法

理解这套体系时,一个不能忽略的背景是:2021年前后的 ITRA Performance Index 发生过底层算法断裂。

ITRA 自己在2021年的报告中说明,原始 Performance Index 由 Didier Curdy 创建并拥有。随着 ITRA 与 UTMB 的技术合作关系结束,原始算法此后由 UTMB/IRONMAN 使用;ITRA 则重新建立了一套“完全新的 Performance Index”。

ITRA 同时表示,新算法采用与旧系统相似的思路,继续使用1000分尺度,但改变了部分计算方法,包括加入平均海拔修正、调整最好成绩之间的权重。新旧两套指数产生的结果“相近但并不完全相同”。

因此,2021年前后可以理解为形成了两条算法谱系:

\[\text{Curdy 原始模型} \longrightarrow \text{UTMB Index}\]

以及:

\[\text{原有分数尺度与历史数据} \longrightarrow \text{ITRA 新模型} \longrightarrow \text{当前 ITRA PI}\]

从工程角度,可以把当前 ITRA 模型理解为一套努力维持旧评分尺度兼容性的新实现。用更具批判性的语言,有人可能会称其为“逆向兼容版”甚至“盗版算法”;但后一种说法包含侵权判断,现有公开资料不足以把它当作法律事实。

另一方面,UTMB Index 也不是被冻结的原始代码。UTMB 在2026年又调整了统计模型,引入坡度、最高海拔和比赛前列竞争强度等参数,并重新计算了过去五年的成绩。(UTMB World Series)

所以更准确的认识是:

ITRA 和 UTMB 都继承了同一段历史,但今天已经是两套持续演化、公式并不完全公开的评分系统。


三、“最好五场”为什么天然会让分数偏高

设一名选手的真实稳定水平为:

\[\theta_i\]

每场比赛的表现为:

\[X_{ij}=\theta_i+\varepsilon_{ij}\]

其中,$\varepsilon_{ij}$ 包括状态、天气适应、路线匹配、补给、战术以及正常随机波动。

假设一名真实水平为500分的选手跑了十场:

\[480,\ 485,\ 490,\ 495,\ 500,\ 500,\ 505,\ 510,\ 515,\ 520\]

十场平均正好是:

\[500\]

但最好五场平均为:

\[\frac{500+505+510+515+520}{5}=510\]

选手的真实平均能力没有变化,账面最佳表现却已经提高了10分。

一般而言,只要:

\[\text{比赛成绩存在波动}\]

并且:

\[\text{只选择成绩分布的上端}\]

那么就会有:

\[E\big[\operatorname{Top5Avg}(X)\big]>\theta\]

参赛次数越多,遇到特别适合自己的路线、天气和竞技状态的机会越多,从中选出五个高分的空间也越大。

当前 ITRA 还会在使用1场、2场直至5场成绩的多个方案中选择最高结果,这相当于在“挑选好成绩”之外,又增加了一层“挑选最有利计算方案”的机制。(Itra)

这并不意味着每参加一场就自动涨分,但意味着:

在真实能力不变的情况下,参赛机会增加通常会提高获得高 PI 的概率。


四、历史上的“均值校正”,为什么挡不住通胀

ITRA 在2018年公开过一套非常明确的赛事校正公式。

其思路是选择一个赛事系数,使:

\[\text{完赛者原始分均值}\times \text{校正系数} \ = \text{起跑者赛前 ITRA 分均值}\]

即:

\[c_r\overline{Q}_r=\overline{P}_r\]

其中:

  • $\overline{Q}_r$ 是本场校正前的平均原始分;
  • $\overline{P}_r$ 是参赛者赛前的平均 ITRA 水平;
  • $c_r$ 是全场统一校正系数。

从单场比赛看,这似乎是“均值守恒”的:本场最终平均分不会高于参赛者原有平均分。

但问题是,参赛者原有 PI 本身可能已经因为“最好成绩选择”而向上偏离真实平均能力。

于是就可能形成:

\[\text{真实能力附近的单场波动}\] \[\Downarrow\] \[\text{只保留最好成绩,PI 向上偏}\] \[\Downarrow\] \[\text{未来赛事再以已有 PI 为校准锚点}\] \[\Downarrow\] \[\text{新单场分继承原有偏差}\] \[\Downarrow\] \[\text{再次选取最好成绩}\]

所以,“均值守恒”只能守住当前分数体系的均值,不能保证这个分数体系本身没有漂移。

必须强调:ITRA 当前公开页面已经不再承诺严格执行2018年的均值等式,而是描述为利用相近赛事历史表现进行统计预测。因此,上述等式是历史算法模型,不能未经验证直接等同于现行源代码。

但结构性风险仍然存在:只要参赛者历史表现被用于推断赛事整体难度,历史分数中的选择偏差就可能重新进入新比赛。


五、跨距离能力错配:算法可能把“个人不适应”误判成“赛事很难”

一般 PI 会混合选手不同距离的最好成绩,而距离类别 PI 才只使用特定距离类别的比赛。(Itra)

这会带来一个潜在问题。

例如,一名选手特别擅长短距离,综合 PI 为800分,但长距离能力只有相当于500分的水平。当他参加长距离赛事时,他的低表现可能来自:

  • 缺少长距离耐力;
  • 补给能力不足;
  • 肌肉耐受性不足;
  • 配速策略不适应。

如果算法错误地使用其800分综合 PI 预测长距离表现,那么他的实际成绩就会显得异常差。

当类似选手足够多时,模型可能把:

这些选手不适应长距离

误判为:

这场长距离比赛整体特别困难。

随后,全场统一校正系数就可能被提高,其他正常长距离选手获得更高单场分。

ITRA 当前所说的“比较相同选手在相近 km-effort 比赛中的历史表现”,理论上能够缓解这种问题,因为它不一定直接使用综合 PI。但以下细节仍未公开:

  • “相近赛事”的距离范围有多宽;
  • 综合 PI 和类别 PI 各占多大权重;
  • 历史样本不足时如何处理;
  • 跨距离选手是否会被降权;
  • 异常表现是否会被剔除;
  • 使用均值、中位数还是稳健回归。

因此,跨距离错配不能被认定为现行算法必然存在的漏洞,但它是一个合理且可以验证的模型风险。


六、男女组队赛为什么是一个极端的算法压力测试

现在设想一种赛事:

  • 每队一男一女;
  • 两人必须共同完成全程;
  • 完赛时间相差不得超过10秒;
  • 否则不计入正式成绩。

ITRA 的结果文件规范对于团队赛事要求,同队成员使用相同排名和相同时间。即使赛事实际保留数秒差异,两人的单场分也会近乎相同。(Itra)

而在 ITRA 公开的单场分输入中,性别本身并不是计算变量;单场分取决于完赛时间、路线和赛事校正。因此,同一赛事中以近乎相同时间完赛的男女队员,会得到近乎相同的 Race Score。(Itra)

设第 $i$ 支队伍中:

\[M_i=\text{男选手在该距离上的正常表现水平}\] \[F_i=\text{女选手在该距离上的正常表现水平}\]

由于两人必须共同完赛,队伍的速度通常由较弱的一方决定。用分数表示:

\[Q_i\approx\min(M_i,F_i)\]

但在赛事校正时,参赛者的赛前平均水平同时包含两人的能力:

\[\overline{P} \ = \frac{1}{2n} \sum_{i=1}^{n}(M_i+F_i)\]

而所有完赛者的平均原始分为:

\[\overline{Q} \ = \frac{1}{n} \sum_{i=1}^{n}\min(M_i,F_i)\]

对于任何一对选手,都有:

\[\min(M_i,F_i) \leq \frac{M_i+F_i}{2}\]

因此:

\[\boxed{\overline{Q}\leq\overline{P}}\]

而且只要存在实力不完全相等的队伍,通常就是严格小于:

\[\overline{Q}<\overline{P}\]

在历史均值校正模型中:

\[c=\frac{\overline{P}}{\overline{Q}}\]

于是必然得到:

\[\boxed{c>1}\]

这意味着,即使天气正常、赛道正常,赛事规则本身也会使全场显得“比参赛者正常水平更慢”,从而触发一个向上的赛事校正系数。

算法看到的是:

大量选手都比历史预测跑得慢。

但它未必知道真正原因是:

每支队伍的强者都必须主动降速,陪同弱者完赛。

这是一种典型的识别错误:

\[\text{规则制造的慢} \quad\text{被误认为}\quad \text{赛道或条件制造的难}\]

七、谁会在这种赛事中受益

校正后,同队两人的单场分近似为:

\[S_i=c\min(M_i,F_i)\]

设队伍中较弱者的正常水平为:

\[L_i=\min(M_i,F_i)\]

较强者为:

\[H_i=\max(M_i,F_i)\]

较弱一方

较弱者的校正后成绩为:

\[S_i=cL_i\]

只要:

\[c>1\]

就有:

\[S_i>L_i\]

所以在历史均值校正模型中:

每支实力不相等队伍中的较弱者,原则上都会获得高于自身正常水平的单场分。

较强一方

较强者只有在以下条件下才能受益:

\[cL_i>H_i\]

即:

\[\boxed{\frac{H_i}{L_i}<c}\]

换言之,较强者虽然必须陪跑,但如果两人能力差距小于赛事校正幅度,校正后的共同成绩仍可能高于较强者原来的分数。


八、男性通常在哪个分数段获益

男性能否获益,不取决于一个固定的绝对分数,而取决于三个因素:

\[\text{男性自身水平}\] \[\text{女搭档水平}\] \[\text{全场校正系数}\]

男性的受益条件可以写为:

\[\boxed{M_i<cF_i}\]

这里包括两种情况:

第一,男性本身弱于女搭档。此时队伍由男性限速,只要赛事系数大于1,男性通常直接受益。

第二,男性比女搭档强,但强得不多。如果两人差距小于校正系数,他也可能受益。

假设这场赛事中:

\[\overline M=620\] \[\overline F=500\]

并且大部分队伍由女性限速,那么:

\[\overline Q\approx500\]

历史均值校正目标为:

\[\overline P \ = \frac{620+500}{2} =560\]

因此:

\[c\approx\frac{560}{500}=1.12\]

男性获益条件约为:

\[M_i<1.12F_i\]
女搭档正常分数男性可能获益的上限
450504以下
500560以下
550616以下
600672以下

因此,在这一组示例数据中:

对于搭档约500分的女性,男性大致在560分以下有机会获益。

但这不是赛事的固定“涨分线”。如果女搭档更强,男性受益上限会提高;如果全场男女差距更大,赛事系数也可能更高。

若赛事校正只实现理论差距的40%,可写为:

\[c_{40\%} \ = 1+0.4(1.12-1) =1.048\]

此时平均500分女性的校正后成绩约为524分,而男性受益线也会从560缩小到约524分。

这里的40%只是模拟参数,不是已经得到官方确认的 ITRA 固定权重。


九、这种机制为何可能从“单场转移”变成“综合分净上涨”

在单场比赛层面,历史均值校正看起来只是重新分配分数:

  • 高分强者陪跑,获得低于自身 PI 的单场分;
  • 弱者通过赛事系数,获得高于自身 PI 的单场分。

似乎一方得分,另一方就要付出代价。

但进入综合 PI 后,这种对称性会消失。

强者陪跑得到的低分通常不会进入其最好成绩:

\[\text{低分被排除}\]

弱者获得的高分却可能进入其最好五场:

\[\text{高分被保留}\]

ITRA 官方也明确说明,明显偏低的单场成绩或 DNF 不会降低选手的 PI。(Itra)

于是就形成了:

\[\text{强者贡献校准锚点}\] \[\Downarrow\] \[\text{强者低分不计入 PI}\] \[\Downarrow\] \[\text{弱者高分进入 PI}\]

其结果可能是:

单场层面近似守恒,综合 PI 层面却出现净上涨。

这类似一种单向期权:

  • 好结果可以被纳入;
  • 坏结果可以被丢弃;
  • “供分者”付出的成本不会完整反映在其综合分中;
  • “获益者”的收益却会被保存三年。

如果同一批选手反复参加类似赛事,已经上涨的 PI 又可能成为以后赛事的历史参考,从而形成新的反馈。


十、这种赛事真正利好哪些人

在历史均值模型下,最容易受益的并不是单一性别或固定分数段,而是以下结构中的选手:

第一类:每支队伍中的较弱者。 共同完赛时间反映了他们的能力,但赛事校正目标包含了较强队友的能力,因此他们最容易获得高于自身正常水平的单场分。

第二类:与强女性搭档的低分男性。 男性如果本身是队伍限制方,会直接吃到整个赛事系数;如果略强于女搭档,但差距不超过校正幅度,也可能涨分。

第三类:当前 PI 成绩较少的人。 一场异常高分更容易显著改变其综合 PI。

第四类:第五高成绩门槛较低的人。 同样一场550分,对最佳五场门槛为480的人影响很大,对门槛为600的人则没有影响。

第五类:参赛次数多、能够重复尝试的人。 成绩不理想时不进入 PI,成绩理想时保留,重复次数越多,获得高端结果的概率越高。


十一、为什么还不能断言现行 ITRA 一定会被这样利用

这个模型在历史均值校正公式下成立得非常清楚,但现行 ITRA 可能存在以下抑制机制:

  • 使用相应距离历史成绩,而非综合 PI;
  • 对缺乏同距离历史数据的选手降权;
  • 使用中位数、截尾均值或稳健回归;
  • 识别团队赛、陪跑赛或特殊赛事规则;
  • 限制赛事校正系数的最大幅度;
  • 剔除与历史预测严重不符的个体;
  • 将团队类别与个人类别分别建立模型;
  • 使用同一赛事历年数据作为独立锚点。

此外,ITRA 当前明确表示“精英选手是否到场”和“DNF人数”不会直接影响分数,因此不能简单地通过邀请几名高分选手或制造大量退赛来推高系数。(Itra)

真正值得担心的不是某一名高分选手,而是:

特殊赛制是否能够使大量参赛者系统性低于个人历史预测,并让算法把这种共同偏差解释成赛事整体难度。

男女共同完赛规则正好具备这种特征。


十二、怎样通过数据验证

最有说服力的检验方式,是在相同路线、相近天气下同时设置:

  • 个人组;
  • 男女共同完赛组。

然后比较相同完赛时间对应的最终 ITRA Race Score。

如果团队组和个人组使用不同赛事系数,并且团队组相同时间获得更高分,就说明组队约束被部分吸收进了赛事校正。

还可以对每支队伍定义实力差:

\[G_i=|M_i-F_i|\]

并观察:

\[\text{赛事平均搭档差距}\]

是否与:

\[\text{赛事校正幅度}\]

呈正相关。

在历史均值模型中,搭档差距越大:

\[\min(M_i,F_i)\]

相对于:

\[\frac{M_i+F_i}{2}\]

下降得越多,理论校正系数也越大。

最终还应观察高分是否真正进入选手的最好五场,而较强搭档的低分是否被排除。只有完成这一步,才能判断赛事是否不仅改变了单场分,还造成了综合 PI 的净上升。


结语

ITRA 表现分潜在的核心问题,并不是“每个人是否每场都会涨分”,而是三个结构组合在一起时可能产生的正反馈:

\[\boxed{\text{坏成绩基本不惩罚}}\] \[\boxed{\text{好成绩长期保留}}\] \[\boxed{\text{参赛者历史成绩又参与未来赛事校正}}\]

在普通赛事中,这种反馈可能较弱,也可能被现行算法的稳健机制抑制。

但在男女必须共同完赛的组队赛中,赛事规则会把两个人的表现压缩为较弱一方的速度,而赛事校准可能仍然看到两个人原有的独立能力。历史均值公式下,这会机械地产生大于1的赛事校正系数。

较弱者得到提高后的单场分;较强者的低分往往不进入最好成绩。于是,原本单场层面的分数转移,经过“最好成绩筛选”后,可能变成综合 PI 层面的净上涨。

这类机制揭示了标准化模型最难处理的问题:

算法最危险的偏差,往往不是把时间算错,而是把规则制造的“慢”,误认为赛道制造的“难”。

This post is licensed under CC BY 4.0 by the author.