ITRA 表现分会不会“越算越高”？

Posted Jun 25, 2026

By Zhiqiang Wang

29 min read

ITRA 表现分会不会“越算越高”？

从算法断裂、最佳成绩筛选，到男女组队赛的评分套利

摘要： ITRA 表现分试图把路线、距离和条件各异的越野赛成绩映射到同一尺度。然而，当一个系统同时具有“只保留最好成绩”和“根据参赛者历史表现统一校正赛事”两项特征时，就可能形成向上的反馈循环。男女必须共同完赛的组队赛，则是检验这一结构性问题的一个极端案例。

本文分析的是算法结构风险，不是对任何具体赛事或机构操纵分数的事实指控。ITRA 没有公开现行算法的完整公式，因此文中会严格区分官方可确认规则、旧版历史公式与理论推演。

一、先分清两个概念：单场分与综合表现分

ITRA 体系里至少存在两层分数。

第一层是 Race Score，即单场表现分。它主要根据选手的完赛时间、距离、爬升下降和海拔等可测量因素计算原始分，再通过一个赛事统一校正系数，处理路面技术性、天气和其他难以直接测量的因素。同一场比赛使用同一个校正系数，并同等应用于所有完赛者。

ITRA 当前的公开说明是：算法会将本场选手的实际表现，与这些选手此前在相近 km-effort 赛事中的表现进行比较，据此判断这一场比赛整体比正常情况快了还是慢了。排名、赛事知名度、精英选手是否到场以及 DNF 人数，都不被列为直接影响单场分的因素。(Itra)

第二层是 Performance Index，即综合表现分或 PI。

目前官方规则并不只是简单地把最近五场平均，而是：

收集过去 36 个月内的成绩；
选择最好的若干场；
给予较新、较好成绩更高权重；
分别模拟使用 1 至 5 场成绩的结果；
选择能够产生最高 PI 的方案。

官方还明确表示：低分比赛和 DNF 通常不会降低 PI；拥有五场或更多成绩的跑者，相比成绩较少的跑者可能具有优势。(Itra)

这意味着 PI 并不是对选手日常水平的无偏估计，而更接近：

过去三年中，选手能够稳定触及的较高表现水平。

这样的定义本身可以有合理用途，但它也天然带有“只取上方、不取下方”的选择效应。

二、今天的 ITRA 算法，已经不是最初那套算法

理解这套体系时，一个不能忽略的背景是：2021年前后的 ITRA Performance Index 发生过底层算法断裂。

ITRA 自己在2021年的报告中说明，原始 Performance Index 由 Didier Curdy 创建并拥有。随着 ITRA 与 UTMB 的技术合作关系结束，原始算法此后由 UTMB/IRONMAN 使用；ITRA 则重新建立了一套“完全新的 Performance Index”。

ITRA 同时表示，新算法采用与旧系统相似的思路，继续使用1000分尺度，但改变了部分计算方法，包括加入平均海拔修正、调整最好成绩之间的权重。新旧两套指数产生的结果“相近但并不完全相同”。

因此，2021年前后可以理解为形成了两条算法谱系：

\[\text{Curdy 原始模型} \longrightarrow \text{UTMB Index}\]

以及：

\[\text{原有分数尺度与历史数据} \longrightarrow \text{ITRA 新模型} \longrightarrow \text{当前 ITRA PI}\]

从工程角度，可以把当前 ITRA 模型理解为一套努力维持旧评分尺度兼容性的新实现。用更具批判性的语言，有人可能会称其为“逆向兼容版”甚至“盗版算法”；但后一种说法包含侵权判断，现有公开资料不足以把它当作法律事实。

另一方面，UTMB Index 也不是被冻结的原始代码。UTMB 在2026年又调整了统计模型，引入坡度、最高海拔和比赛前列竞争强度等参数，并重新计算了过去五年的成绩。(UTMB World Series)

所以更准确的认识是：

ITRA 和 UTMB 都继承了同一段历史，但今天已经是两套持续演化、公式并不完全公开的评分系统。

三、“最好五场”为什么天然会让分数偏高

设一名选手的真实稳定水平为：

\[\theta_i\]

每场比赛的表现为：

\[X_{ij}=\theta_i+\varepsilon_{ij}\]

其中，$\varepsilon_{ij}$ 包括状态、天气适应、路线匹配、补给、战术以及正常随机波动。

假设一名真实水平为500分的选手跑了十场：

\[480,\ 485,\ 490,\ 495,\ 500,\ 500,\ 505,\ 510,\ 515,\ 520\]

十场平均正好是：

\[500\]

但最好五场平均为：

\[\frac{500+505+510+515+520}{5}=510\]

选手的真实平均能力没有变化，账面最佳表现却已经提高了10分。

一般而言，只要：

\[\text{比赛成绩存在波动}\]

并且：

\[\text{只选择成绩分布的上端}\]

那么就会有：

\[E\big[\operatorname{Top5Avg}(X)\big]>\theta\]

参赛次数越多，遇到特别适合自己的路线、天气和竞技状态的机会越多，从中选出五个高分的空间也越大。

当前 ITRA 还会在使用1场、2场直至5场成绩的多个方案中选择最高结果，这相当于在“挑选好成绩”之外，又增加了一层“挑选最有利计算方案”的机制。(Itra)

这并不意味着每参加一场就自动涨分，但意味着：

在真实能力不变的情况下，参赛机会增加通常会提高获得高 PI 的概率。

四、历史上的“均值校正”，为什么挡不住通胀

ITRA 在2018年公开过一套非常明确的赛事校正公式。

其思路是选择一个赛事系数，使：

\[\text{完赛者原始分均值}\times \text{校正系数} \ = \text{起跑者赛前 ITRA 分均值}\]

即：

\[c_r\overline{Q}_r=\overline{P}_r\]

其中：

$\overline{Q}_r$ 是本场校正前的平均原始分；
$\overline{P}_r$ 是参赛者赛前的平均 ITRA 水平；
$c_r$ 是全场统一校正系数。

从单场比赛看，这似乎是“均值守恒”的：本场最终平均分不会高于参赛者原有平均分。

但问题是，参赛者原有 PI 本身可能已经因为“最好成绩选择”而向上偏离真实平均能力。

于是就可能形成：

\[\text{真实能力附近的单场波动}\] \[\Downarrow\] \[\text{只保留最好成绩，PI 向上偏}\] \[\Downarrow\] \[\text{未来赛事再以已有 PI 为校准锚点}\] \[\Downarrow\] \[\text{新单场分继承原有偏差}\] \[\Downarrow\] \[\text{再次选取最好成绩}\]

所以，“均值守恒”只能守住当前分数体系的均值，不能保证这个分数体系本身没有漂移。

必须强调：ITRA 当前公开页面已经不再承诺严格执行2018年的均值等式，而是描述为利用相近赛事历史表现进行统计预测。因此，上述等式是历史算法模型，不能未经验证直接等同于现行源代码。

但结构性风险仍然存在：只要参赛者历史表现被用于推断赛事整体难度，历史分数中的选择偏差就可能重新进入新比赛。

五、跨距离能力错配：算法可能把“个人不适应”误判成“赛事很难”

一般 PI 会混合选手不同距离的最好成绩，而距离类别 PI 才只使用特定距离类别的比赛。(Itra)

这会带来一个潜在问题。

例如，一名选手特别擅长短距离，综合 PI 为800分，但长距离能力只有相当于500分的水平。当他参加长距离赛事时，他的低表现可能来自：

缺少长距离耐力；
补给能力不足；
肌肉耐受性不足；
配速策略不适应。

如果算法错误地使用其800分综合 PI 预测长距离表现，那么他的实际成绩就会显得异常差。

当类似选手足够多时，模型可能把：

这些选手不适应长距离

误判为：

这场长距离比赛整体特别困难。

随后，全场统一校正系数就可能被提高，其他正常长距离选手获得更高单场分。

ITRA 当前所说的“比较相同选手在相近 km-effort 比赛中的历史表现”，理论上能够缓解这种问题，因为它不一定直接使用综合 PI。但以下细节仍未公开：

“相近赛事”的距离范围有多宽；
综合 PI 和类别 PI 各占多大权重；
历史样本不足时如何处理；
跨距离选手是否会被降权；
异常表现是否会被剔除；
使用均值、中位数还是稳健回归。

因此，跨距离错配不能被认定为现行算法必然存在的漏洞，但它是一个合理且可以验证的模型风险。

六、男女组队赛为什么是一个极端的算法压力测试

现在设想一种赛事：

每队一男一女；
两人必须共同完成全程；
完赛时间相差不得超过10秒；
否则不计入正式成绩。

ITRA 的结果文件规范对于团队赛事要求，同队成员使用相同排名和相同时间。即使赛事实际保留数秒差异，两人的单场分也会近乎相同。(Itra)

而在 ITRA 公开的单场分输入中，性别本身并不是计算变量；单场分取决于完赛时间、路线和赛事校正。因此，同一赛事中以近乎相同时间完赛的男女队员，会得到近乎相同的 Race Score。(Itra)

设第 $i$ 支队伍中：

\[M_i=\text{男选手在该距离上的正常表现水平}\] \[F_i=\text{女选手在该距离上的正常表现水平}\]

由于两人必须共同完赛，队伍的速度通常由较弱的一方决定。用分数表示：

\[Q_i\approx\min(M_i,F_i)\]

但在赛事校正时，参赛者的赛前平均水平同时包含两人的能力：

\[\overline{P} \ = \frac{1}{2n} \sum_{i=1}^{n}(M_i+F_i)\]

而所有完赛者的平均原始分为：

\[\overline{Q} \ = \frac{1}{n} \sum_{i=1}^{n}\min(M_i,F_i)\]

对于任何一对选手，都有：

\[\min(M_i,F_i) \leq \frac{M_i+F_i}{2}\]

因此：

\[\boxed{\overline{Q}\leq\overline{P}}\]

而且只要存在实力不完全相等的队伍，通常就是严格小于：

\[\overline{Q}<\overline{P}\]

在历史均值校正模型中：

\[c=\frac{\overline{P}}{\overline{Q}}\]

于是必然得到：

\[\boxed{c>1}\]

这意味着，即使天气正常、赛道正常，赛事规则本身也会使全场显得“比参赛者正常水平更慢”，从而触发一个向上的赛事校正系数。

算法看到的是：

大量选手都比历史预测跑得慢。

但它未必知道真正原因是：

每支队伍的强者都必须主动降速，陪同弱者完赛。

这是一种典型的识别错误：

\[\text{规则制造的慢} \quad\text{被误认为}\quad \text{赛道或条件制造的难}\]

七、谁会在这种赛事中受益

校正后，同队两人的单场分近似为：

\[S_i=c\min(M_i,F_i)\]

设队伍中较弱者的正常水平为：

\[L_i=\min(M_i,F_i)\]

较强者为：

\[H_i=\max(M_i,F_i)\]

较弱一方

较弱者的校正后成绩为：

\[S_i=cL_i\]

只要：

\[c>1\]

就有：

\[S_i>L_i\]

所以在历史均值校正模型中：

每支实力不相等队伍中的较弱者，原则上都会获得高于自身正常水平的单场分。

较强一方

较强者只有在以下条件下才能受益：

\[cL_i>H_i\]

即：

\[\boxed{\frac{H_i}{L_i}<c}\]

换言之，较强者虽然必须陪跑，但如果两人能力差距小于赛事校正幅度，校正后的共同成绩仍可能高于较强者原来的分数。

八、男性通常在哪个分数段获益

男性能否获益，不取决于一个固定的绝对分数，而取决于三个因素：

\[\text{男性自身水平}\] \[\text{女搭档水平}\] \[\text{全场校正系数}\]

男性的受益条件可以写为：

\[\boxed{M_i<cF_i}\]

这里包括两种情况：

第一，男性本身弱于女搭档。此时队伍由男性限速，只要赛事系数大于1，男性通常直接受益。

第二，男性比女搭档强，但强得不多。如果两人差距小于校正系数，他也可能受益。

假设这场赛事中：

\[\overline M=620\] \[\overline F=500\]

并且大部分队伍由女性限速，那么：

\[\overline Q\approx500\]

历史均值校正目标为：

\[\overline P \ = \frac{620+500}{2} =560\]

因此：

\[c\approx\frac{560}{500}=1.12\]

男性获益条件约为：

\[M_i<1.12F_i\]

女搭档正常分数	男性可能获益的上限
450	504以下
500	560以下
550	616以下
600	672以下

因此，在这一组示例数据中：

对于搭档约500分的女性，男性大致在560分以下有机会获益。

但这不是赛事的固定“涨分线”。如果女搭档更强，男性受益上限会提高；如果全场男女差距更大，赛事系数也可能更高。

若赛事校正只实现理论差距的40%，可写为：

\[c_{40\%} \ = 1+0.4(1.12-1) =1.048\]

此时平均500分女性的校正后成绩约为524分，而男性受益线也会从560缩小到约524分。

这里的40%只是模拟参数，不是已经得到官方确认的 ITRA 固定权重。

九、这种机制为何可能从“单场转移”变成“综合分净上涨”

在单场比赛层面，历史均值校正看起来只是重新分配分数：

高分强者陪跑，获得低于自身 PI 的单场分；
弱者通过赛事系数，获得高于自身 PI 的单场分。

似乎一方得分，另一方就要付出代价。

但进入综合 PI 后，这种对称性会消失。

强者陪跑得到的低分通常不会进入其最好成绩：

\[\text{低分被排除}\]

弱者获得的高分却可能进入其最好五场：

\[\text{高分被保留}\]

ITRA 官方也明确说明，明显偏低的单场成绩或 DNF 不会降低选手的 PI。(Itra)

于是就形成了：

\[\text{强者贡献校准锚点}\] \[\Downarrow\] \[\text{强者低分不计入 PI}\] \[\Downarrow\] \[\text{弱者高分进入 PI}\]

其结果可能是：

单场层面近似守恒，综合 PI 层面却出现净上涨。

这类似一种单向期权：

好结果可以被纳入；
坏结果可以被丢弃；
“供分者”付出的成本不会完整反映在其综合分中；
“获益者”的收益却会被保存三年。

如果同一批选手反复参加类似赛事，已经上涨的 PI 又可能成为以后赛事的历史参考，从而形成新的反馈。

十、这种赛事真正利好哪些人

在历史均值模型下，最容易受益的并不是单一性别或固定分数段，而是以下结构中的选手：

第一类：每支队伍中的较弱者。 共同完赛时间反映了他们的能力，但赛事校正目标包含了较强队友的能力，因此他们最容易获得高于自身正常水平的单场分。

第二类：与强女性搭档的低分男性。 男性如果本身是队伍限制方，会直接吃到整个赛事系数；如果略强于女搭档，但差距不超过校正幅度，也可能涨分。

第三类：当前 PI 成绩较少的人。 一场异常高分更容易显著改变其综合 PI。

第四类：第五高成绩门槛较低的人。 同样一场550分，对最佳五场门槛为480的人影响很大，对门槛为600的人则没有影响。

第五类：参赛次数多、能够重复尝试的人。 成绩不理想时不进入 PI，成绩理想时保留，重复次数越多，获得高端结果的概率越高。

十一、为什么还不能断言现行 ITRA 一定会被这样利用

这个模型在历史均值校正公式下成立得非常清楚，但现行 ITRA 可能存在以下抑制机制：

使用相应距离历史成绩，而非综合 PI；
对缺乏同距离历史数据的选手降权；
使用中位数、截尾均值或稳健回归；
识别团队赛、陪跑赛或特殊赛事规则；
限制赛事校正系数的最大幅度；
剔除与历史预测严重不符的个体；
将团队类别与个人类别分别建立模型；
使用同一赛事历年数据作为独立锚点。

此外，ITRA 当前明确表示“精英选手是否到场”和“DNF人数”不会直接影响分数，因此不能简单地通过邀请几名高分选手或制造大量退赛来推高系数。(Itra)

真正值得担心的不是某一名高分选手，而是：

特殊赛制是否能够使大量参赛者系统性低于个人历史预测，并让算法把这种共同偏差解释成赛事整体难度。

男女共同完赛规则正好具备这种特征。

十二、怎样通过数据验证

最有说服力的检验方式，是在相同路线、相近天气下同时设置：

个人组；
男女共同完赛组。

然后比较相同完赛时间对应的最终 ITRA Race Score。

如果团队组和个人组使用不同赛事系数，并且团队组相同时间获得更高分，就说明组队约束被部分吸收进了赛事校正。

还可以对每支队伍定义实力差：

\[G_i=|M_i-F_i|\]

并观察：

\[\text{赛事平均搭档差距}\]

是否与：

\[\text{赛事校正幅度}\]

呈正相关。

在历史均值模型中，搭档差距越大：

\[\min(M_i,F_i)\]

相对于：

\[\frac{M_i+F_i}{2}\]

下降得越多，理论校正系数也越大。

最终还应观察高分是否真正进入选手的最好五场，而较强搭档的低分是否被排除。只有完成这一步，才能判断赛事是否不仅改变了单场分，还造成了综合 PI 的净上升。

结语

ITRA 表现分潜在的核心问题，并不是“每个人是否每场都会涨分”，而是三个结构组合在一起时可能产生的正反馈：

\[\boxed{\text{坏成绩基本不惩罚}}\] \[\boxed{\text{好成绩长期保留}}\] \[\boxed{\text{参赛者历史成绩又参与未来赛事校正}}\]

在普通赛事中，这种反馈可能较弱，也可能被现行算法的稳健机制抑制。

但在男女必须共同完赛的组队赛中，赛事规则会把两个人的表现压缩为较弱一方的速度，而赛事校准可能仍然看到两个人原有的独立能力。历史均值公式下，这会机械地产生大于1的赛事校正系数。

较弱者得到提高后的单场分；较强者的低分往往不进入最好成绩。于是，原本单场层面的分数转移，经过“最好成绩筛选”后，可能变成综合 PI 层面的净上涨。

这类机制揭示了标准化模型最难处理的问题：

算法最危险的偏差，往往不是把时间算错，而是把规则制造的“慢”，误认为赛道制造的“难”。

Life

trail-running ITRA

This post is licensed under CC BY 4.0 by the author.