Оценка погрешности выборки при ограниченном количестве данных

Что делать, если сезон только начался, но данных для достоверных выводов еще недостаточно? В этой статье Доминик объясняет на двух примерах, как можно использовать метод бутстреппинга для сведения к минимуму влияния параметрической погрешности из-за небольших выборок.

865434535

Основным методом, используемым для прогноза результатов футбольного матча, является распределение Пуассона, как было описано в предыдущей статье Pinnacle. Подробнее о методах прогнозирования победителя футбольных ставок с помощью распределения Пуассона можно узнать здесь.

Метод основан преимущественно на подсчете ожидаемого среднего значения команды хозяев в зависимости от ее возможностей в атаке и защите.  Он также относится к подсчету ожидаемого среднего значения команды гостей.

Тем не менее при использовании этого метода в начале сезона мы столкнемся с проблемой, поскольку игр для выборки недостаточно. Кроме того, если при расчете будет учитываться один матч с экстремальным результатом, например матч с высоким количеством забитых голов или серия матчей с нулевым счетом, это сильно отразится на оценке.

Мы действительно получим высокую параметрическую погрешность. Подробнее о том, как построить модель размещения ставок, можно узнать здесь.

Для измерения степени параметрической погрешности предлагается использовать методику бутстреппинга. Бутстреппинг относится к решению, в котором моделируются размеры выборок.

На время написания статьи большинство команд премьер-лиги сыграли менее 5 матчей дома и 5 матчей в гостях каждая.

В качестве примера я могу порекомендовать два метода.

Метод 1: прямой подход

Этот метод включает выборку с заменой, т. е. создание выборок одинаковых размеров с возможностью использовать одно и то же значение несколько раз.

Рассмотрим домашние матчи Leicester City, в которых они забили 3, 2, 2 и 1 гол в играх против Aston Villa, West Ham, Arsenal и Crystal Palace соответственно. В этой выборке среднее значение забитых в домашних матчах голов составляет 2.

Теперь давайте смоделируем другую случайную выборку из четырех голов с помощью этих значений. Этот метод аналогичен созданию случайных значений в имитационном моделировании по методу Монте-Карло. Дополнительные наборы выборок в таком случае могут быть следующие:

  •       Выборка 1: 2, 2, 2, 1.
  •       Выборка 2: 1, 1, 3, 2.
  •       Выборка 3: 3, 3, 2, 2.
  •       Выборка 4: 1, 2, 1, 1.

Примите во внимание, что вероятность выбора двух голов должна быть в два раза выше, чем вероятность выбора одного или трех голов при каждом выборе, и что в каждом случае мы можем получить другое среднее значение. И это не всегда «два».

В этом случае среднее значение на выборку будет составлять 1,75; 1,75; 2,5 и 1,25 соответственно. Мы думаем, что средний показатель 2, но значения показывают, что он может варьироваться в диапазоне от 1,25 до 2,5.

Мы также можем увеличить его, рассчитав значительное количество разных выборок, полученных методом бутстреппинга, и увидеть стандартное отклонение результатов.

Метод 2: нестандартный

Для матчей Leicester мы могли бы сгенерировать ‘ожидаемый результат’. Его можно сгенерировать так же, как и по методу Пуассона, но используя данные предыдущего сезона .

Давайте, например, рассмотрим матч против Aston Villa.   Среднее количество забитых голов в домашних играх сезона 2014/15 в премьер-лиге составило 1,474. Команда Leicester забила 28 голов в 19 домашних матчах, в то время как Aston Villa пропустила только 32 гола в 19 гостевых матчах.

Исходя из этого сила атаки Leicester составляет 1. Это означает, что они играли дома как обычная команда. С другой стороны, среднее количество пропущенных голов у Aston Villa составляет 1,684.

Если разделить это значение на 1,474 , мы получим 114,29 %. Это значит, что команда Aston Villa пропустила при игре в гостях на 14 % больше голов, чем обычно. С учетом этого ожидается, что команда Leicester забьет в среднем 1*1,1429*1,474 = 1,684 гола в домашних матчах команде Aston Villa.

Повторив эту процедуру для всех сыгранных ими матчей, мы получим ожидаемое количество забитых за матч голов, которое приводится в таблице ниже. Здесь мы видим, что количество забитых командой Leicester голов превышает ожидаемое, за исключением игры против Crystal Palace.

Они показаны в строке «Разница», которую на техническом языке можно назвать остаточной погрешностью.

Команда Aston Villa West Ham Arsenal Crystal Palace
Ожидаемое количество голов 1.684 1,526 1.158 1.263
Забитые голы 3 2 2 1
Разница 1.316 0.474 0.842 -0.263

Аналогично методу 1 мы получили выборку с заменой некоторых остаточных погрешностей. В связи с этим некоторые возможные остаточные погрешности в пределах выборки будут следующие:

  •       Выборка 1: 1,316; 1,316; 0,474; 0,474.
  •       Выборка 2: 0,474; –0,263; –0,263; 0,474.

Теперь добавим этим остаточные погрешности выборки к ожидаемым результатам, чтобы получить другие выборки по забитым в домашних матчах голов:

  •       Выборка 1: 3,000; 2,842; 1,632; 1,737.
  •       Выборка 2: 2,158; 1,263; 0,895; 1,737.

Среднее значение будет определено для каждой выборки, и мы сможем использовать его для расчета среднего количества голов, забитых командой хозяев, для различных параметров.

Вывод

Это не совсем быстрый и легкий способ расчета, но он не требует обширных знаний в программировании. Откройте электронную таблицу и вы сможете протестировать диапазон возможных параметров. Однако имейте в виду, что при использовании второго из описанных выше методов вам также придется анализировать остаточную погрешность при расчете количества голов, забитых командой гостей.

sportstatist.com

Источник: pinnacle.com