Использование хи-квадрата для принятия взвешенных решений при размещении ставок

Для того чтобы выстроить успешную модель размещения ставок, все игроки должны собрать как можно больше данных. Но насколько хорошо данные подходят к определенным ожидаемым сценариям? Доминик Кортис объясняет, насколько важную роль играет статистический критерий в анализе данных.

46342234242

Моделирование и проверка результатов включает в себя сравнение значений, ожидаемых в идеальных условиях, с фактически наблюдаемыми значениями. Журнал Pinnacle Sports Pulse неоднократно опубликовывал статьи о видах распределений и результатов. В предыдущей статье мы говорили о том, что одной из возможных ошибок является применение неправильных параметров в правильной модели (например, сочетание маленькой выборки и большого значения).

Говоря на техническом языке, мы измеряем статистический критерий, т. е. то, насколько хорошо наблюдаемые данные подходят для ожидаемого сценария.

Как объясняется в этой статье об ошибках в моделях, это не совместимо не с выбором «правильного вида», а с выбором «правильного размера» модели. Одним из наиболее простых способов измерения является проверка по критерию χ2 (читается как проверка по критерию хи-квадрат).

Бросок игрального кубика

Если бросить игральный кубик 60 раз, можно ожидать, что каждое число (1, 2, …, 6) выпадет 10 раз. Не следует поддаваться ошибке игрока, ведь после того, как за 40 бросков число 2 выпало 10 раз, нельзя утверждать, что оно не может выпасть снова.

Таким образом, можно ли утверждать, что значения на игральном кубике систематически отклоняются от ожидаемых, если числа 1, 2, 3, 4, 5 и 6 выпали 9, 11, 10, 9, 12 и 9 раз соответственно? Действительно, эта ситуация отличается от той, когда каждое число выпадает 10 раз, но основной вопрос в том, так ли значительна разница.

Как можно увидеть в приведенной ниже таблице, отклонение, т. е. разница между наблюдаемым и ожидаемым значениями, варьируется от –2 до 1.

Значение 1 2 3 4 5 6
Ожидаемое значение = О 10 10 10 10 10 10
Наблюдаемое значение = Н 9 11 10 9 12 9
Отклонение = О – Н 1 –1 0 1 –2 1
[О – Н]² ÷ О 0,1 0,1 0 0,1 0,4 0,1

Нас интересует измерение суммарного отклонения, которое покажет, насколько сильно значения, выпавшие на игральном кубике, отличаются от идеального сценария. Сумма отклонений равна 0, так как и наблюдаемые, и ожидаемые значения вместе составляют 60 бросков.

Существует множество способов решить эту задачу, например применение абсолютных значений (т. е. превращение всех значений в положительные) или расчет процентной разницы.

Однако для получения «точных» математических свойств мы измерим относительное изменение в квадратичном отклонении. Т. е. следует возвести каждое отклонение в квадрат и разделить результат на ожидаемое значение.

Например, в случае, если число 5 выпало 12 раз, формула будет выглядеть так: 2*2 ÷ 10 = 0,4. Если сложить все эти значения, получится, что критерий χ2 равен 0,8.

Проверка по критерию хи-квадрат

Критерий χ2 измеряет суммарное расхождение между ожидаемой и наблюдаемой частотой: чем больше его значение, тем больше разница между ними. Хотя можно измерить это значение максимально точно, для упрощения мы используем пороговые точки.

Их можно найти в любой статистической таблице, например, большое количество пороговых точек включено в сборник таблиц Королевского статистического общества (страница 6). Давайте возьмем столбец со значением 0,05 и уровнем значимости 5 %.

В то время как нормальное распределение основывается на двух параметрах (среднем и среднеквадратичном отклонениях), а распределение Пуассона — на одном параметре (среднее отклонение), распределение хи-квадрат основывается на одном параметре: степени свободы.

В этом случае имеем 6 вероятных результатов. Таким образом, для требуемого значения будет пять степеней свободы, на одну меньше. Критическое значение χ2 , т. е. значение, которое χ2 должен превысить, чтобы свидетельствовать о разнице, равно 11,070.

Так как полученное нами значение намного меньше, следовательно, свидетельство того, что значения этого игрального кубика отличаются, отсутствует.

ChiSquare.png

Рисунок 1. Таблица, посвященная критерию хи-квадрат, в сборнике таблиц Королевского статистического общества

Так как этот метод требует времени, мы также создали небольшое приложение (приведено внизу), которое позволяет сравнивать наблюдаемые и ожидаемые значения.

Проверьте результаты для следующих наблюдаемых значений: десятикратных (наблюдаемое значение = 90, 110, …; ожидаемое значение = 100 для всех) и стократных (900, 1100, …) — и вы заметите, что, хотя пропорции остались неизменными, для больших выборок заметно, что значения игрального кубика систематически отклоняются. Причина в том, что незначительное отклонение вполне возможно, в то время как систематическое отклонение свидетельствует о большем несовпадении.

Ограничения

В этом заключается основное ограничение данной проверки: она свидетельствует о разнице (не доказывает ее), но недостаток свидетельств не означает, что значения равны. Кроме того, приведенное выше приложение использует только 5%-ный уровень значимости. Это означает, что признаком разницы является расхождение, которое по идеальному сценарию случается менее 1 раза из 20. И наконец, для проверки по критерию хи-квадрат нужно по меньшей мере 5 ожидаемых значений для каждой категории.

sportstatist.com

Источник: pinnacle.com