Это «обращенное» дерево дает в точности те же числа, но учитывает временной порядок, в котором мы получаем информацию (тестирование → допинг), а не порядок по фактической временнóй шкале (допинг → тестирование). Это «обращение» как раз и есть тем, что делает теорема Байеса; на самом деле байесовское мышление до 1950-х именовалось «обратной вероятностью».
Пример со спортивным допингом показывает, насколько легко спутать вероятность наличия допинга при условии положительного теста (28%) с вероятностью положительного теста при условии наличия допинга (95%). Мы уже сталкивались со случаями, когда вероятность события А при условии, что произошло событие В, путали с вероятностью события В при условии, что произошло событие А:
— неправильная интерпретация P-значений, когда вероятность какого-то факта при условии нулевой гипотезы
смешивается с вероятностью нулевой гипотезы при условии этого факта;
— ошибка прокурора в судебных разбирательствах, когда вероятность факта при условии невиновности путается
с вероятностью невиновности при условии такого факта.
Разумный наблюдатель может подумать, что формальное байесовское мышление внесло бы ясность и строгость в работу с доказательствами в судебных разбирательствах, а потому точно удивится, узнав, что британские суды фактически запрещают теорему Байеса. Прежде чем объяснить, почему, нам нужно рассмотреть статистическую величину, которая в суде разрешена, — отношение правдоподобия.
Отношение шансов и отношение правдоподобия
Пример с допингом демонстрирует логические шаги, позволяющие добраться до той величины, которая действительно важна при принятии решения: среди спортсменов с положительным тестом доля реальных допингистов 19/68. Дерево ожидаемых количеств показывает, что эта величина зависит от трех ключевых чисел: доли атлетов, принимаюших допинг (1/50, или 20 человек из 1000 в нашем дереве), доли допингистов, которые тест определяет правильно (95%, или 19/20 в дереве), и доли честных атлетов с ложноположительным результатом теста (5%, или 49/980 в дереве).
С помощью дерева ожидаемых количеств анализ становится вполне интуитивно понятным, хотя теорема Байеса также
предоставляет удобную формулу для выражения в вероятностях.
Но сначала мы должны вернуться к идее шансов, введенной в главе 1, хотя опытные игроки, по крайней мере в Британии, прекрасно с ней знакомы. Шансы на какое-то событие — это вероятность того, что оно произойдет, деленная на вероятность того, что оно не произойдет. Например, если мы бросаем игральную кость, то шансы на выпадение шестерки — 1 к 5. На самом деле вероятность выпадения шестерки равна 1/6, а вероятность выпадения нешестерки — 5/6; поэтому шансы на выпадение шестерки равны 1/6 : 5/6 = 1/5* (обычно именуется «один к пяти» или «пять против одного», если вы используете британский метод выражения шансов в азартных играх).
Теперь нам нужно ввести идею отношения правдоподобия — понятия, ставшего критически важным при выражении силы
судебных доказательств в уголовном судопроизводстве. Судьи и адвокаты постепенно учатся понимать отношения правдоподобия, которые фактически сравнивают относительную поддержку, предоставляемую неким фактом (свидетельством, доказательством) для двух конкурирующих гипотез, назовем их А и В, часто означающих виновность и невиновность. С технической точки зрения отношение правдоподобия — это вероятность факта при условии гипотезы А, деленная на вероятность факта при условии гипотезы В.
Давайте посмотрим, как это работает в случае с пробой на допинг, когда судебный факт — это положительный результат теста, гипотеза А — спортсмен принимал допинг, а гипотеза В — не принимал.
Мы приняли, что 95% допингистов сдают положительный тест, значит, вероятность такого факта при условии гипотезы А равна 0,95. Мы знаем, что 5% атлетов, не принимающих допинг, сдают положительный тест, поэтому вероятность такого факта при условии гипотезы В составляет 0,05. Следовательно, отношение правдоподобия равно 0,95/0,05 = 19, то есть положительный результат теста в 19 раз более вероятен, когда спортсмен виновен, чем когда невиновен. На первый взгляд это может показаться довольно веским доказательством, но вскоре мы увидим отношения правдоподобия, составляющие миллионы и миллиарды.
Давайте соединим все это в теореме Байеса, которая просто говорит, что начальные шансы какой-то гипотезы × отношение
правдоподобия = конечные шансы для этой гипотезы.
В примере с допингом начальные шансы гипотезы «спортсмен принимал допинг» составляют 1 к 49, а отношение правдоподобия равно 19, поэтому теорема Байеса гласит, что конечные шансы равны
1/49 × 19 = 19/49.
Шансы 19 к 49 можно преобразовать в вероятность 19/(19 + 49) = 28%. Таким образом, вероятность, которую мы получили более простым путем из дерева ожидаемых количеств, можно вывести и из теоремы Байеса.
На более формальном языке начальные шансы именуются априорными, а конечные — апостериорными. Формулу можно
применить еще раз, и тогда апостериорные шансы после первого факта станут априорными перед учетом второго, независимого, факта. При объединении всех этапов процесс эквивалентен умножению независимых отношений правдоподобия и формированию общего составного отношения правдоподобия.
Теорема Байеса выглядит обманчиво простой, но на самом деле в ней заключен чрезвычайно мощный способ получения информации из данных.