Статистическая проверка генетических гипотез

 

Рассмотрим эксперимент, в котором Мендель скрещивал высокие растения (АА) с низкими (аа). В поколении F1 скрещиваются гетерозиготы Аа х Аа. В F2 было получено 787 высоких и 277 низких растений. Согласно гипотезе Менделя, в поколении F2 соотношение высоких (АА и Аа) и низких (аа) растений должно быть 3 : 1. Если бы отношение выполнялось точно, то из 1064 потомков 798 были бы высокими, 266 – низкими. Решение вопроса о том, случайно ли это различие или расщепление не соответствует теоретически ожидаемому, возможно с помощью статистических методов.

Очень прост и удобен метод хи-квадрат (χ2). Применение этого метода сводится к расчету величины χ2 и её оценке. Функция χ2 определяется как

χ2 = Σ [ (Н – О)2 / О ],

где Н – наблюдаемое значение, О – ожидаемое значение, символ Σ означает суммирование по всем сериям экспериментов.

Находится ли результат, полученный Менделем, в соответствии с его гипотезой? Рассчитаем значение хи-квадрат для этого эксперимента:

Последовательность действий Высокие растения Низкие растения Всего
Наблюдаемые значения (Н)
Ожидаемые значения (О) 1064 х ¾ = 798 1064 х ¼ = 266
Н – О - 11 +11
(Н – О)2  
(Н – О)2 0,15 0,44 χ2 = 0,59

Подтверждает ли полученное значение критерия исходную гипотезу? Иными словами, можно ли разность между теоретически ожидаемой и реально наблюдаемой величинами отнести за счет случайности? Чтобы ответить на этот вопрос, познакомимся с двумя понятиями: число степеней свободы и уровень значимости (достоверности).

Число степеней свободы легко определить как число «классов», объемы которых должны быть известны, для того, чтобы подсчитать объемы всех классов, исходя из общего объемы выборки. В нашем примере число степеней свободы равно единице, так как если мы знаем объем одного класса (например, 787 высоких растений), то можем определить объем другого класса вычитанием объема первого класса из общего объема (1064 – 787 = 277). Вообще, в экспериментах такого типа число степеней свободы на единицу меньше числа классов, т.е. k – 1, поскольку последний класс может быть подсчитан вычитанием суммы всех остальных классов из их общего числа.

Уровень значимости отражает риск того, что мы отвергнем истинную гипотезу. Различия между ожидаемыми и наблюдаемыми значениями могут варьировать в силу случайных причин. Однако, если вероятность того, что расхождение объясняется случайными причинами, очень мала, то гипотеза отвергается, хотя и не исключено, что она верна. Обычно в качестве первого уровня значимости выбирается значение 5%. Это означает, что гипотезу решено считать неверной, если вероятность того, что расхождение между теоретическими и экспериментальными данными, обусловленное только случайными причинами, составляет не более 5%. Значения χ2 для различного числа степеней свободы и уровней значимости 5, 1 и 0,1% приведены в таблице 1.

В нашем примере χ2 = 0,59; степень свободы одна. Расхождение между теоретическими и экспериментальными значениями допустимо, поскольку оно меньше значения хи-квадрата для одной степени свободы и 5% уровня значимости (см. табл.1.). Следовательно, мы можем утверждать, что данные эксперимента согласуются с гипотезой Менделя и что различие между ожидаемыми и наблюдаемыми значениями объясняются случайными причинами.