Меню

Достоверность статистическая. Уровень статистической значимости (р)

Проблемы

Основные черты всякой зависимости между переменными.

Можно отметить два самых простых свойства зависимости между переменными: (a) величина зависимости и (b) надежность зависимости.

- Величина . Величину зависимости легче понять и измерить, чем надежность. Например, если любой мужчина в выборке имел значение числа лейкоцитов (WCC) выше чем любая женщина, то вы можете сказать, что зависимость между двумя переменными (Пол и WCC) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой.

- Надежность ("истинность"). Надежность взаимозависимости - менее наглядное понятие, чем величина зависимости, однако чрезвычайно важное. Надежность зависимости непосредственно связана с репрезентативностью определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит о том, насколько вероятно, что зависимость будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлеченной из той же самой популяции.

Следует помнить, что конечной целью почти никогда не является изучение данной конкретной выборки значений; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей популяции. Если исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры.

Величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна (см. следующий раздел).

Статистическая значимость результата (p-уровень) представляет собой оцененную меру уверенности в его "истинности" (в смысле "репрезентативности выборки"). Выражаясь более технически, p-уровень – это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий p-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию.

Например, p-уровень = 0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Во многих исследованиях p-уровень 0.05 рассматривается как "приемлемая граница" уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать "значимым". Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным.



На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований.

Обычно во многих областях результат p .05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%).

Результаты, значимые на уровне p .01 обычно рассматриваются как статистически значимые, а результаты с уровнем p .005 или p . 001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования .

Понятно, что чем большее число анализов будет проведено с совокупностью собранных данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно.

Некоторые статистические методы, включающие много сравнений, и, таким образом, имеющие значительный шанс повторить такого рода ошибки, производят специальную корректировку или поправку на общее число сравнений. Тем не менее, многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения данной проблемы.

Если связь между переменными "объективно" слабая, то не существует иного способа проверить такую зависимость кроме как исследовать выборку большого объема. Даже если выборка совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость "объективно" очень сильная, тогда она может быть обнаружена с высокой степенью значимости даже на очень маленькой выборке.

Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить.

Разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д.

Большинство этих мер, тем не менее, подчиняются общему принципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой зависимостью" между рассматриваемыми переменными. Говоря технически, обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных.

Значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными.

Таким образом, для того чтобы определить уровень статистической значимости, нужна функция, которая представляла бы зависимость между "величиной" и "значимостью" зависимости между переменными для каждого объема выборки.

Такая функция указала бы точно "насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет". Другими словами, эта функция давала бы уровень значимости
(p -уровень), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции.

Эта "альтернативная" гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой .

Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с классом распределений, называемым нормальным .

Статистика давно уже стала неотъемлемой частью жизни. С ней люди сталкиваются всюду. На основе статистики делаются выводы о том, где и какие заболевания распространены, что более востребовано в конкретном регионе или среди определенного слоя населения. На основываются даже построения политических программ кандидатов в органы власти. Ими же пользуются и торговые сети при закупке товаров, а производители руководствуются этими данными в своих предложениях.

Статистика играет важную роль в жизни общества и влияет на каждого его отдельного члена даже в мелочах. Например, если по , большинство людей предпочитают темные цвета в одежде в конкретном городе или регионе, то найти яркий желтый плащ с цветочным принтом в местных торговых точках будет крайне затруднительно. Но из каких величин складываются эти данные, оказывающие такое влияние? К примеру, что представляет собой «статистическая значимость»? Что именно понимается под этим определением?

Что это?

Статистика как наука складывается из сочетания разных величин и понятий. Одним из них и является понятие «статистическая значимость». Так называется значение переменных величин, вероятность появления других показателей в которых ничтожно мала.

К примеру, 9 из 10 человек надевают на ноги резиновую обувь во время утренней прогулки за грибами в осенний лес после дождливой ночи. Вероятность того что в какой-то момент 8 из них обуются в парусиновые мокасины - ничтожно мала. Таким образом, в данном конкретном примере число 9 является величиной, которая и называется «статистическая значимость».

Соответственно, если развивать далее приведенный практический пример, обувные магазины закупают к концу летнего сезона резиновые сапожки в большом количестве, чем в другое время года. Так, величина статистического значения оказывает влияние на обычную жизнь.

Разумеется, в сложных подсчетах, допустим, при прогнозе распространения вирусов, учитывается большое число переменных. Но сама суть определения значимого показателя статистических данных - аналогична, вне зависимости от сложности подсчетов и количества непостоянных величин.

Как вычисляют?

Используются при вычислении значения показателя «статистическая значимость» уравнения. То есть можно утверждать, что в этом случае все решает математика. Самым простым вариантом вычисления является цепь математических действий, в которой участвуют следующие параметры:

  • два типа результатов, полученных при опросах или изучении объективных данных, к примеру, сумм на которые совершаются покупки, обозначаемые а и b;
  • показатель для обеих групп - n;
  • значение доли объединенной выборки - p;
  • понятие «стандартная ошибка» - SE.

Следующим этапом определяется общий тестовый показатель - t, его значение сравнивается с числом 1,96. 1,96 - это усредненное значение, передающее диапазон в 95 %, согласно функции t-распределения Стьюдента.

Часто возникает вопрос о том, в чем отличие значений n и p. Этот нюанс просто прояснить при помощи примера. Допустим, вычисляется статистическая значимость лояльности к какому-либо товару или бренду мужчин и женщин.

В этом случае за буквенными обозначениями будет стоять следующее:

  • n - число опрошенных;
  • p - число довольных продуктом.

Численность опрошенных женщин в этом случае будет обозначено, как n1. Соответственно, мужчин - n2. То же значение будут иметь цифры «1» и «2» у символа p.

Сравнение тестового показателя с усредненными значениями расчетных таблиц Стьюдента и становится тем, что называется «статистическая значимость».

Что понимается под проверкой?

Результаты любого математического вычисления всегда можно проверить, этому учат детей еще в начальных классах. Логично предположить, что раз статистические показатели определяются при помощи цепи вычислений, то и проверяются.

Однако проверка статистической значимости - не только математика. Статистика имеет дело с большим количеством переменных величин и различных вероятностей, далеко не всегда поддающихся расчету. То есть если вернутся к приведенному в начале статьи примеру с резиновой обувью, то логичное построение статистических данных, на которые станут опираться закупщики товаров для магазинов, может быть нарушено сухой и жаркой погодой, которая не типична для осени. В результате этого явления число людей, приобретающих резиновые сапоги, снизится, а торговые точки потерпят убытки. Предусмотреть погодную аномалию математическая формула, разумеется, не в состоянии. Этот момент называется - «ошибка».

Вот как раз вероятность таких ошибок и учитывает проверка уровня вычисленной значимости. В ней учитываются как вычисленные показатели, так и принятые уровни значимости, а также величины, условно называемые гипотезами.

Что такое уровень значимости?

Понятие «уровень» входит в основные критерии статистической значимости. Используется оно в прикладной и практической статистике. Это своего рода величина, учитывающая вероятность возможных отклонений или ошибок.

Уровень основывается на выявлении различий в готовых выборках, позволяет установить их существенность либо же, наоборот, случайность. У этого понятия есть не только цифровые значения, но и их своеобразные расшифровки. Они объясняют то, как нужно понимать значение, а сам уровень определяется сравнением результата с усредненным индексом, это и выявляет степень достоверности различий.

Таким образом, можно представить понятие уровня просто - это показатель допустимой, вероятной погрешности или же ошибки в сделанных из полученных статистических данных выводах.

Какие уровни значимости используются?

Статистическая значимость коэффициентов вероятности допущенной ошибки на практике отталкивается от трех базовых уровней.

Первым уровнем считается порог, при котором значение равно 5 %. То есть вероятность погрешности не превышает уровня значимости в 5 %. Это означает, что уверенность в безупречности и безошибочности выводов, сделанных на основе данных статистических исследований, составляет 95 %.

Вторым уровнем является порог в 1 %. Соответственно, эта цифра означает, что руководствоваться полученными при статистических расчетах данными можно с уверенностью в 99 %.

Третий уровень - 0,1 %. При таком значении вероятность наличия ошибки равна доле процента, то есть погрешности практически исключаются.

Что такое гипотеза в статистике?

Ошибки как понятие разделяются по двум направлениям, касающимся принятия или же отклонения нулевой гипотезы. Гипотеза - это понятие, за которым скрывается, согласно определению, набор иных данных или же утверждений. То есть описание вероятностного распределения чего-либо, относящегося к предмету статистического учета.

Гипотез при простых расчетах бывает две - нулевая и альтернативная. Разница между ними в том, что нулевая гипотеза берет за основу представление об отсутствии принципиальных отличий между участвующими в определении статистической значимости выборками, а альтернативная ей полностью противоположна. То есть альтернативная гипотеза основана на наличии весомой разницы в данных выборок.

Какими бывают ошибки?

Ошибки как понятие в статистике находятся в прямой зависимости от принятия за истинную той или иной гипотезы. Их можно разделить на два направления или же типа:

  • первый тип обусловлен принятием нулевой гипотезы, оказавшейся неверной;
  • второй - вызван следованием альтернативной.

Первый тип ошибок называется ложноположительным и встречается достаточно часто во всех сферах, где используются статистические данные. Соответственно, ошибка второго типа называется ложноотрицательной.

Для чего нужна регрессия в статистике?

Статистическая значимость регрессии в том, что с ее помощью можно установить, насколько соответствует реальности вычисленная на основе данных модель различных зависимостей; позволяет выявить достаточность или же нехватку факторов для учета и выводов.

Определяется регрессивное значение с помощью сравнения результатов с перечисленными в таблицах Фишера данными. Или же при помощи дисперсионного анализа. Важное значение показатели регрессии имеют при сложных статистических исследованиях и расчетах, в которых участвует большое количество переменных величин, случайных данных и вероятных изменений.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Правило отклонения Hо и принятия h1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .

Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

Уровень значимости в статистике является важным показателем, отражающим степень уверенности в точности, истинности полученных (прогнозируемых) данных. Понятие широко применяется в различных сферах: от проведения социологических исследований, до статистического тестирования научных гипотез.

Определение

Уровень статистической значимости (или статистически значимый результат) показывает, какова вероятность случайного возникновения исследуемых показателей. Общая статистическая значимость явления выражается коэффициентом р-value (p-уровень). В любом эксперименте или наблюдении существует вероятность, что полученные данные возникли из-за ошибок выборки. Особенно это актуально для социологии.

То есть статистически значимой является величина, чья вероятность случайного возникновения крайне мала либо стремится к крайности. Крайностью в этом контексте считают степень отклонения статистики от нуль-гипотезы (гипотезы, которую проверяют на согласованность с полученными выборочными данными). В научной практике уровень значимости выбирается перед сбором данных и, как правило, его коэффициент составляет 0,05 (5 %). Для систем, где крайне важны точные значения, этот показатель может составлять 0,01 (1 %) и менее.

История вопроса

Понятие уровня значимости было введено британским статистиком и генетиком Рональдом Фишером в 1925 году, когда он разрабатывал методику проверки статистических гипотез. При анализе какого-либо процесса существует определенная вероятность тех либо иных явлений. Трудности возникают при работе с небольшими (либо не очевидными) процентами вероятностей, подпадающими под понятие «погрешность измерений».

При работе со статистическими данными, недостаточно конкретными, чтобы их проверить, ученые сталкивались с проблемой нулевой гипотезы, которая «мешает» оперировать малыми величинами. Фишер предложил для таких систем определить вероятность событий в 5 % (0,05) в качестве удобного выборочного среза, позволяющего отклонить нуль-гипотезу при расчетах.

Введение фиксированного коэффициента

В 1933 году ученые Ежи Нейман и Эгон Пирсон в своих работах рекомендовали заранее (до сбора данных) устанавливать определенный уровень значимости. Примеры использования этих правил хорошо видны во время проведения выборов. Предположим, есть два кандидата, один из которых очень популярен, а второй – малоизвестен. Очевидно, что первый кандидат выборы выиграет, а шансы второго стремятся к нулю. Стремятся – но не равны: всегда есть вероятность форс-мажорных обстоятельств, сенсационной информации, неожиданных решений, которые могут изменить прогнозируемые результаты выборов.

Нейман и Пирсон согласились, что предложенный Фишером уровень значимости 0,05 (обозначаемый символом α) наиболее удобен. Однако сам Фишер в 1956 году выступил против фиксации этого значения. Он считал, что уровень α должен устанавливаться в соответствии с конкретными обстоятельствами. Например, в физике частиц он составляет 0,01.

Значение p-уровня

Термин р-value впервые использован в работах Браунли в 1960 году. P-уровень (p-значение) является показателем, находящимся в обратной зависимости от истинности результатов. Наивысший коэффициент р-value соответствует наименьшему уровню доверия к произведенной выборке зависимости между переменными.

Данное значение отражает вероятность ошибок, связанных с интерпретацией результатов. Предположим, p-уровень = 0,05 (1/20). Он показывает пятипроцентную вероятность того, что найденная в выборке связь между переменными – всего лишь случайная особенность проведенной выборки. То есть, если эта зависимость отсутствует, то при многократных подобных экспериментах в среднем в каждом двадцатом исследовании можно ожидать такую ​​же либо большую зависимость между переменными. Часто p-уровень рассматривается в качестве «допустимой границы» уровня ошибок.

Кстати, р-value может не отражать реальную зависимость между переменными, а лишь показывает некое среднее значение в пределах допущений. В частности, окончательный анализ данных будет также зависеть от выбранных значений данного коэффициента. При p-уровне = 0,05 будут одни результаты, а при коэффициенте, равном 0,01, другие.

Проверка статистических гипотез

Уровень статистической значимости особенно важен при проверке выдвигаемых гипотез. Например, при расчетах двустороннего теста область отторжения разделяют поровну на обоих концах выборочного распределения (относительно нулевой координаты) и высчитывают истинность полученных данных.

Предположим, при мониторинге некоего процесса (явления) выяснилось, что новая статистическая информация свидетельствует о небольших изменениях относительно предыдущих значений. При этом расхождения в результатах малы, не очевидны, но важны для исследования. Перед специалистом встает дилемма: изменения реально происходят или это ошибки выборки (неточность измерений)?

В этом случае применяют либо отвергают нулевую гипотезу (списывают все на погрешность, или признают изменение системы как свершившийся факт). Процесс решения задачи базируется на соотношении общей статистической значимости (р-value) и уровня значимости (α). Если р-уровень < α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Используемые значения

Уровень значимости зависит от анализируемого материала. На практике используют следующие фиксированные значения:

  • α = 0,1 (или 10 %);
  • α = 0,05 (или 5 %);
  • α = 0,01 (или 1 %);
  • α = 0,001 (или 0,1 %).

Чем более точными требуются расчеты, тем меньший коэффициент α используется. Естественно, что статистические прогнозы в физике, химии, фармацевтике, генетике требуют большей точности, чем в политологии, социологии.

Пороги значимости в конкретных областях

В высокоточных областях, таких как физика частиц и производственная деятельность, статистическая значимость часто выражается как соотношение среднеквадратического отклонения (обозначается коэффициентом сигма – σ) относительно нормального распределения вероятностей (распределение Гаусса). σ – это статистический показатель, определяющий рассеивание значений некой величины относительно математических ожиданий. Используется для составления графиков вероятности событий.

В зависимости от области знаний, коэффициент σ сильно разнится. Например, при прогнозировании существования бозона Хиггса параметр σ равен пяти (σ=5), что соответствует значению р-value=1/3,5 млн. При исследованиях геномов уровень значимости может составлять 5×10 -8 , что не являются редкостью для этой области.

Эффективность

Необходимо учитывать, что коэффициенты α и р-value не являются точными характеристиками. Каким бы ни был уровень значимости в статистике исследуемого явления, он не является безусловным основанием для принятия гипотезы. Например, чем меньше значение α, тем больше шанс, что устанавливаемая гипотеза значима. Однако существует риск ошибиться, что уменьшает статистическую мощность (значимость) исследования.

Исследователи, которые зацикливаются исключительно на статистически значимых результатах, могут получить ошибочные выводы. При этом перепроверить их работу затруднительно, так как ими применяются допущения (коими фактически и являются значения α и р-value). Поэтому рекомендуется всегда, наряду с вычислением статистической значимости, определять другой показатель – величину статистического эффекта. Величина эффекта – это количественная мера силы эффекта.

Прежде чем собирать и изучать данные, психологи-экспериментаторы обычно решают, как эти данные будут анализироваться статистически. Часто исследователь устанавливает уровень значимости, определяемый как статистическая величина, выше (или ниже ) которой лежат значения, позволяющие считать влияние факторов неслучайным. Исследователи обычно представляют этот уровень в форме вероятностного выражения.

Во многих психологических экспериментах он может быть выражен как «уровень 0,05 » или «уровень 0,01 ». Это значит, что случайные результаты будут иметь место только с частотой 0,05 (1 из го раз) или 0,01 (1 из 100 раз) . Результаты статистического анализа данных, удовлетворяющие предварительно установленному критерию (будь то 0,05, 0,01 или даже 0,001) , называются далее статистически значимыми.

Следует отметить, что результат может не быть статистически значимым, но все же представлять определенный интерес. Нередко, особенно во время предварительных исследований или экспериментов с участием небольшого количества испытуемых или при ограниченном количестве наблюдений, результаты могут не достигать уровня статистической значимости, но дают основание предполагать, что в дальнейших исследованиях при более точном контроле и при большем количестве наблюдений они приобретут большую достоверность. В то же время экспериментатор должен быть очень осторожен в своем стремлении к целенаправленному изменению условий эксперимента для достижения желаемого результата любой ценой.

В другом примере плана 2×2 Цзи использовал два типа испытуемых и два типа заданий для изучения влияния специальных знаний на запоминание информации.

В своем исследовании Цзи изучал запоминание чисел и шахматных фигур (переменная А ) детьми на креслах RECARO Young Sport и взрослыми (переменная В ), то есть по плану 2х2. Дети были 10-летнего возраста и хорошо играли в шахматы, тогда как взрослые были новичками в этой игре. В первом задании нужно было запомнить расположение фигур на доске, каким оно может быть при нормальной игре, и восстановить его после того, как фигуры будут убраны. В другой части этого задания нужно было запомнить стандартную серию чисел, как это обычно делается при определении IQ.

Оказывается, специальные знания, такие как умение играть в шахматы, облегчают запоминание относящейся к этой области информации, но не оказывают большого влияния на запоминание чисел. Взрослые, не слишком искушенные в премудростях древнейшей игры, запоминают меньше фигур, но в запоминании чисел проявляют себя более успешно.

В тексте отчета Цзи дает статистический анализ, математически подтверждающий представленные результаты.

План 2×2 является простейшим из всех факторных планов. Увеличение количества факторов или уровней отдельных факторов значительно усложняет эти планы.