Как интерпретировать размер эффекта?
ВСТУПЛЕНИЕ

Мы не часто публикуем подобные статьи, но сейчас решили перевести кусочек из очень крутой, хоть и старой научной статьи об интепретации размеров эффекта. Возможно, она будет интересна и полезна тем, кто желает получше разобраться в вопросах математической статистики, применительно к научным исследованиям.

Перевела Наталия Буткова для группы EQUALITY. Проверил Алексей Стукальский.

ПЕРЕВОД

Что можно сказать о размере эффекта, так это то, что, зная его, можно прямо говорить о взаимоотношении двух выборок в процентильном эквиваленте.

Размер эффекта точно соответствует Z-оценке ('Z-score') стандартного нормального распределения. Например, размер эффекта в 0,8 значит, что средний человек в экспериментальной группе имеет 0,8 стандартного отклонения от среднего человека в контрольной группе, и, таким образом, превышает показатели 79% в контрольной группе. В двух группах эксперимента на влияние времени суток, средний человек в группе «дня» (например, человек, который бы был десятым в группе) получил бы такие же результаты, как четвертый в группе «утра». Визуализация результатов этих двух людей может наглядно показать разницу между двумя размерами эффекта.

В Таблице 1 можно посмотреть перевод размеров эффектов (1й столбец) в перцентили (2й столбец) и эквивалентное изменение в рейтинге для группы из 25 человек (3й столбец). Например, для размера эффекта 0,6, значение 73% показывает, что средний человек в экспериментальной группе получит более высокие показатели, чем 73% человек в контрольной группе, хотя изначально они были равны. Если в группе было 25 человек, то средний человек в данной группе (13-й в рейтинге) будет наравне с 7-м по рейтингу человеком в контрольной группе. Заметьте, что размер эффекта 1,6 уравняет среднего человека в экспериментальной группе и человека с лучшим рейтингом в контрольной группе. Таким образом, больший размер эффекта будет сравниваться с лучшим результатом в большей группе. Например, размер эффекта в 3,0 уравняет среднего человека в экспериментальной группе из 740 человек с человеком, у которого изначально был наивысший результат.

Таблица 1: Интерпретация размеров эффекта
Также результаты можно представить как вероятность догадаться, из какой группы человек только на основании их результата – либо качества, по которому группы сравнивали. Если размер эффекта 0 (т.е. группы были одинаковые), то вероятность правильно угадать будет 50% - или 0.50. Если разница между группами была оценена в размер эффекта 0.3, то многие участники могут быть как в одной, так и в другой группах, и возможность правильно угадать немного поднимается лишь до 0,56. Если размер эффекта = 1, то вероятность становится 0,69 – немногим больше 2\3. Данный параметр – возможность догадаться – представлен в четвертом столбце Таблицы 1. Очевидно, что многие люди совпадают в экспериментальной и контрольной группах (так что вероятность угадать все еще близка к 0,5), даже если размер эффекта достаточно велик.

Еще один способ интерпретировать размер эффекта – это использовать стандартизованную разность средних (стандартизированная средняя разница) (d) и коэффициент корреляции (r). Если мы введем условную переменную для обозначения контрольной группы (0) и экспериментальной группы (1), то отношение между этой условной и результатами будет значением r. Если принять дополнительные условности, можно легко перевести стандартизованную разность средних d в коэффициент корреляции r , используя формулу r2 = d2 / (4+d2) (см. Cohen, 1969, с20-22 для других формул и таблицы перевода). Розенталь и Рубин (1982), опираясь на свойства r, предлагают использовать еще одну интерпретацию, которую они называют «биномный показатель размера эффекта» (BESD). Если результат свести к простому противопоставлению (например, был ли результат выше или ниже определенного значения – например, медианного – что может считаться как 'успех' или 'провал'), r можно понимать, как пропорцию в каждой из категорий.

Например, размер эффекта 0.2 указывает на разницу в пропорциях в 0.1, то есть 45% в контрольной группе и 55% в экспериментальной группе были ‘успешны’. Однако, если процент ‘успешных’ результатов не был близок к 50%, то эта интерпретация может вводить в заблуждение (Strahan, 1991; McGraw, 1991). Показатель BESD указан в 5 столбце.

Наконец, McGraw и Wong (1992) предложили использовать статистический показатель CLES – «Размер эффекта простым языком» - который, по утверждению авторов, будет понятен и людям, не знакомым со статистикой (этот показатель отражен в 6 столбце таблицы 1). Это вероятность, что случайно выбранный результат из одной группы будет выше, чем результат из другой группы. Они приводят такой пример: рост взрослых мужчин и женщин различается, размер эффекта у этого показателя около 2. Если перевести этот размер эффекта в CLES, то он будет равняться 0.92. То есть «в 92 случаях из 100, на свидании вслепую мужчина будет выше женщины» (с.361).

Стоит отметить, что показатели в Таблице 1 работают при условии, что есть стандартное распределение. Интерпретация размеров эффекта в перцентилях очень чувствительна к этому условию (см. вопрос 7 ниже).

Еще один способ интерпретировать размер эффекта – сравнить его с известной разницей. Например, Cohen (1969, p23) описывает размер эффекта в 0.2 как «малый» и, чтобы проиллюстрировать, говорит, что разница в росте 15 и 16-летних девушек в США будет оцениваться в этих пределах. Размер эффекта в 0.5 описывается как «средний» - он «достаточно велик, чтобы быть заметным». Размер эффекта в 0.5 будет описывать разницу в росте 14-летних и 18-летних девушек. Cohen описывает размер эффекта в 0.8 как «очень заметный, т.е. – большой». Это будет разница в росте 13-летних и 18-летних девушек. Как дополнительную иллюстрацию, демонстрирующую размер эффекта в 0.8, он использует IQ докторов наук и «обычных первокурсников».

Cohen признает, что есть опасность использования описания типа «малый», «средний» и «большой» вне контекста. Glass et al. (1981, p104) очень критично относятся к такой интерпретации, считая, что эффективность определенного вмешательства может быть интерпретирована только в сравнении с другими схожими экспериментами, пытающимися получить схожие результаты. Также они отмечают, что практическая важность эффекта зависит исключительно от относительных затрат и пользы. В образовании, если возможно доказать, что небольшие и недорогие изменения могут поднять успеваемость, даже если размер эффекта в данном случае всего 0,1, то это может быть значительным улучшением, особенно если подобные изменения можно применить ко всем студентам, а особенно, если эффект будет накапливаться (становиться больше) со временем.

Таблица 2: примеры средних размеров эффекта из исследований:
Glass et al. (1981, p102) говорят, что размер эффекта = 1 обозначает примерно год обучения в начальной школе (если судить по результатам тестов на успеваемость). Однако анализ стандартного теста на правописание, используемого в Великобритании (Vincent and Crumpler, 1997) показал, что разница в результатах тестов, соответствующая году обучения (между 11 и 12 годами) соответствует размеру эффекта в 0,3, однако будет разниться в зависимости от используемого теста.

В Англии, результаты GCSE (общий сертификат о среднем образовании, аналог ГИА) по обязательным предметам (например, математика и английский) имеют стандартную девиацию в 1,5-1,8 балла, так что улучшение на один балл в GCSE будет размером эффекта в 0,5-0,7. Таким образом, в контексте среднего образования, внедрение одной из мер, продемонстрировавших размер эффекта в 0,6 приведет к улучшению результатов GCSE для каждого ученика в каждом предмете. В школе, где 50% учеников получали оценки от А до С (70%-100% успеваемость), количество успешных учеников увеличилось бы до 73% (при всех прочих равных, и при условии, что эффект применят на всю программу). Даже «малый» эффект (по классификации Cohen) в 0,2 увеличил бы количество успешных учеников с 50 до 58% - большинство школ оценили бы такую разницу как «значительную». Olejnik and Algina (2000) дают схожий пример по Iowa Test of Basic Skills (Тест на базовые навыки штата Айова).

Наконец, интерпретацию размеров эффекта можно проиллюстрировать результатами из существующих исследований. В Таблице 2 приведен список исследований, многие из которых были почерпнуты из Lipsey and Wilson (1993). Приведенные примеры даны для иллюстрации использования измерений размера эффекта, они не подразумеваются как окончательный вывод об эффективности тех или иных изменений. Также при интерпретации данных из этой таблицы важно помнить, что большинство мета-анализов могут быть (и часто уже были) раскритикованы из-за некоторых недостатков, что условия, при которых проявляется эффект могут быть ограничены и что размер эффекта – это среднее, основанное на широком разбросе данных.

Большинство исследований об инновациях в образовании имеют «малый» (по классификации Cohen) размер эффекта. Особенно это касается эффектов на успеваемости учеников. Несомненно, это результат высокой вариативности в популяции, в сравнении с которой и высчитывается размер эффекта. Можно также предположить, что сложно повлиять на успеваемость, так как школы уже прикладывают много усилий для достижения максимальной успеваемости; или же разные стратегии будут эффективны в разных ситуациях – и это не отражается в усредненном размере эффекте в единичном эксперименте.

Оригинал: https://www.leeds.ac.uk/educol/documents/00002182.htm
6 АВГУСТА / 2020
Перевела Наталия Буткова для группы EQUALITY. Проверил Алексей Стукальский.
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website