Одна причина, чому деякі наукові дослідження можуть бути неправильними

Існує криза відтворюваності в науці - невідомі «хибнопозитивні» пронизує навіть наші найкращі наукові журнали.

Помилковий позитив - це твердження, що ефект існує тоді, коли насправді його немає. Ніхто не знає, яка частка опублікованих статей містить такі неправильні або завищені результати, але є ознаки того, що ця частка не мала.

Епідеміолог Джон Іоаннідіс дав найкраще пояснення цьому явищу у відомій газеті 2005 року, провокаційно під назвою «Чому більшість опублікованих результатів досліджень є хибними”. Однією з причин, чому Іоанідіс дав таку кількість хибних результатів, стали називати "p хакерство », що виникає внаслідок тиску дослідників на досягнення статистичної значущості.

Що таке статистична значимість?

Щоб зробити висновки з даних, дослідники зазвичай спираються перевірка значущості. Простіше кажучи, це означає розрахунок "p значення », що є ймовірністю таких результатів, як наш, якщо дійсно немає ефекту. Якщо p значення є достатньо малим, результат оголошується статистично значущим.

Традиційно, a p значення менше 05 є критерієм значущості. Якщо ви повідомляєте а p<.05, читачі, швидше за все, повірять, що ви знайшли реальний ефект. Можливо, однак, насправді ефекту немає, і ви повідомили про хибнопозитивний результат.


Innersele підписатися графіка


Багато журналів будуть публікувати лише дослідження, які можуть повідомити про один або кілька статистично значущих ефектів. Аспіранти швидко дізнаються, що досягнення міфічного p

Цього тиску потрібно досягти pp злому.

Приманка p злом

Проілюструвати p хакерство, ось гіпотетичний приклад.

Брюс нещодавно закінчив докторську ступінь і отримав престижний грант, щоб приєднатися до однієї з найкращих дослідницьких груп у своїй галузі. Його перший експеримент не вдався, але Брюс швидко уточнює процедури і проводить друге дослідження. Це виглядає більш перспективно, але все одно не дає p значення менше 05.

Переконавшись, що він на щось замислюється, Брюс збирає більше даних. Він вирішує відмовитися від кількох результатів, які виглядали явно далекими.

Потім він помічає, що один із його заходів дає більш чітке уявлення, тому зосереджується на цьому. Ще кілька налаштувань, і Брюс нарешті виявляє трохи дивовижний, але дійсно цікавий ефект, який досягається p

Брюс так сильно намагався знайти ефект, що він знав десь таївся. Він також відчував тиск удару p

Є лише один підступ: насправді ефекту не було. Незважаючи на статистично значущі результати, Брюс опублікував хибнопозитивний результат.

Брюс відчув, що він використовує свої наукові знання, щоб виявити прихований ефект, коли він робив різні кроки після початку свого дослідження:

  • Він зібрав додаткові дані.
  • Він кинув деякі дані, які здавалися хибними.
  • Він відмовився від деяких заходів і зосередився на найбільш перспективних.
  • Він проаналізував дані трохи інакше і зробив ще кілька змін.

Біда в тому, що всі ці вибори були зроблені після побачивши дані. Брюс, можливо, несвідомо, вибирав і вибирав, поки не отримав невловимого pp

У статистиків є приказка: якщо ви досить мучите дані, вони зізнаються. Вибір та налаштування, зроблені після перегляду даних, є сумнівною дослідницькою практикою. Використовуючи їх навмисно чи ні, для досягнення правильного статистичного результату варто p злом, що є однією з важливих причин того, що опубліковані статистично значущі результати можуть бути хибнопозитивними.

Яка частка опублікованих результатів є неправильною?

Це гарне питання, і по -диявольськи хитромудре. Ніхто не знає відповіді, яка, ймовірно, буде різною в різних галузях дослідження.

Великі та вражаючі спроби відповісти на питання соціальної та когнітивної психології були опубліковані у 2015 р. Під керівництвом Брайана Носека та його колег з Центру відкритих наук, Проект відтворення: Психологія (RP: P) було 100 дослідницьких груп по всьому світу, кожна з яких ретельно повторювала один із 100 опублікованих результатів. В цілому, приблизно 40 відтворюється досить добре, тоді як приблизно в 60 випадках дослідження реплікації дали менші або набагато менші ефекти.

Дослідження реплікації 100 RP: P повідомляли про ефекти, які були в середньому лише вдвічі меншими за ефекти, про які повідомляли оригінальні дослідження. Ретельно проведені повтори, ймовірно, дають більш точні оцінки, ніж можливо p зламували оригінальні дослідження, тому ми могли зробити висновок, що оригінальні дослідження переоцінили справжній ефект у середньому в два рази. Це тривожно!

Як уникнути p злом

Найкращий спосіб уникнути p хакерство полягає у тому, щоб уникнути будь -якого вибору або налаштування після перегляду даних. Іншими словами, уникайте сумнівної дослідницької практики. У більшості випадків найкращим способом цього є використання дореєстрація.

Попередня реєстрація вимагає, щоб ви заздалегідь підготували детальний план дослідження, включаючи статистичний аналіз, який буде застосовано до даних. Потім ви попередньо реєструєте план із зазначенням дати у Відкриті наукові рамки або інший онлайн -реєстр.

Потім провести дослідження, проаналізувати дані відповідно до плану та повідомити результати, якими б вони не були. Читачі можуть перевірити попередньо зареєстрований план і таким чином бути впевненим, що аналіз був визначений заздалегідь, а ні p зламаний. Попередня реєстрація - складна нова ідея для багатьох дослідників, але, ймовірно, це шлях у майбутнє.

Оцінка, а не p величини

Спокуса до p хак - це один з великих недоліків покладання на p цінності. Інша полягає в тому, що pскоріше як сказати, що ефект існує чи ні.

Але світ не чорно -білий. Щоб розпізнати численні відтінки сірого, краще використовувати це оцінка а не p цінності. Метою оцінки є оцінка розміру ефекту - який може бути малим або великим, нульовим або навіть негативним. З точки зору оцінки, хибнопозитивний результат - це оцінка, яка більша або набагато більша за справжнє значення ефекту.

Давайте проведемо гіпотетичне дослідження впливу терапії. Дослідження, наприклад, може оцінити, що терапія дає в середньому 7-бальне зниження тривожності. Припустимо, ми обчислимо з наших даних a довірчий інтервал - діапазон невизначеності з обох сторін нашої найкращої оцінки - [4, 10]. Це говорить нам про те, що наша оцінка 7, швидше за все, знаходиться в межах приблизно 3 балів за шкалою тривоги щодо справжнього ефекту - справжньої середньої суми користі від терапії.

Іншими словами, довірчий інтервал вказує, наскільки точна наша оцінка. Знання такої оцінки та її довірчого інтервалу набагато більш інформативне, ніж будь -яке інше p value.

Я називаю оцінку однією з “нових статистик”. Самі методи не є новими, але використання їх як основного способу зробити висновки з даних було б для багатьох дослідників новим і великим кроком вперед. Це також допоможе уникнути спотворень, спричинених p злому.

про автора

Джефф Каммінг, почесний професор, Університет Ла Троб

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.

Схожі книги:

at InnerSelf Market і Amazon