Одна з причин, чому деякі наукові дослідження можуть бути помилковими

: By Джефф Каммінг, Університет Ла Троб

Дякуємо за відвідування InnerSelf.com, де є 20,000 + статті, що змінюють життя, пропагуючи «Нові погляди та нові можливості». Усі статті перекладено на 30+ мов. Підписуватися для журналу InnerSelf, що виходить щотижня, та щоденного натхнення Марі Т. Рассел. Журнал InnerSelf видається з 1985 року.

перерву

Одна причина, чому деякі наукові дослідження можуть бути неправильними

Існує криза відтворюваності в науці - невідомі «хибнопозитивні» пронизує навіть наші найкращі наукові журнали.

Помилковий позитив - це твердження, що ефект існує тоді, коли насправді його немає. Ніхто не знає, яка частка опублікованих статей містить такі неправильні або завищені результати, але є ознаки того, що ця частка не мала.

Епідеміолог Джон Іоаннідіс дав найкраще пояснення цьому явищу у відомій газеті 2005 року, провокаційно під назвою «Чому більшість опублікованих результатів досліджень є хибними”. Однією з причин, чому Іоанідіс дав таку кількість хибних результатів, стали називати "p хакерство », що виникає внаслідок тиску дослідників на досягнення статистичної значущості.

Що таке статистична значимість?

Щоб зробити висновки з даних, дослідники зазвичай спираються перевірка значущості. Простіше кажучи, це означає розрахунок "p значення », що є ймовірністю таких результатів, як наш, якщо дійсно немає ефекту. Якщо p значення є достатньо малим, результат оголошується статистично значущим.

Традиційно, a p значення менше 05 є критерієм значущості. Якщо ви повідомляєте а p<.05, читачі, швидше за все, повірять, що ви знайшли реальний ефект. Можливо, однак, насправді ефекту немає, і ви повідомили про хибнопозитивний результат.

Багато журналів будуть публікувати лише дослідження, які можуть повідомити про один або кілька статистично значущих ефектів. Аспіранти швидко дізнаються, що досягнення міфічного p

Цього тиску потрібно досягти pp злому.

Приманка p злом

Проілюструвати p хакерство, ось гіпотетичний приклад.

Брюс нещодавно закінчив докторську ступінь і отримав престижний грант, щоб приєднатися до однієї з найкращих дослідницьких груп у своїй галузі. Його перший експеримент не вдався, але Брюс швидко уточнює процедури і проводить друге дослідження. Це виглядає більш перспективно, але все одно не дає p значення менше 05.

Переконавшись, що він на щось замислюється, Брюс збирає більше даних. Він вирішує відмовитися від кількох результатів, які виглядали явно далекими.

Потім він помічає, що один із його заходів дає більш чітке уявлення, тому зосереджується на цьому. Ще кілька налаштувань, і Брюс нарешті виявляє трохи дивовижний, але дійсно цікавий ефект, який досягається p

Брюс так сильно намагався знайти ефект, що він знав десь таївся. Він також відчував тиск удару p

Є лише один підступ: насправді ефекту не було. Незважаючи на статистично значущі результати, Брюс опублікував хибнопозитивний результат.

Брюс відчув, що він використовує свої наукові знання, щоб виявити прихований ефект, коли він робив різні кроки після початку свого дослідження:

Він зібрав додаткові дані.
Він кинув деякі дані, які здавалися хибними.
Він відмовився від деяких заходів і зосередився на найбільш перспективних.
Він проаналізував дані трохи інакше і зробив ще кілька змін.

Біда в тому, що всі ці вибори були зроблені після побачивши дані. Брюс, можливо, несвідомо, вибирав і вибирав, поки не отримав невловимого pp

У статистиків є приказка: якщо ви досить мучите дані, вони зізнаються. Вибір та налаштування, зроблені після перегляду даних, є сумнівною дослідницькою практикою. Використовуючи їх навмисно чи ні, для досягнення правильного статистичного результату варто p злом, що є однією з важливих причин того, що опубліковані статистично значущі результати можуть бути хибнопозитивними.

Яка частка опублікованих результатів є неправильною?

Це гарне питання, і по -диявольськи хитромудре. Ніхто не знає відповіді, яка, ймовірно, буде різною в різних галузях дослідження.

Великі та вражаючі спроби відповісти на питання соціальної та когнітивної психології були опубліковані у 2015 р. Під керівництвом Брайана Носека та його колег з Центру відкритих наук, Проект відтворення: Психологія (RP: P) було 100 дослідницьких груп по всьому світу, кожна з яких ретельно повторювала один із 100 опублікованих результатів. В цілому, приблизно 40 відтворюється досить добре, тоді як приблизно в 60 випадках дослідження реплікації дали менші або набагато менші ефекти.

Дослідження реплікації 100 RP: P повідомляли про ефекти, які були в середньому лише вдвічі меншими за ефекти, про які повідомляли оригінальні дослідження. Ретельно проведені повтори, ймовірно, дають більш точні оцінки, ніж можливо p зламували оригінальні дослідження, тому ми могли зробити висновок, що оригінальні дослідження переоцінили справжній ефект у середньому в два рази. Це тривожно!

Як уникнути p злом

Найкращий спосіб уникнути p хакерство полягає у тому, щоб уникнути будь -якого вибору або налаштування після перегляду даних. Іншими словами, уникайте сумнівної дослідницької практики. У більшості випадків найкращим способом цього є використання дореєстрація.

Попередня реєстрація вимагає, щоб ви заздалегідь підготували детальний план дослідження, включаючи статистичний аналіз, який буде застосовано до даних. Потім ви попередньо реєструєте план із зазначенням дати у Відкриті наукові рамки або інший онлайн -реєстр.

Потім провести дослідження, проаналізувати дані відповідно до плану та повідомити результати, якими б вони не були. Читачі можуть перевірити попередньо зареєстрований план і таким чином бути впевненим, що аналіз був визначений заздалегідь, а ні p зламаний. Попередня реєстрація - складна нова ідея для багатьох дослідників, але, ймовірно, це шлях у майбутнє.

Оцінка, а не p величини

Спокуса до p хак - це один з великих недоліків покладання на p цінності. Інша полягає в тому, що pскоріше як сказати, що ефект існує чи ні.

Але світ не чорно -білий. Щоб розпізнати численні відтінки сірого, краще використовувати це оцінка а не p цінності. Метою оцінки є оцінка розміру ефекту - який може бути малим або великим, нульовим або навіть негативним. З точки зору оцінки, хибнопозитивний результат - це оцінка, яка більша або набагато більша за справжнє значення ефекту.

Давайте проведемо гіпотетичне дослідження впливу терапії. Дослідження, наприклад, може оцінити, що терапія дає в середньому 7-бальне зниження тривожності. Припустимо, ми обчислимо з наших даних a довірчий інтервал - діапазон невизначеності з обох сторін нашої найкращої оцінки - [4, 10]. Це говорить нам про те, що наша оцінка 7, швидше за все, знаходиться в межах приблизно 3 балів за шкалою тривоги щодо справжнього ефекту - справжньої середньої суми користі від терапії.

Іншими словами, довірчий інтервал вказує, наскільки точна наша оцінка. Знання такої оцінки та її довірчого інтервалу набагато більш інформативне, ніж будь -яке інше p value.

Я називаю оцінку однією з “нових статистик”. Самі методи не є новими, але використання їх як основного способу зробити висновки з даних було б для багатьох дослідників новим і великим кроком вперед. Це також допоможе уникнути спотворень, спричинених p злому.

про автора

Джефф Каммінг, почесний професор, Університет Ла Троб

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.

Схожі книги:

at InnerSelf Market і Amazon

перерву

Дякуємо за відвідування InnerSelf.com, де є 20,000 + статті, що змінюють життя, пропагуючи «Нові погляди та нові можливості». Усі статті перекладено на 30+ мов. Підписуватися для журналу InnerSelf, що виходить щотижня, та щоденного натхнення Марі Т. Рассел. Журнал InnerSelf видається з 1985 року.

Доступні Мови

слідкуйте за InnerSelf далі

Автори InnerSelf

чоловік нахилився, щоб уважно роздивитися скульптуру на лавці

Щоденне натхнення InnerSelf: 17 квітня 2024 р

Девід Самсон, Університет Торонто

Щоденне натхнення – це коротке повідомлення, яке допоможе визначити тон дня. Це посилання на більшу статтю для додаткової інформації та...

Перестаньте бути посередником у сімейних (і друзів) справах

Джуд Біжу

Деякі з наших найбільших емоційних викликів походять від сімейної динаміки. Це рідкісна ситуація, коли всі члени сім’ї ладнають. Якщо ви…

Як буряк може зміцнити ваше здоров’я і, можливо, ваше любовне життя

Лорен Болл і Емілі Берч

А як щодо інших очевидних переваг буряка для здоров’я – від зниження артеріального тиску до покращення ваших щоденних тренувань? Ось що…

Як ваше дитинство впливає на ваше любовне життя: роль теорії прихильності

Персонал InnerSelf

Розгляд власної історії прихильності та очікувань від стосунків може бути чудовою нагодою для саморефлексії, але це...

Чому архетип «джентльмена» продовжує захоплювати сучасні ЗМІ

Джейден Грінвел-Барнден, Університет Західної Австралії

Нова драма Netflix показує, що нас все ще приваблює поняття «джентльмени». Психологія пояснює чому.

НАЙБІЖ ЧИТАТИ

Чи невдоволення білих у сільській місцевості підриває демократію?

Томас Ф. Шаллер, Університет Меріленда

Чому образа білих американців у сільській місцевості є загрозою для демократії...

Перманентний рецепт: п’ять кроків до міцного здоров’я

Бен Гібсон і Вікторія Рубі-Грейнджер, Університет Де Монфор

П’ятиступенева модель оздоровлення, яка дійсно працює – і психологія, що стоїть за нею...

зображення жінки на стежці у відкритому полі та тримає валізу

На вас вплинула травма ваших предків!

Пітер А. Левін

Кошмарні травми можуть передаватися через кілька поколінь. Дійсно, ці неявні енграми пам’яті мали глибокий вплив на моє життя,…

Розкриття прихованих причин дитячого сміху

Карло Валеріо Беллієні, Університет Сієни

Чому діти сміються? Це не завжди тому, що вони щасливі...

Молодий чоловік грає на гітарі в шоломі, покритому електродами, які вимірюють активність мозку

Від практики до ефективності: наука про творчий потік

Джон Куніос та Іветт Куніос

Сканування мозку джазових музикантів Філлі розкриває секрети досягнення творчого потоку...

Парадокс домашніх тварин: як спільна кімната впливає на сон

Браян Н. Чін, Трініті-коледж

Чи може спільна спальня з домашніми тваринами заважати вам добре виспатися?

ОСТАННІ