Як комп’ютери допомагають біологам розкривати життєві таємниці

Коли послідовність генома людини довжиною три мільярди літер була проведена, ми кинулись у нову “omics”Епоха біологічних досліджень. Зараз вчені мчать послідовно визначати геноми (усі гени) або протеоми (усі білки) різних організмів - і в процесі збирають величезні обсяги даних.

Наприклад, вчений може використовувати інструменти «оміки», такі як секвенування ДНК, щоб з'ясувати, які гени людини уражені вірусною інфекцією грипу. Але оскільки геном людини має щонайменше 25,000 XNUMX генів, кількість генів, змінених навіть за таким простим сценарієм, потенційно може становити тисячі.

Хоча послідовність та ідентифікація генів та білків дає їм назву та місце, це не говорить нам, що вони роблять. Ми повинні зрозуміти, як ці гени, білки і всі речі між ними взаємодіють у різних біологічних процесах.

Сьогодні навіть базові експерименти дають великі дані, і однією з найбільших проблем є розв’язання відповідних результатів від фонового шуму. Комп’ютери допомагають нам подолати цю гору даних; але вони можуть навіть піти ще далі, допомагаючи нам висунути наукові гіпотези та пояснити нові біологічні процеси. Наука про дані, по суті, дозволяє передові біологічні дослідження.

Комп’ютери на порятунок

Комп’ютери мають унікальну кваліфікацію для обробки масивних наборів даних, оскільки вони можуть одночасно відстежувати всі важливі умови, необхідні для аналізу.


Innersele підписатися графіка


Хоча вони може відображати людські помилки вони запрограмовані, комп'ютери можуть ефективно обробляти великі обсяги даних, і вони не упереджені до знайомого, як це можуть бути люди -дослідники.

Комп’ютери також можна навчити шукати специфічні закономірності в експериментальних наборах даних - концепція під назвою машинне навчання, вперше запропонована в 1950 -х роках, особливо математиком Алан Тьюринг. Потім можна попросити алгоритм, який вивчив закономірності з наборів даних, зробити прогнози на основі нових даних, з якими раніше ніколи не зустрічався.

Машинне навчання зробило революцію в біологічних дослідженнях, оскільки тепер ми можемо використовувати великі набори даних і просити комп’ютери допомогти зрозуміти основну біологію.

Навчання комп’ютерів мислити шляхом імітації мозкових процесів

Ми використали у власній лабораторії один цікавий вид машинного навчання, який називається штучною нейронною мережею (ANN). Мозок - це дуже взаємопов'язані мережі нейронів, які спілкуються, посилаючи електричні імпульси через нейронну проводку. Аналогічно, ANN імітує в комп’ютері мережу нейронів, коли вони включаються та вимикаються у відповідь на сигнали інших нейронів.

Застосовуючи алгоритми, що імітують процеси реальних нейронів, ми можемо змусити мережу навчитися вирішувати багато типів проблем. Google використовує потужну мережеву мережу для своєї тепер відомої Проект Deep Dream де комп’ютери можуть класифікувати та навіть створювати зображення.

Наша група вивчає імунну систему з метою: з'ясування нових методів лікування раку. Ми використовували обчислювальні моделі ANN для вивчення коротких поверхневих кодів білків, які використовують наші імунні клітини, щоб визначити, чи є щось чуже для нашого організму, і тому його слід атакувати. Якщо ми більше зрозуміємо, як наші імунні клітини (такі як Т-клітини) диференціюють нормальні/самостійні та аномальні/чужорідні клітини, ми можемо розробити кращі вакцини та методи лікування.

Ми вивчили загальнодоступні каталоги тисяч кодів білків, ідентифікованих дослідниками протягом багатьох років. Ми поділили цей великий набір даних на два: нормальні коди самобілків, отримані зі здорових людських клітин, і аномальні коди білків, отримані з вірусів, пухлин та бактерій. Потім ми звернулися до штучної нейронної мережі, розробленої в нашій лабораторії.

Після того, як ми подали білкові коди в ANN, алгоритм зміг ідентифікувати принципові відмінності між нормальним і аномальним білковими кодами. Людям було б важко відстежувати подібні біологічні явища - буквально тисячі цих кодів білків аналізуються у великому наборі даних. Щоб вирішити ці складні проблеми та визначити нову біологію, потрібна машина.

Передбачення за допомогою машинного навчання

Найважливішим застосуванням машинного навчання в біології є його корисність для прогнозування на основі великих даних. Комп'ютерні прогнози можуть дати сенс великим даним, перевірити гіпотези та заощадити дорогоцінний час та ресурси.

Наприклад, у нашій галузі Т-клітинної біології знання того, на які вірусні коди білків потрібно націлитись, має вирішальне значення для розробки вакцин та лікування. Але існує так багато індивідуальних кодів білків від будь-якого конкретного вірусу, що це дуже дорого і важко експериментально протестувати кожен з них.

Натомість ми навчили штучну нейронну мережу, щоб допомогти машині вивчити всі важливі біохімічні характеристики двох типів білкових кодів-нормального та ненормального. Потім ми попросили модель «передбачити», які нові коди вірусних білків нагадують категорію «аномальні» і які можуть бути помічені Т-клітинами, а отже, імунною системою. Ми протестували модель ANN на різних білках вірусу, які раніше ніколи не вивчалися.

Звичайно, як старанний учень, який прагне догодити вчителю, нейронна мережа змогла точно визначити більшість таких білкових кодів, що активують Т-клітини, у цьому вірусі. Ми також експериментально перевірили коди білків, які він позначив, щоб підтвердити точність прогнозів ANN. Використовуючи цю модель нейронної мережі, вчений може таким чином швидко передбачити всі важливі короткі коди білків від шкідливого вірусу і протестуйте їх для розробки лікування або вакцини, замість того, щоб вгадувати та перевіряти їх окремо.

Розумно впроваджуйте машинне навчання

Завдяки постійному вдосконаленню, великі дані та машинне навчання все більше стають незамінними для будь -якого виду наукових досліджень. Можливості використання комп’ютерів для навчання та прогнозування в біології майже нескінченні. Від з'ясування того, яка комбінація біомаркерів найкраще підходить для виявлення захворювання, до розуміння, чому тільки деякі пацієнти отримують користь від певного лікування раку, видобуток масивів великих даних за допомогою комп’ютерів став цінним маршрутом для досліджень.

Звичайно, є обмеження. Найбільша проблема науки про великі дані - це самі дані. Якщо дані, отримані шляхом -омічних досліджень, з самого початку є помилковими або ґрунтуються на поганій науці, машини будуть навчатися з поганих даних, що призведе до погані прогнози. Учень настільки ж хороший, як і вчитель.

Тому що комп’ютери не розумні (ще), вони можуть у своїх пошуках зразків придумати їх навіть тоді, коли їх немає, що знову породжує погані дані та невідтворювану науку.

І деякі дослідники висловили занепокоєння щодо того, як стають комп'ютери чорні скриньки даних для вчених, які чітко не розуміють маніпуляцій та махінацій, які вони здійснюють від свого імені.

Незважаючи на ці проблеми, переваги великих даних та машин і надалі роблять їх цінними партнерами у наукових дослідженнях. Маючи на увазі застереження, ми унікально готові зрозуміти біологію очима машини.

про автораБесіда

Шрі Крішна, кандидат філологічних наук, біологічний дизайн, Школа біологічних систем та систем охорони здоров'я, Університет штату Арізона та Дієго Човелл, аспірант прикладної математики, Університет штату Арізона

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.


Пов’язана книга:

at InnerSelf Market і Amazon