Shutterstock/Валентин640

У 1956 році під час однорічної подорожі до Лондона, коли йому було трохи за 20, математик і біолог-теоретик Джек Д. Коуен відвідав Вілфреда Тейлора та його дивну нову «навчальна машина”. Коли він прибув, він був спантеличений «величезною групою апаратів», що стояла перед ним. Коуен міг лише стояти осторонь і спостерігати, як «машина робить свою справу». Те, що він робив, виконував «схему асоціативної пам’яті» — здавалося, він міг навчитися знаходити зв’язки та отримувати дані.

Можливо, це виглядало як незграбні блоки схем, спаяні разом вручну в масі проводів і коробок, але те, що спостерігав Коуен, було ранньою аналоговою формою нейронної мережі – попередником найдосконалішого штучного інтелекту сучасності, включаючи багато обговорювали ChatGPT з його здатністю генерувати письмовий вміст у відповідь майже на будь-яку команду. Базовою технологією ChatGPT є нейронна мережа.

Коли Коуен і Тейлор стояли й спостерігали за роботою машини, вони насправді не мали уявлення, як саме їй вдається виконувати це завдання. Відповідь на таємничий машинний мозок Тейлора можна знайти десь у його «аналогових нейронах», в асоціаціях, створених його машинною пам’яттю, і, що найважливіше, у тому факті, що його автоматизоване функціонування насправді неможливо повністю пояснити. Потрібні будуть десятиліття, щоб ці системи знайшли своє призначення та розблокували цю силу.

Термін нейронна мережа включає в себе широкий спектр систем, але центрально, за даними IBM, ці «нейронні мережі – також відомі як штучні нейронні мережі (ШНМ) або імітовані нейронні мережі (СНМ) – є підмножиною машинного навчання та є основою алгоритмів глибокого навчання». Важливо те, що сам термін, їх форма та структура «навіяні людським мозком, імітуючи спосіб, яким біологічні нейрони передають сигнали один одному».

Можливо, на початкових етапах існували деякі залишкові сумніви щодо їхньої цінності, але з роками мода на штучний інтелект рішуче повернулася до нейронних мереж. Зараз вони часто вважаються майбутнім ШІ. Вони мають велике значення для нас і для того, що означає бути людиною. Ми чули відлуння цих занепокоєнь останнім часом із закликами призупинити нові розробки штучного інтелекту на шість місяців, щоб забезпечити впевненість у їхніх наслідках.


Innersele підписатися графіка


Безумовно, було б помилкою відкинути нейронну мережу як про глянцеві, привабливі нові гаджети. Вони вже добре увійшли в наше життя. Деякі з них потужні своєю практичністю. Ще в 1989 році команда під керівництвом Янна Лекуна з AT&T Bell Laboratories використовувала методи зворотного поширення, щоб навчити систему розпізнавати рукописні поштові індекси. Останні оголошення Microsoft те, що пошук Bing працюватиме на базі штучного інтелекту, що зробить його вашим «другим пілотом для Інтернету», ілюструє, як речі, які ми відкриваємо, і те, як ми їх розуміємо, все більше будуть продуктом такого типу автоматизації.

Спираючись на величезну кількість даних для пошуку шаблонів, штучний інтелект можна навчити виконувати такі дії, як швидке розпізнавання зображень, у результаті чого вони будуть включені в розпізнавання осіб, наприклад. Ця здатність ідентифікувати шаблони призвела до багатьох інших застосувань, таких як прогнозування фондових ринків.

Нейронні мережі також змінюють те, як ми інтерпретуємо та спілкуємося. Розроблено під цікавою назвою Команда Google Brain, Google Translate є ще одним відомим застосуванням нейронної мережі.

Ви також не захочете грати з ним у шахи чи сьогі. Їхнє розуміння правил, запам’ятовування стратегій і всіх записаних ходів означає, що вони надзвичайно гарні в іграх (хоча ChatGPT, здається, боротьба з Wordle). Системи, які турбують людей-гравців у Го (Го, як відомо, складна стратегічна настільна гра) і шахових гросмейстерів, зроблені з нейронних мереж.

Але їх охоплення виходить далеко за межі цих випадків і продовжує розширюватися. Пошук патентів, обмежений лише згадуванням точної фрази «нейронні мережі», дає 135,828 XNUMX результатів. З цим швидким і постійним розширенням шанси на те, що ми зможемо повністю пояснити вплив штучного інтелекту, можуть ставати все меншими. Це питання, які я розглядав у своєму дослідженні і моя нова книга про алгоритмічне мислення.

Таємничі шари «непізнаваності»

Озираючись на історію нейронних мереж, ми дізнаємося щось важливе про автоматизовані рішення, які визначають наше сьогодення, або ті, які, можливо, матимуть більш глибокий вплив у майбутньому. Їхня присутність також говорить нам про те, що з часом ми будемо ще менше розуміти рішення та вплив ШІ. Ці системи не просто чорні скриньки, це не просто приховані частини системи, які неможливо побачити або зрозуміти.

Це щось інше, щось корениться в цілях і дизайні самих цих систем. Існує тривале прагнення до незрозумілого. Чим непрозоріша, тим автентичнішою та досконалішою вважається система. Справа не лише в тому, що системи стають складнішими, чи контроль над інтелектуальною власністю обмежує доступ (хоча вони є частиною цього). Натомість це означає, що етос, який ними керує, має особливий і вбудований інтерес до «непізнаваності». Таємниця навіть закодована в самій формі та дискурсі нейронної мережі. Вони мають глибокі шари – звідси фраза глибоке навчання – і в цих глибинах є ще більш таємниче звучання «прихованих шарів». Таємниці цих систем глибоко під поверхнею.

Існує велика ймовірність того, що чим більший вплив на наше життя матиме штучний інтелект, тим менше ми будемо розуміти, як і чому. Сьогодні спостерігається сильний поштовх до ШІ, що можна пояснити. Ми хочемо знати, як це працює, як воно приймає рішення та результати. ЄС настільки стурбований потенційно «неприйнятними ризиками» і навіть «небезпечними» програмами, що зараз просувається новий закон про АІ призначений встановити «глобальний стандарт» для «розробки безпечного, надійного та етичного штучного інтелекту».

Ці нові закони базуватимуться на необхідності пояснення, вимагаючи того «Для систем штучного інтелекту з високим рівнем ризику вимоги до високоякісних даних, документації та можливості відстеження, прозорості, людського контролю, точності та надійності є суворо необхідними для пом’якшення ризиків для основних прав і безпеки, які створює штучний інтелект». Це стосується не лише таких речей, як безпілотні автомобілі (хоча системи, які забезпечують безпеку, належать до категорії штучного інтелекту високого ризику в ЄС), це також викликає занепокоєння, що в майбутньому з’являться системи, які матимуть наслідки для прав людини.

Це є частиною ширших закликів до прозорості штучного інтелекту, щоб його діяльність можна було перевіряти, перевіряти та оцінювати. Іншим прикладом може бути Королівське товариство політичний брифінг щодо зрозумілого ШІ в якому вони зазначають, що «політичні дебати в усьому світі все частіше бачать заклики до певної форми пояснюваності штучного інтелекту як частину зусиль із впровадження етичних принципів у розробку та розгортання систем із підтримкою штучного інтелекту».

Але історія нейронних мереж говорить нам, що в майбутньому ми швидше відійдемо від цієї мети, а не наблизимося до неї.

Натхненний людським мозком

Ці нейронні мережі можуть бути складними системами, але вони мають деякі основні принципи. Натхненні людським мозком, вони прагнуть копіювати або імітувати форми біологічного та людського мислення. За структурою і дизайном вони, як IBM також пояснює, що складається з «шарів вузлів, що містять вхідний рівень, один або більше прихованих шарів і вихідний рівень». У цьому випадку «кожен вузол, або штучний нейрон, з’єднується з іншим». Оскільки їм потрібні вхідні дані та інформація для створення результатів, вони «покладаються на навчальні дані, щоб навчатися та покращувати свою точність з часом». Ці технічні деталі мають значення, але також має значення бажання моделювати ці системи на основі складності людського мозку.

Розуміння амбіцій, що стоять за цими системами, є життєво важливим для розуміння того, що ці технічні деталі означають на практиці. В 1993 інтерв'ю, вчений із нейронних мереж Теуво Кохонен дійшов висновку, що «самоорганізована» система «є моєю мрією», керуючи «щось схожим на те, що наша нервова система робить інстинктивно». Як приклад, Кохонен зобразив, як «самоорганізуюча» система, система, яка контролює та керує сама собою, «можна використовувати як панель моніторингу для будь-якої машини … у кожному літаку, реактивному літаку, або на кожній атомній електростанції, або в кожному автомобіль». Це, на його думку, означатиме, що в майбутньому «ви зможете відразу побачити, в якому стані перебуває система».

Головною метою було створити систему, здатну адаптуватися до навколишнього середовища. Це було б миттєвим і автономним, функціонуючим у стилі нервової системи. Це була мрія — мати системи, які могли б справлятися самі без потреби втручання людини. Складність і невідомість мозку, нервової системи та реального світу незабаром стануть джерелом інформації для розробки та проектування нейронних мереж.

"Щось дивне в цьому"

Але якщо повернутися до 1956 року та цієї дивної навчальної машини, то саме практичний підхід, який застосував Тейлор під час її створення, одразу привернув увагу Коуена. Він явно попотів над збиранням частинок. Тейлор, Коуен зауважив під час інтерв’ю зі свого боку в історії цих систем «не робив це теоретично, і він не робив це на комп’ютері». Натомість, маючи в руках інструменти, він «фактично створив апаратне забезпечення». Це була матеріальна річ, поєднання частин, можливо, навіть вигадка. І це було «все зроблено за допомогою аналогової схеми», і Тейлору, зазначає Кован, «потрачено кілька років, щоб створити це та пограти з ним». Випадок проб і помилок.

Зрозуміло, що Кован хотів зрозуміти те, що він бачив. Він намагався змусити Тейлора пояснити йому цю навчальну машину. Уточнення не надходили. Кован не зміг змусити Тейлора описати йому, як це працює. Аналогові нейрони залишалися загадкою. Більш дивовижною проблемою, на думку Коуена, було те, що Тейлор «сам насправді не розумів, що відбувається». Це був не просто миттєвий зрив у спілкуванні між двома вченими з різними фахами, це було більше.

У інтерв’ю середини 1990-х, згадуючи машину Тейлора, Коуен показав, що «до цього дня в опублікованих статтях ви не можете цілком зрозуміти, як це працює». Цей висновок свідчить про те, як невідоме глибоко вкорінене в нейронні мережі. Незрозумілість цих нейронних систем була присутня навіть із фундаментальних етапів розвитку, що налічують майже сім десятиліть.

Ця таємниця залишається сьогодні, і її можна знайти в прогресивних формах ШІ. Незбагненність функціонування асоціацій, створених машиною Тейлора, змусила Коуена задуматися, чи є в цьому «щось підозріле».

Довге і заплутане коріння

Коуен згадав свій короткий візит до Тейлора, коли його запитали про рецепцію його власної роботи через кілька років. У 1960-х роках люди, за словами Коуена, «трохи повільно бачили суть аналогової нейронної мережі». Це сталося незважаючи на те, що робота Тейлора в 1950-х роках над «асоціативною пам’яттю», нагадує Коуен, базувалася на «аналогових нейронах». Лауреат Нобелівської премії, експерт із нейронних систем, Леон Н. Купер, завершив що події навколо застосування моделі мозку в 1960-х роках вважалися «одними з глибоких таємниць». Через цю невизначеність залишився скептицизм щодо того, чого може досягти нейронна мережа. Але все потроху почало змінюватися.

Приблизно 30 років тому нейробіолог Волтер Дж. Фрімен, який був здивований «чудовий” діапазон застосувань, які були знайдені для нейронних мереж, вже коментував той факт, що він не бачив їх як “принципово новий тип машини”. Вони повільно горіли, спочатку з’явилася технологія, а потім для неї знайшли застосування. Це потребувало часу. Дійсно, щоб знайти коріння технології нейронних мереж, ми могли б піти ще далі, ніж візит Коуена до таємничої машини Тейлора.

Вчений із нейронної мережі Джеймс Андерсон і науковий журналіст Едвард Розенфельд відзначили що передісторія нейронних мереж сягає 1940-х років і деяких ранніх спроб, як вони описують, «зрозуміти нервову систему людини та побудувати штучні системи, які діють так, як ми, принаймні трохи». І тому в 1940-х таємниці людської нервової системи також стали таємницями обчислювального мислення та штучного інтелекту.

Підсумовуючи цю довгу історію, автор інформатики Ларрі Хардесті зазначив що глибоке навчання у формі нейронних мереж «входить і виходить з моди вже більше 70 років». Більш конкретно, додає він, ці «нейронні мережі були вперше запропоновані в 1944 році Уорреном Маккалохом і Уолтером Піттсом, двома дослідниками Чиказького університету, які переїхали до Массачусетського технологічного інституту в 1952 році як члени-засновники того, що іноді називають першим відділом когнітивної науки».

В іншому місці, 1943 іноді вказується дата як перший рік для технології. У будь-якому випадку, протягом приблизно 70 років звіти свідчать про те, що нейронні мережі то входили, то виходили з моди, часто ними нехтували, але іноді закріплювалися та переходили в більш масові програми та дебати. Невизначеність тривала. Ці ранні розробники часто описують важливість своїх досліджень як нехтовані, доки вони не знайшли своєї мети через роки, а іноді й десятиліття.

Переходячи від 1960-х до кінця 1970-х, ми можемо знайти нові історії про невідомі властивості цих систем. Навіть тоді, через три десятиліття, нейронна мережа ще мала знайти сенс. Девід Румельхарт, який мав досвід психології та був співавтором серії книг, опублікованих у 1986 році, які пізніше знову привернуть увагу до нейронних мереж, виявив, що співпрацює з розробкою нейронних мереж. зі своїм колегою Джеєм Макклелландом.

Крім того, що вони були колегами, вони нещодавно зустрілися на конференції в Міннесоті, де виступ Румельгарта про «розуміння історії» викликав дискусію серед делегатів.

Після цієї конференції Макклелланд повернувся з думкою про те, як розробити нейронну мережу, яка могла б поєднувати моделі, щоб бути більш інтерактивними. Тут важливо Спогади Румельгарта про «години, години, години роботи з комп’ютером».

Ми сіли і зробили все це на комп’ютері, побудували ці комп’ютерні моделі, але ми їх просто не зрозуміли. Ми не розуміли, чому вони працювали або чому вони не працювали, або що в них критичного.

Подібно до Тейлора, Румелгарт виявив, що майструє систему. Вони також створили функціонуючу нейронну мережу і, що важливо, вони також не були впевнені, як і чому вона працювала саме так, здавалося б, навчаючись на даних і знаходячи асоціації.

Імітація мозку - шар за шаром

Можливо, ви вже помітили, що під час обговорення походження нейронних мереж образ мозку та складність, яку це викликає, ніколи не забувають. Людський мозок діяв як свого роду шаблон для цих систем. Зокрема, на ранніх етапах мозок — досі одна з найбільших невідомих — став моделлю того, як може функціонувати нейронна мережа.

Отже, ці нові експериментальні системи були змодельовані на основі чогось, функціонування якого само по собі було майже невідоме. Інженер з нейрообчислювальної техніки Карвер Мід висловився показово концепції «когнітивного айсберга», яку він вважав особливо привабливою. Це лише вершина айсберга свідомості, яку ми усвідомлюємо і яку видимо. Масштаб і форма решти залишається невідомою під поверхнею.

У 1998, Джеймс Андерсон, який деякий час працював над нейронними мережами, зазначив, що коли мова зайшла про дослідження мозку, «нашим головним відкриттям, здається, є усвідомлення того, що ми насправді не знаємо, що відбувається».

У детальному звіті в Financial Times у 2018 році, технологічний журналіст Річард Вотерс зазначив, що нейронні мережі «модельуються на основі теорії про те, як працює людський мозок, пропускаючи дані через шари штучних нейронів, поки не з’явиться ідентифікований шаблон». Уотерс припустив, що це створює додаткову проблему, оскільки «на відміну від логічних схем, які використовуються в традиційній програмі, немає способу відстежити цей процес, щоб точно визначити, чому комп’ютер дає певну відповідь». Висновок Вотерса полягає в тому, що ці результати не можна не вибрати. Застосування цього типу моделі мозку, яка аналізує дані через багато рівнів, означає, що відповідь неможливо легко відстежити. Багатошаровість є значною частиною причин цього.

Твердість також помічено, що ці системи «змодельовані на основі людського мозку». Це приносить бажання створювати ще більшу складність обробки, щоб спробувати зрівнятися з мозком. Результатом цієї мети є нейронна мережа, яка «складається з тисяч або навіть мільйонів простих вузлів обробки, які тісно пов’язані між собою». Дані переміщуються через ці вузли лише в одному напрямку. Хардесті помітив, що «окремий вузол може бути підключений до кількох вузлів на рівні під ним, з якого він отримує дані, і кількох вузлів на рівні над ним, до якого він надсилає дані».

Моделі людського мозку були частиною того, як ці нейронні мережі були задумані та розроблені з самого початку. Це особливо цікаво, якщо врахувати, що мозок сам по собі був таємницею того часу (і багато в чому досі залишається).

«Адаптація — це вся гра»

Такі вчені, як Мід і Кохонен, хотіли створити систему, яка могла б справді адаптуватися до світу, в якому вона опинилася. Воно відповідало б його умовам. Мід зрозуміло, що цінність нейронних мереж полягає в тому, що вони можуть полегшити цей тип адаптації. У той час, розмірковуючи про цю амбіцію, — додав Мід що створення адаптації «це вся гра». Ця адаптація потрібна, вважав він, «через природу реального світу», який, за його висновком, є «надто мінливим, щоб робити щось абсолютне».

З цією проблемою потрібно рахуватися, особливо тому, що, на його думку, це щось «нервова система зрозуміла давно». Ці новатори не тільки працювали з образом мозку та його невідомих, вони поєднували це з баченням «реального світу» та невизначеності, невідомості та мінливості, які це приносить. Системи, вважав Мід, повинні мати можливість реагувати та адаптуватися до обставин без інструкція.

Приблизно в той самий час у 1990-х роках Стівен Ґроссберг – експерт із когнітивних систем, що працює з математикою, психологією та біомедичною інженерією – також стверджував, що адаптація мала стати важливим кроком у довгостроковій перспективі. Гроссберг, працюючи над моделюванням нейронної мережі, думав про себе, що все це «про те, як біологічні системи вимірювання та контролю розроблені для швидкої та стабільної адаптації в реальному часі до світу, що швидко змінюється». Як ми бачили раніше в «мрії» Кохонена про «самоорганізовану» систему, поняття «реального світу» стає контекстом, у якому відповідь і адаптація кодуються в цих системах. Те, як цей реальний світ розуміється та уявляється, безсумнівно, визначає адаптацію цих систем.

Приховані шари

У міру того, як шари розмножувалися, глибоке навчання охоплювало нові глибини. Нейронна мережа навчається за допомогою навчальних даних, які, Хардесті пояснив, «подається до нижнього шару – вхідного шару – і він проходить через наступні шари, множиться та додається разом складними способами, доки, нарешті, радикально перетворений не досягне вихідного шару». Чим більше шарів, тим більше перетворення і тим більша відстань від входу до виходу. Розробка графічних процесорів (GPU), наприклад, в іграх, додав Хардесті, «дозволила однорівневим мережам 1960-х років і дво- і тришаровим мережам 1980-х років розквітнути в десять, 15 або навіть 50». -рівневі мережі сучасності».

Нейронні мережі стають глибшими. Дійсно, саме це додавання рівнів, за словами Хардесті, є «тем, до чого відноситься «глибина» в «глибокому навчанні». Він припускає, що це має значення, тому що «наразі глибоке навчання відповідає за найефективніші системи майже в усіх сферах досліджень штучного інтелекту».

Але таємниця стає ще глибшою. Оскільки шари нейронних мереж зростали, їх складність зростала. Це також призвело до зростання так званих «прихованих шарів» у цих глибинах. Обговорення оптимальної кількості прихованих шарів у нейронній мережі триває. Теоретик ЗМІ Беатріс Фазі написала що «через те, як працює глибока нейронна мережа, яка спирається на приховані нейронні шари, розташовані між першим шаром нейронів (вхідний рівень) і останнім шаром (вихідний рівень), методи глибокого навчання часто непрозорі або нерозбірливі навіть для програмістів, які спочатку їх налаштували».

У міру збільшення шарів (включаючи приховані шари) вони стають ще менш зрозумілими – навіть, як виявилося, знову ж таки, тим, хто їх створює. Подібну думку висловила відомий міждисциплінарний мислитель нових медіа Кетрін Хейлз також зазначив що існують обмеження на те, «скільки ми можемо знати про систему, результат, що стосується «прихованого шару» нейронної мережі та алгоритмів глибокого навчання».

Переслідування незрозумілого

Взяті разом, ці тривалі розробки є частиною того, що соціолог технології Тайна Бухер назвав «проблемним невідомим». Розширюючи свої впливові дослідження наукових знань у сфері ШІ, Гаррі Коллінз зазначив, що мета нейронних мереж полягає в тому, що вони можуть бути створені людиною, принаймні спочатку, але «якщо написана програма живе своїм власним життям; без великих зусиль, як саме працює програма, може залишатися загадкою». У цьому є відлуння тих давніх мрій про самоорганізовану систему.

Я б додав до цього, що невідоме і, можливо, навіть непізнаване розглядалося як фундаментальна частина цих систем з їх ранніх стадій. Існує велика ймовірність того, що чим більший вплив на наше життя матиме штучний інтелект, тим менше ми будемо розуміти, як і чому.

Але сьогодні це не подобається багатьом. Ми хочемо знати, як працює штучний інтелект і як він приймає рішення та результати, які впливають на нас. Оскільки розвиток штучного інтелекту продовжує формувати наші знання та розуміння світу, того, що ми відкриваємо, як до нас ставляться, як ми навчаємося, споживаємо та взаємодіємо, цей імпульс до розуміння зростатиме. Коли справа доходить до зрозумілого та прозорого штучного інтелекту, історія нейронних мереж говорить нам, що в майбутньому ми швидше відійдемо від цієї мети, а не наблизимося до неї.

Девід Бір, Професор соціології, Університет Йорка

Ця стаття перевидана з Бесіда за ліцензією Creative Commons. Читати оригінал статті.