Čtení myšlenek - Jerry Tang
Po několika týdnech od výzkum z Ósacké univerzity navázali vědci ve Spojených státech na studium mozkových procesů funkční magnetickou rezonancí s využitím umělé inteligence. Jerry Tang a dozorující Alex Huth z Texaské univerzity v Austinu totiž v časopisu Nature publikovali závěrečnou zprávu, která popisuje čtení a interpretaci lidských myšlenek pomocí jazykového transformeru. Transformer je obecná architektura AI, kterou v roce 2017 poprvé popsali vědci z Google Brain. Smetanu ale nakonec slízli především v OpenAI, protože nad ní postavili své velké jazykové modely z rodiny GPT (zkratka pro Generative Pre-trained Transformer).
Ve vší stručnosti je to umělá inteligence, která se učí hledat vzájemné vztahy v po sobě jdoucích (sekvenčních) datech. Začalo se s textem a zvukem (proud po sobě jdoucích písmenek a tónů), nicméně v posledních dvou letech došlo k ohromnému rozmachu, a tak dnes existují transformery i pro detektory obrázků a další domény.
Takže co v tom Texasu vlastně udělali? Jednoduše připoutali několik dobrovolníků na lůžko mohutného stroje pro magnetickou rezonanci, jak je známe z nemocnic, a dlouhé hodiny jim přehrávali podcasty. Dobrovolníci je poslouchali a náš tým mezitím nahrával gigabajty dat, co se právě v tu chvíli děje v jejich hlavě.
Funkční magnetická rezonance zobrazuje dění v mozku různým způsobem, k těm nejtypičtějším ale patří technika BOLD, kterou zvolili i v Texasu.
Nebozí dobrovolníci hodiny a hodiny poslouchali podcasty, vědci ukládali kvanta dat z fMRI, no a pak tyto informace namapovali na jazykový transformer (podcast je přece mluvené slovo, tedy sekvenční proud písmenek).
Jakmile tímto způsobem pro každého z dobrovolníků vytvořili jejich jazykový neurální model, mohli celou operaci otočit a transformer namísto učení začal generovat text. Text s hrubým popisem toho, co se děje v mozku.
Jelikož si při poslechu informaci zároveň představujeme, takže se do děje zapojuje celé spektrum domén naší mysli včetně těch vizuálních, sémantický dekodér z Austinu tento komplexní obraz zachytil v celé jeho celistvosti. Díky tomu reaguje nejen na hlas, ale i na obrazový vjem i pouhou představu.
Reference: Tang, J., LeBel, A., Jain, S. & Huth, A. G. Nature Neurosci. https://doi.org/10.1038/s41593-023-01304-9 (2023).