У последњих неколико година, вештачка интелигенција (AI) више није само технички алат у рукама инжењера – она је све присутнија у процесима одлучивања који директно утичу на људске животе. Од медицинских дијагноза, преко правосудних пресуда, до оцењивања ученика и селекције кандидата за посао – AI доноси одлуке које могу да буду за некога пресудне. Али, колико је заправо поуздана?

Нова студија објављена у фебруару 2025. у угледном часопису Transactions on Machine Learning Research доноси хладан туш за оне који се надају да ће вештачка интелигенција ускоро достићи (или чак превазићи) људску способност просуђивања.

Истраживачи су открили да AI, иако изузетно успешна у препознавању образаца, има озбиљан проблем са разумевањем апстрактних правила, препознавањем аналогија и генерализацијом – способностима које су људима природне, преноси Индекс.

View this post on Instagram

A post shared by AI Program Software (@aiprogramsoftware)

AI види образац, човек види смисао

Аутори студије објашњавају да су велики језички модели, попут GPT-а, показали добре резултате на бројним тестовима закључивања, укључујући и оне који испитују размишљање у аналогијама. Међутим, поставља се питање – да ли они заиста разумеју оно што раде или само успешно „имитирају” логику на основу огромне количине претходно научених података?

Другим речима – док људи разумеју правило које стоји иза неког проблема, AI модели често само препознају сличности са ситуацијама из своје базе података. И то је, како пише MIT Technology Review, суштинска разлика између човека и машине.

Тестирање у три домена: слова, бројеви и приче

Да би проверили како се вештачка интелигенција сналази у апстрактном размишљању, истраживачи су тестирали GPT моделе у три различите области:

Аналогије са низовима слова

Нумеричке матрице (бројчани обрасци)

Наративне аналогије (контекстуалне приче)

Задатке су решавали и људи и AI, али је у сваком случају направљен корак даље: поред стандардних тестова, коришћене су и њихове модификоване верзије, које су биле довољно различите да захтевају апстрактније закључивање. Идеја је била јасна – ако AI заиста разуме принципе, требало би да се снађе и у варијацијама задатака које не личе на оне на којима је тренирана.

Резултати су, међутим, били поражавајући за AI.

У задацима са низовима слова (нпр. абцд → абце, па се пита шта следи за ијкл), већина људи је без проблема препознала образац и одговорила „ијкм”.

GPT модели су ту, такође, били успешни.

Код нешто сложенијих примера – рецимо, аббцд → абцд, па се пита шта би следило из ијккл – људи су препознали логику уклањања дуплираног слова и рекли „ијкл”. GPT модели су ту, међутим, почели да греше.

Како је задатак постајао комплекснији, и људи су имали више тешкоћа, али њихова способност да се снађу у непознатом и даље је била значајно већа од оне коју су показали AI модели.

Слично је било и у тестовима бројчаних матрица – AI се добро сналазио док је образац био познат, али је био далеко мање успешан када је требало препознати логику у варијацијама задатка.

Највеће разлике су уочене у наративним аналогијама – ситуацијама у којима је потребно препознати суштинску повезаност између прича, ликова и њихових односа. Ту је вештачка интелигенција показала слабости: била је осетљива на редослед одговора (што не погађа људе) и имала је тенденцију парафразирања уместо давања јасног одговора.

View this post on Instagram

A post shared by Headline.Junction (@headlinejunction)

AI пада где људи бриљирају

У стварним животним ситуацијама, способност апстрактног закључивања је најважнија. Судија, на пример, не доноси одлуку само на основу преседана – он мора да препозна да ли се правило из претходног случаја може применити на нову ситуацију. Лекар мора да разуме да исти симптом може да указује на потпуно различите болести, у зависности од контекста.

AI ту заказује. Студија је показала да модели попут GPT-а имају низак капацитет за тзв. zero-shot учење – способност да изнесу тачан закључак без претходног примера из исте категорије. Другим речима, ако вештачка интелигенција није нешто слично већ видела, велика је вероватноћа да ће погрешити.

У домену здравства, то може да значи погрешну дијагнозу или терапију. У правосуђу – погрешну пресуду. У образовању – непоштену оцену.

Проблем није у знању – већ у начину размишљања, како истиче једна од ауторки студије, др Лора Луис.

„Проблем није у количини података, већ у начину на који се они користе. Људи знају када правило важи, а када не – модели то не знају”, каже др Луис.

AI системи данас бриљирају у препознавању образаца – што више података, то су бољи, стоји даље у студији. Генерализација, способност да се из специфичних случајева извуку општа правила и примене у новим ситуацијама, међутим, остаје њихова највећа слабост.

Кључна порука студије јесте да AI не треба оцењивати само према тачности одговора, већ и према робусности и стабилности логике коју користи. Ако се одговор мења у зависности од редоследа питања, начина на који је формулисано или контекста у којем се даје – то није поуздан систем за доношење озбиљних одлука.

Зато они који користе вештачку интелигенцију морају да разумеју не само шта AI може, већ и где су јој границе.

„Морамо престати да очекујемо да AI размишља као човек. Уместо тога, морамо научити како она закључује и где престаје њена моћ разумевања”, закључује др Луис.

Без људског надзора, AI можда изгледа као да зна шта ради – али, суштински, може да доноси погрешне одлуке.