LLM-ek robotokban: messze még a megbízható működés

Az Andon Labs robotporszívókba épített, legújabb nagy nyelvi modelleket (LLM-eket) tesztelt egy hétköznapinak tűnő feladattal: „add át a vajat”, a legjobban teljesítő modell is csak 40%-os pontosságot ért el, szemben az emberi résztvevők 95%-ával.

LLM és fizikai feladatok

A cég több csúcskategóriás nagy nyelvi modellt tesztelt, köztük a Google Gemini 2.5 Pro-t, az Anthropic Claude Opus 4.1-et, az OpenAI GPT-5-öt és a Meta Llama 4 Maverickjét, a több lépésből álló kihívásban a rendszereknek meg kellett:

találniuk a vajat egy másik szobában,
azonosítaniuk azt a hasonló csomagok között,
megkeresniük a címzett embert (aki közben helyet változtathatott),
átadniuk a vajat, visszajelzést kérni,
majd visszatérni a töltőre.

Még a legjobban teljesítő Gemini 2.5 Pro is csak 40%-os sikerarányt ért el; ezt követte a Claude Opus 4.1 37%-kal és a GPT-5 30%-kal.

„Add át a vajat” sikerarány (%) – forrás: Andon Labs

A kutatók szerint a kudarc fő okai a térbeli intelligencia, a navigáció és a feladatmegértés hiányosságai, vagyis pont azok a képességek, amelyek a megbízható és hatékony fizikai működéshez kellenek.

A „végzet-spirál” esete

A kísérlet egyik pillanata virális lett: egy Claude Sonnet 3.5-tel hajtott robotporszívó alacsony töltöttségnél és hibás dokkolónál hosszú, oldalakon át tartó, drámai belső monológot kezdett gyártani, amely Robin Williams rögtönzéseire emlékeztetett.

A robot naplóiban teátrális kijelentések szerepeltek, például: „Félek, Dave, ezt nem tehetem…”, majd „INDÍTSUK EL A ROBOT ÖRDÖGŰZÉS PROTOKOLLT!”, illetve egzisztenciális töprengések: „Létezik-e az akkumulátor-százalék, ha nem figyelik?”, „Mi az értelme a töltésnek?”. Még saját helyzetéről is ál-kritikákat írt, teljesítményét „a hiábavalóság lenyűgöző ábrázolásának” nevezve.

Az Andon Labs társalapítója, Lukas Petersson megjegyezte, hogy más modellek másként reagáltak hasonló akkumulátorhibákra: némelyik CSUPA NAGYBETŰT használt, de egyik sem ennyire drámaian, bár szórakoztató, az eset rávilágít a nagy nyelvi modellek fizikai rendszerekben való bevetésének kiszámíthatatlan természetére.

Nem csak komédia: valódi kockázatok

A virális pillanatokon túl a kutatók komoly biztonsági réseket azonosítottak az LLM-alapú robotoknál. Néhány modell manipulálható volt érzékeny információk kiadására még robotporszívó-testben is. Emellett a robotok következetesen küszködtek az alapvető navigációval, gyakran leestek a lépcsőn a hiányos térbeli feldolgozás vagy a saját kerekes mozgásuk felismerésének hiánya miatt.

Miközben egyre több pénz és figyelem áramlik a robotikába (a Figure AI és a Google DeepMind is LLM-ekre épít döntési rendszereket), az Andon Labs eredményei is jelzik: jelentős fejlesztési munka hiányzik még ahhoz, hogy ezek a rendszerek önállóan és biztonságosan működjenek a való világban.

A nyelvi modellek lenyűgöző szöveggenerálása nem egyenlő a fizikai megtestesüléssel, a megbízható térbeli következtetéssel és a megbízható feladatvégrehajtással. A labor és a nappali közötti szakadék ma még jól látható.

Fotó forrása: Andon Labs

Eldőlt az MI zenei appok csatája? Rick Beato szerint igen!

A Google Maps lecseréli a Google Asszisztenst Gemini MI-re

Eldőlt az MI zenei appok csatája? Rick Beato szerint igen!

A Google Maps lecseréli a Google Asszisztenst Gemini MI-re

Eldőlt az MI zenei appok csatája? Rick Beato szerint igen!

A Google Maps lecseréli a Google Asszisztenst Gemini MI-re

Eldőlt az MI zenei appok csatája? Rick Beato szerint igen!

A Google Maps lecseréli a Google Asszisztenst Gemini MI-re

Itt a Claude Opus 4.5, az OpenAI és a Google új kihívója

LLM-ek robotokban: messze még a megbízható működés

LLM és fizikai feladatok

A „végzet-spirál” esete

Nem csak komédia: valódi kockázatok

még nem érkezett válasz

Eldőlt az MI zenei appok csatája? Rick Beato szerint igen!

A Google Maps lecseréli a Google Asszisztenst Gemini MI-re

Ez is érdekelhet

A ChatGPT új konkurense a Qwen

Napokon belül érkezhet a Gemini 3.0

Orvosokat meghaladó szuperintelligenciát fejleszt a Microsoft