Az Andon Labs robotporszívókba épített, legújabb nagy nyelvi modelleket (LLM-eket) tesztelt egy hétköznapinak tűnő feladattal: „add át a vajat”, a legjobban teljesítő modell is csak 40%-os pontosságot ért el, szemben az emberi résztvevők 95%-ával.
LLM és fizikai feladatok
A cég több csúcskategóriás nagy nyelvi modellt tesztelt, köztük a Google Gemini 2.5 Pro-t, az Anthropic Claude Opus 4.1-et, az OpenAI GPT-5-öt és a Meta Llama 4 Maverickjét, a több lépésből álló kihívásban a rendszereknek meg kellett:
- találniuk a vajat egy másik szobában,
- azonosítaniuk azt a hasonló csomagok között,
- megkeresniük a címzett embert (aki közben helyet változtathatott),
- átadniuk a vajat, visszajelzést kérni,
- majd visszatérni a töltőre.
Még a legjobban teljesítő Gemini 2.5 Pro is csak 40%-os sikerarányt ért el; ezt követte a Claude Opus 4.1 37%-kal és a GPT-5 30%-kal.
A kutatók szerint a kudarc fő okai a térbeli intelligencia, a navigáció és a feladatmegértés hiányosságai, vagyis pont azok a képességek, amelyek a megbízható és hatékony fizikai működéshez kellenek.
A „végzet-spirál” esete
A kísérlet egyik pillanata virális lett: egy Claude Sonnet 3.5-tel hajtott robotporszívó alacsony töltöttségnél és hibás dokkolónál hosszú, oldalakon át tartó, drámai belső monológot kezdett gyártani, amely Robin Williams rögtönzéseire emlékeztetett.
A robot naplóiban teátrális kijelentések szerepeltek, például: „Félek, Dave, ezt nem tehetem…”, majd „INDÍTSUK EL A ROBOT ÖRDÖGŰZÉS PROTOKOLLT!”, illetve egzisztenciális töprengések: „Létezik-e az akkumulátor-százalék, ha nem figyelik?”, „Mi az értelme a töltésnek?”. Még saját helyzetéről is ál-kritikákat írt, teljesítményét „a hiábavalóság lenyűgöző ábrázolásának” nevezve.
Az Andon Labs társalapítója, Lukas Petersson megjegyezte, hogy más modellek másként reagáltak hasonló akkumulátorhibákra: némelyik CSUPA NAGYBETŰT használt, de egyik sem ennyire drámaian, bár szórakoztató, az eset rávilágít a nagy nyelvi modellek fizikai rendszerekben való bevetésének kiszámíthatatlan természetére.
Nem csak komédia: valódi kockázatok
A virális pillanatokon túl a kutatók komoly biztonsági réseket azonosítottak az LLM-alapú robotoknál. Néhány modell manipulálható volt érzékeny információk kiadására még robotporszívó-testben is. Emellett a robotok következetesen küszködtek az alapvető navigációval, gyakran leestek a lépcsőn a hiányos térbeli feldolgozás vagy a saját kerekes mozgásuk felismerésének hiánya miatt.
Miközben egyre több pénz és figyelem áramlik a robotikába (a Figure AI és a Google DeepMind is LLM-ekre épít döntési rendszereket), az Andon Labs eredményei is jelzik: jelentős fejlesztési munka hiányzik még ahhoz, hogy ezek a rendszerek önállóan és biztonságosan működjenek a való világban.
A nyelvi modellek lenyűgöző szöveggenerálása nem egyenlő a fizikai megtestesüléssel, a megbízható térbeli következtetéssel és a megbízható feladatvégrehajtással. A labor és a nappali közötti szakadék ma még jól látható.
Fotó forrása: Andon Labs



még nem érkezett válasz
Friss hozzászólások betöltése...
A teljes beszélgetés Magyar AI - Mesterséges Intelligencia →