A Google hétfőn bemutatta a Generative UI nevű technológiát, amellyel az AI-modellek nem csak sima szöveges válaszokat adnak, hanem a semmiből képesek teljesen egyedi, interaktív felhasználói felületeket létrehozni. A funkció a Gemini alkalmazásban és a Google Kereső AI módjában jelenik meg, és új szintet jelent a hagyományos chatbot-élményekhez képest: nem csupán választ ad, hanem komplett felhasználói élményt épít egy-egy kérés köré.
A Gemini 3 Pro modellre épülő technológia weboldalakat, interaktív eszközöket, játékokat és szimulációkat tud generálni bármilyen kérdésre vagy utasításra reagálva. A bejelentéssel együtt megjelent kutatási anyag, a „Generative UI: LLMs are Effective UI Generators” szerint az emberi értékelők kifejezetten ezeket az AI által létrehozott felületeket részesítették előnyben a hagyományos, nagy nyelvi modellektől megszokott, sima szöveges válaszokkal szemben – feltéve, hogy az elkészülési időt nem vették figyelembe.
Két megközelítés a dinamikus felületekre
A Google kétféle megoldást tesztel a Gemini appban. A Dynamic view (dinamikus nézet) a Gemini 3 kódolási képességeire támaszkodva minden egyes prompthoz külön felületet tervez és kódol, a kontextushoz igazítva a tartalmat és a funkciókat. A Visual layout (vizuális elrendezés) ezzel szemben magazinszerű nézeteket hoz létre, interaktív modulokkal, amelyeket a felhasználók tovább alakíthatnak.
Forrás: Google Research – Generative UI Dinamikus nézetben, a következő prompt alapján:
„Készíts egy Van Gogh-galériát, minden képhez életrajzi háttérrel”.
Úgy szabja személyre az élményt, hogy például a mikrobiom elmagyarázása egy 5 éves gyereknek teljesen más tartalmat és funkciókat igényel, mint ugyanennek a témának a bemutatása egy felnőttnek
– fogalmazott a cég a kutatási blogbejegyzésében.
A Google keresőben a Generative UI képességek az AI Mode felületen érhetők el az Egyesült Államokban, a Google AI Pro és Ultra előfizetői számára. A felhasználók a modellválasztó menüben a „Thinking” opciót választva kapcsolhatják be a funkciót, amely az adott lekérdezéshez igazított interaktív eszközöket és szimulációkat generál.

Műszaki alapok és korlátok
A megoldás a Gemini 3 Pro modellt három kulcselemmel kombinálja: eszközhozzáféréssel (például képgenerálás és webes keresés), gondosan megírt rendszerutasításokkal, valamint egy utófeldolgozó réteggel, amely a tipikus hibákat próbálja kezelni. A kutatás támogatására a Google létrehozta a PAGEN nevű adathalmazt, amely szakértők által tervezett weboldalakat tartalmaz, és amelyet a tervek szerint a kutatóközösség számára is elérhetővé tesznek..
A technológiának ugyanakkor vannak korlátai. A jelenlegi megvalósítás akár egy percig vagy tovább is eltarthat, mire elkészíti az eredményt, és időnként pontatlanságok is megjelennek a kimenetben. Ezek a területek továbbra is aktív kutatás alatt állnak – írja Yaniv Leviathan Google Fellow és a tanulmány társszerzője.
A bejelentés egybeesett a Gemini 3 szélesebb körű rajtjával, amelyet a Google eddigi legintelligensebb modelljeként jellemez. A Gemini 3 Pro 1501 pontot ért el az LMArena ranglistáján, megelőzve a korábbi verziókat. A modell több benchmarkon is erős eredményeket mutatott, többek között 91,9%-ot ért el a GPQA Diamond teszten PhD-szintű érvelésben, és 37,5%-ot a Humanity’s Last Exam mérőszámán, eszközök használata nélkül.
Fotó: Google Blog


még nem érkezett válasz
Friss hozzászólások betöltése...
A teljes beszélgetés Magyar AI - Mesterséges Intelligencia →