Az Apple most bemutatott AI-modellje szöveges képszerkesztési parancsokat hajt végre. Forgat, kivág, kontrasztot állít, és hasonlók.
Az MLLM-Guided Image Editing (MGIE) nevű modellt az Apple a Kaliforniai Egyetemmel együttműködve fejlesztették ki. Az MGIE képes különböző képszerkesztési feladatok elvégzésére, például képkivágásra, méretváltoztatásra és forgatásra, valamint a fényerő, a színegyensúly és a kontraszt beállítására, mindezt a felhasználó szöveges utasításait követve. Az MGIE képességeinek és teljesítményének részleteit egy ezen a héten közzétett konferencia-kiadványban ismertették.
Az erről készült jelentés kitér arra, hogy az MGIE a különböző mérőszámok tekintetében jelentős javulást mutat a képszerkesztési teljesítményben, és fenntartja a versenyképes következtetési hatékonyságot. A technológiát Photoshop-szerű módosítások, fotóoptimalizálás és helyi szerkesztés elvégzésére használták.
Az MGIE a meglévő technikákhoz képest sokkal ügyesebb, ami ígéretes irányt sugall a jövőbeli képszerkesztő eszközök számára, amelyek hozzáférhetőbbek és intuitívabban használhatók lesznek. Az MGIE az Apple hivatalos fejlesztéseként nem áll széles körben a nyilvánosság rendelkezésére, de a felhasználók a GitHubon keresztül hozzáférhetnek a technikai részek megismeréséhez, vagy kipróbálhatják a webes demóját a Hugging Face oldalon.
Az MGIE fejlesztése egyfajta felzárkózási kísérlet lehet ahhoz, amit a Microsoft, a Google és a Meta ért el az elmúlt két évben. Azt, hogy a vállalat igyekszik megközelíteni a többieket, az is mutatja, hogy csak 2023-ban az Apple nem kevesebb, mint 32 AI-startupot vásárolt fel. Sokkal többet, mint a Google (21), a Meta (18) és a Microsoft (17).