Apple en onderzoekers van de UC-Santa Barbare universiteit hebben een multimodaal large language mode uitgebrach in open source, dat gewone spreektaal omzet in instructies om een afbeelding te bewerken. Deze AI wordt MLLM-Guided IMage Editing genoemd of MGIE - en het lijkt wel een beetje op magie.
Want met deze AI kan je in gewone spreektaal instructies geven om aspecten van een afbeelding aan te passen, zoals conrast, helderheid, scherpte, je kan de afbeelding vergroten of verkleinen, de kleuren wijzigen, filters toevoegen en nog veel meer.
De technologie doet dat door de instructies te herinterpreteren. Geef je bijvoorbeeld de instructie "maak de lucht blauwer", dan zal de MGIE dit omzetten naar "verhoog de saturatie van het luchtgedeelte met 20%". Deze instructie wordt dan gebruikt door een andere modus van het model, om de manipulatie van het beeld op pixelniveau te begeleiden.
Het is niet het eerste multimodale model dat zoiets doe, maar de meeste multimodale modellen werden tot nu toe niet op grote schaal toegepast op beeldbewerking. Daarom wordt dit als een grote vooruitgang op dat gebied beschouwd.
De broncode, data en vooraf getrainde modellen zijn verkrijgbaar op GitHub. Je kan dit ook zelf uittesten op de Hugging Face Spaces platform.
https://venturebeat.com/ai/apple-releases-mgie-a-revolutiona ...
https://www.macrumors.com/2024/02/07/apple-ai-model-edits-im ...
|