
Ustvarjanje slik s pomočjo umetne inteligence je postalo eden najbolj vidnih primerov tekme med tehnološkimi velikani. OpenAI se je odločil za potezo z obsežno posodobitvijo Slike ChatGPT, njegov integrirani sistem za vizualno ustvarjanje, v kontekstu, kjer so modeli, kot je Googlov Nano Banana Pro, prevladovali v večjem delu pogovorov.
S to izdajo si podjetje, ki stoji za ChatGPT, želi, da bi njihovo orodje preseglo zgolj preprost dodatek za klepet in delovalo kot polnopravna funkcija. pristen integriran ustvarjalni studio, hitrejši, natančnejši in z vmesnikom, ki je bil od začetka zasnovan za delo s slikami namesto omejen na besedilo.
Nov model GPT Image 1.5: hitrost in natančnost kot njegova zaščitna znaka
Bistvo posodobitve je Slika GPT 1.5OpenAI-jev novi paradni model za slike. Podjetje trdi, da lahko ustvari vizualno vsebino do ... štirikrat hitreje kot prejšnja različica, kar je v praksi še posebej opazno v času prometnih konic in na mobilnih napravah, kjer prej ni bilo neobičajno, da se je postopek pri menjavi aplikacij prekinil ali trajal večno.
Poleg zmogljivosti je ključna izboljšava tudi sledenje navodilom. Sistem natančneje interpretira navodila. kompleksni pozivi in natančni prostorski odnositako da zahteve, kot so sprememba samo enega predmeta, prilagajanje osvetlitve ali spreminjanje oblačil osebe, ne povzročajo več nepričakovanih sprememb v preostalem delu prizora.
OpenAI pojasnjuje, da je bil GPT Image 1.5 usposobljen za ohranjanje konstantnih ključnih elementov slike, kot so identiteta obraza, celotna kompozicija ali barvna paletatudi po več krogih verižnega urejanja. Ta točka je še posebej pomembna za profesionalno uporabo, kjer vizualna doslednost ni muha, temveč zahteva.
Točkovno in verižno urejanje: spreminjajte le tisto, kar je pomembno
Eno od področij, kjer prejšnji modeli niso bili uspešni, je bilo ciljno urejanje določenih področijMenjava klobuka, prilagajanje osvetlitve ali dodajanje elementa v ozadje lahko na koncu spremeni celotno sceno. Nove slike ChatGPT neposredno rešujejo to težavo.
Model je zmožen dodajanje, odstranjevanje, združevanje, mešanje in transponiranje elementov znotraj iste slike, hkrati pa ohranja stabilnost vseh drugih pomembnih komponent. V praksi to pomeni, da lahko zahtevate dejanja, kot so: spreminjanje barve majice, spreminjanje klobuka, prilagajanje prometnega znaka ali preoblikovanje tovornjaka v gasilski avto, ne da bi pri tem popačili preostalo okolje.
Okrepljeno je bilo tudi vedenje med telefonskimi klici verižne izdajeDo sedaj je tretja ali četrta sprememba običajno povzročila, da je model popolnoma "preoblikoval" sliko. Z GPT Image 1.5 orodje veliko zanesljiveje ohrani slog, pozo in prizor, tako da lahko ponavljate na isti osnovi, ne da bi morali za vsako spremembo začeti iz nič.
Ustvarjalne preobrazbe: od selfija do filmskega plakata
Poleg tehnične natančnosti OpenAI potiska slike ChatGPT na izrazito ustvarjalno področje. Sistem uporabnikom omogoča nalaganje lastne fotografije in z relativno preprostim ukazom sliko pridobijo v nekaj sekundah. verodostojne preoblikovane različiceOd oglasa iz 90-ih do prizora na Times Squareu sredi zime ali japonskega mesta s kiberpunk estetiko.
Model je sposoben tudi poustvariti specifični umetniški slogi, kot so klasični filmski plakati, ilustracije v anime slogu ali kompozicije z zgodovinskim videzom, ki spoštujejo ključne značilnosti izvirne osebe. Ideja je, da se lahko uporabnik »vidi« v zelo različnih kontekstih, ne da bi pri tem izgubil občutek, da gre za isto osebo.
Ta pristop spominja na to, kar so že ponujali modeli, kot je Nano Banana, vendar se OpenAI poskuša razlikovati s stavo na bolj nadzorovane konceptualne transformacijekjer sistem ohranja bistvo osnovne fotografije, medtem ko spreminja oblačila, okolje, osvetlitev ali obdobje s precejšnjo vizualno koherenco.
ChatGPT Images se poslavlja od rumenkastega sloga in izboljšuje kompleksne prizore
Dolgo časa je bilo relativno enostavno ugotoviti, ali je bila slika ustvarjena z zgodnejšimi različicami ChatGPT: prevladovale so topli toni, kremasti zaključki in določen rumen podton kar je razkrilo njegov umetni izvor. Notranje primerjave, ki jih je pokazal OpenAI in neodvisni testi, v primerjavi z alternativami, kot so Bing Image CreatorZdi se, da je ta lastnost ostala zadaj.
Novi model ponuja bolj nevtralen in raznolik barvni spekterZaradi tega so slike bolj podobne običajnim fotografijam, razen če uporabnik v pozivu izrecno ne zahteva drugače. To pomaga, da so slike videti manj "znamčne" in bolj uporabne v kontekstih, kjer je zaželen realizem ali integracija z obstoječim fotografskim gradivom.
Izboljšave so bile narejene tudi pri predstavitvi prizori z veliko majhnimi elementina primer množice ali ozadja, bogata s podrobnostmi. Obrazi v velikih skupinah so zdaj bolj ločeni drug od drugega, z bolj naravnimi pozami in izrazi, zmanjšane pa so tudi tipične napake, kot so odtisi rok, drobne poteze ali nenavadne ponovitve.
ChatGPT Images vam omogoča vstavljanje besedila v slike: vstavljanje plakatov, infografik in maket
Ustvarjanje berljivega besedila znotraj slike je bila v preteklosti ena od Ahilovih pet generativne umetne inteligence. OpenAI trdi, da GPT Image 1.5 na tem področju naredi pomemben korak naprej z ... veliko bolj dosledno upodabljanje tipografije kot v prejšnjih različicah.
Model lahko obvlada gosti, majhni bloki besedilaTo odpira vrata ustvarjanju plakatov, infografik, maket časopisnih strani ali modelov s tabelami in formati tipa markdown z berljivostjo, ki sicer ni popolna, a je bližje nečemu uporabnemu brez intenzivnega retuširanja.
Za tiste, ki delajo v trženju, izobraževanju, e-trgovini ali digitalnih vsebinah, ta izboljšava pomeni zmanjšanje časa, porabljenega za popravi napačno oblikovane črke ali nepopolne besedeV kontekstih, kjer je treba ustvariti vizualna gradiva z jasnimi sporočili, pripravljena za objavo, postane dejstvo, da model sam ustvari razmeroma čisto besedilo, razlikovalni dejavnik.
Nova uporabniška izkušnja: namenski razdelek za slike v ChatGPT
Posodobitev se ne ustavi le pri modelu; vpliva tudi na način njegove uporabe. OpenAI je v stransko vrstico ChatGPT dodal novo funkcijo. poseben razdelek z imenom »Slike«To velja tako za mobilno aplikacijo kot za spletno različico. Cilj je ločiti vizualno izkušnjo od tradicionalnega klepeta in olajšati navigacijo tistim, ki se ne želijo ukvarjati z zapletenimi pozivi.
V tem novem prostoru uporabnik najde vnaprej določeni slogi, predlogi trendov in predloge Za pogosta opravila, kot so ustvarjanje voščilnic, restavriranje starih fotografij, preklapljanje med različnimi umetniškimi slogi ali ustvarjanje različic istega izdelka, ta pristop znižuje vstopne ovire za ljudi brez tehničnih izkušenj.
Drug praktičen vidik je, da razdelek Slike deluje kot centralizirano skladišče vseh uporabnikovih vizualnih stvaritev. Od tam je lažje pregledati prejšnje različice, ponoviti slog z novo vsebino ali nadaljevati z urejanjem že ustvarjene slike, kar je še posebej uporabno pri neprekinjenih delovnih procesih.
Od privlačnega dodatka do vizualnega delovnega orodja
OpenAI sam priznava, da je do sedaj generiranje slik znotraj ChatGPT delovalo bolj kot dodatno privlačen v vmesniku, zasnovanem za besedilo ki služi kot trdno vizualno delovno okolje. S to posodobitvijo si podjetje prizadeva za kvalitativni preskok: prehod od "testnih" slik za družbene medije k orodju, uporabnemu v procesih v resničnem svetu.
Izboljšanje doslednosti in iteracije ima neposreden vpliv na sektorje, kot so oblikovanje, trženje, e-trgovina ali blagovna znamkaPodjetja, ki morajo prilagoditi isti kreativni koncept več formatom, preizkusiti različice izdelka ali ohraniti doslednost logotipov in korporativnih elementov v stotinah kosov, imajo v tej vrsti nadzora jasno prednost.
Kreativne platforme, ki delujejo v Evropi, kot so spletni urejevalniki in orodja za oblikovanje v oblakuTe modele že integrirajo v svoje delovne procese. Na tem področju je lahko zavezanost OpenAI k bolj celovitemu vizualnemu okolju dobra izbira tako za mala in srednje velika podjetja, ki želijo pospešiti izdelavo grafičnih gradiv, kot za interne komunikacijske ekipe v velikih korporacijah.
Razpoložljivost slik ChatGPT za uporabnike, podjetja in razvijalce
OpenAI je začel uvajati nove slike ChatGPT za večina uporabnikov platforme, vključno s tistimi z brezplačnimi računiMnogi uporabniki že vidijo obvestilo, ko odprejo aplikacijo, ki jih vabi, da preizkusijo funkcijo slike, in nov namenski zavihek v stranskem meniju za centralizacijo njene uporabe.
V poslovnem sektorju je podjetje potrdilo, da bo napredni dostop za poslovne in podjetniške račune uvajan postopoma, s poudarkom na integracijah znotraj profesionalni delovni procesiZa evropske organizacije, ki že uporabljajo ChatGPT za interna opravila, to pomeni, da lahko razširijo njegovo uporabo z besedila na grafično gradivo, ustvarjeno z istimi poverilnicami.
Vzporedno je GPT Image 1.5 na voljo prek OpenAI APITo razvijalcem omogoča, da v svoje aplikacije integrirajo zmogljivosti za ustvarjanje in urejanje slik. Podjetje navaja, da so stroški vnosa in iznosa slik približno 20 % nižji kot pri prejšnjem modelu, kar je pomembna prednost za obsežne projekte ali storitve, ki delujejo z majhnimi maržami.
Konkurenca z Nano Banana Pro in drugimi vizualnimi modeli
Poteza OpenAI prihaja v času močnega konkurenčnega pritiska. Google je pritiskal Nano Banana Pro kot eden vodilnih vizualnih generativnih modelov, integriran v svoj ekosistem ustvarjalnih orodij in povezan z njegovim Družina Dvojčkov, kar je povečalo njegovo uporabo po vsem svetu.
Zaradi teh razmer je prišlo do vzpostavitve [nejasno] v nekaterih konkurenčnih storitvah. stroge omejitve za brezplačne uporabnikeNa primer z zmanjšanjem števila slik, ki jih je mogoče ustvariti na dan, deloma zaradi velikega povpraševanja. Nasprotno pa se zdi, da OpenAI stavi na kombinacijo širokega dosega, večje hitrosti in bolj izpopolnjenega okolja za urejanje, da bi ohranil in pritegnil uporabnike.
Medtem si drugi akterji, kot je xAI s svojim klepetalnim robotom Grok ali različni strokovnjaki za slike, prizadevajo za to. vizualna generacija postane osrednja fronta v boju za pozornost uporabnikov. Strategija OpenAI vključuje konsolidacijo ChatGPT kot »aplikacije vse v enem«, kjer iskanje, glas, besedilo, slike in video sobivajo v eni sami vstopni točki.
S temi novimi slikami ChatGPT OpenAI naredi pomemben korak k bolj zrelo vizualno orodjeHitrejši in natančnejši model, diferenciran vmesnik in možnosti urejanja, ki so jasno usmerjene v delo v resničnem svetu, tako v osebnem kot poklicnem okolju. Še ni jasno, v kolikšni meri bodo te izboljšave vključene v vsakdanje življenje uporabnikov in podjetij v Španiji in Evropi, vendar je sporočilo jasno: slika ni več le zabaven dodatek k klepetu, temveč je postala osrednja komponenta ekosistema ChatGPT.
