OpenAI pirmdien laida klajā jaunu modeļu grupu ar nosaukumu GPT-4.1, kur galvenā uzmanība pievērsta kodēšanai.
OpenAI pirmdien laida klajā jaunu modeļu grupu GPT-4.1. Jā, “4.1” – it kā uzņēmuma nomenklatūra jau nebūtu pietiekami mulsinoša.
Ir GPT-4.1, GPT-4.1 mini un GPT-4.1 nano, par kuriem OpenAI apgalvo, ka tie visi “izceļas” kodēšanā un instrukciju izpildē. Multimodālajiem modeļiem, kas pieejami, izmantojot OpenAI API, bet ne ChatGPT, ir 1 miljona zīmju konteksta logs, kas nozīmē, ka tie vienā piegājienā var uztvert aptuveni 750 000 vārdu.
GPT-4.1 iznāk laikā, kad OpenAI konkurenti, piemēram, Google un Anthropic, cenšas izveidot sarežģītus programmēšanas modeļus. Google nesen izlaistais Gemini 2.5 Pro, kas arī ir aprīkots ar 1 miljona zīmju konteksta logu, ieņem augstas vietas populārākajos kodēšanas kritērijos.
Tāpat arī Anthropic Claude 3.7 Sonnet un Ķīnas mākslīgā intelekta (MI) jaunuzņēmuma DeepSeek uzlabotais V3.
Daudzu tehnoloģiju gigantu, tostarp OpenAI, mērķis ir apmācīt MI kodēšanas modeļus, kas spēj veikt sarežģītus programmatūras izstrādes uzdevumus. OpenAI lielais mērķis ir izveidot “aģentisku programmatūras inženieri”, kā pagājušajā mēnesī tehnoloģiju samitā Londonā teica finanšu direktore Sāra Friāra.
Uzņēmums apgalvo, ka tā nākotnes modeļi spēs programmēt veselas lietojumprogrammas no “A līdz Z”, apstrādājot tādus aspektus kā kvalitātes nodrošināšana, kļūdu testēšana un dokumentācijas rakstīšana.
GPT-4.1 ir solis šajā virzienā.
Solis pareizajā virzienā?
“Mēs esam optimizējuši GPT-4.1 reālai lietošanai, pamatojoties uz tiešajām atsauksmēm, lai uzlabotu jomas, kas izstrādātājiem ir vissvarīgākās: frontend kodēšana, mazāk lieku rediģēšanas darbību, uzticama formātu ievērošana, atbilžu struktūras un secības ievērošana, konsekventa rīku lietošana un daudz kas cits,” ziņu aģentūrai TechChurch sacīja OpenAI pārstāvis.
“Šie uzlabojumi ļauj izstrādātājiem veidot aģentus, kas ievērojami labāk veic reālus programmatūras izstrādes uzdevumus.”
OpenAI apgalvo, ka pilnais GPT-4.1 modelis pārspēj GPT-4o un GPT-4o mini modeļus kodēšanas etalonmērījumos, tostarp SWE-bench. GPT-4.1 mini un nano modeļi ir efektīvāki un ātrāki, taču to precizitāte samazinās, un OpenAI apgalvo, ka GPT-4.1 nano ir visātrākais un lētākais modelis.
GPT-4.1 maksā 1,77 eiro par miljonu ievades žetonu un 7,10 eiro par miljonu izejas žetonu. GPT-4.1 mini maksā 0,35 eiro par miljonu ieejas žetonu un 1,42 eiro par miljonu izejas žetonu. GPT-4.1 nano maksā vien nepilnu vienu centu par miljonu ieejas žetonu un 0,35 eiro par miljonu izejas žetonu.
Saskaņā ar OpenAI iekšējiem testiem GPT-4.1, kas var ģenerēt vairāk žetonu vienlaicīgi nekā GPT-4o (32 768 pret 16 384), SWE-bench Verified, kas ir cilvēku validēta SWE-bench apakškopa, ieguva no 52 % līdz 54,6 % rezultātu.
Nepieciešama izaugsme
Šie skaitļi ir nedaudz zemāki par rezultātiem, ko Google un Anthropic paziņoja attiecīgi par Gemini 2.5 Pro (63,8 %) un Claude 3.7 Sonnet (62,3 %), izmantojot to pašu etalonu.
Atsevišķā novērtējumā OpenAI pārbaudīja GPT-4.1, izmantojot Video-MME, kas ir izstrādāts, lai novērtētu modeļa spēju “saprast” saturu videoierakstos. OpenAI apgalvo, ka GPT-4.1 sasniedza rekordlielu precizitāti – 72% – video kategorijā “garš, bez subtitriem”.
Lai gan GPT-4.1 salīdzinošajos rādītājos uzrāda samērā labus rezultātus un tam ir jaunāka “zināšanu robeža”, kas ļauj labāk novērtēt pašreizējos notikumus (līdz 2024. gada jūnijam), ir svarīgi paturēt prātā, ka pat daži no labākajiem mūsdienu modeļiem cīnās ar uzdevumiem, kas nesagādā grūtības ekspertiem.
Piemēram, daudzi pētījumi liecina, ka kodu ģenerējošie modeļi bieži vien nespēj novērst un pat ievieš drošības ievainojamības un kļūdas.
Arī OpenAI atzīst, ka GPT-4.1 kļūst mazāk uzticams (t. i. pieļauj vairāk kļūdas), jo vairāk ievades žetonu tam ir jāizmanto. Vienā no uzņēmuma veiktajiem testiem OpenAI-MRCR modeļa precizitāte samazinājās no aptuveni 84 % ar 8000 žetonu līdz 50 % ar 1 miljonu žetonu. Uzņēmums norāda, ka GPT-4.1 bija arī “burtiskāks” nekā GPT-4o, tāpēc dažkārt bija nepieciešami precīzāki un skaidrāki norādījumi.
Avots: TechChurch