Silīcija ieleja liek lielas cerības uz “vidēm”, kur trenēt MI aģentus

Silīcija ieleja investē RL vidēs, lai trenētu MI aģentus un virzītu tehnoloģiju uz nākamo attīstības posmu.

Gadu gaitā Silīcija ieleja vadītāji ir radījuši konkrētu vīziju par mākslīgā intelekta (MI) aģentiem, kas spēj patstāvīgi lietot programmas un veikt uzdevumus cilvēku vietā.

Taču, aktīvi izmantojot šodien pieejamos risinājumus, piemēram, OpenAI ChatGPT Agent” vai “Perplexity Comet”, ātri kļūst skaidrs, cik lieli ierobežojumi šīm tehnoloģijām joprojām pastāv. Lai aģenti kļūtu izturīgāki un spējīgāki, var būt vajadzīgas jaunas pieejas, ko nozare vēl tikai atklās.

Viena no šādām metodēm ir rūpīga darba telpu simulācija, kur MI var trenēties vairāku soļu uzdevumos. Šādas simulācijas pazīstamas kā pastiprinātās mācīšanās (RL – reinforcement learning) vides. Tāpat kā iepriekšējo MI vilni virzīja datu kopumi, RL vides kļūst par vitāli svarīgu sastāvdaļu šo aģentu izstrādē.

Pētnieki, jaunuzņēmumu dibinātāji un investori ziņu aģentūrai TechCrunch stāsta, ka vadošās MI laboratorijas arvien vairāk pieprasa RL vides, un netrūkst jaunuzņēmumu, kas tās vēlas piedāvāt.

„Visas lielās laboratorijas šobrīd veido RL vides pašu spēkiem,” intervijā sacīja Dženifera Li, riska kapitāla fonda Andreessen Horowitz partnere.

„Taču šo datu kopu izveide ir ļoti sarežģīta, tāpēc laboratorijas skatās arī uz trešo pušu piegādātājiem, kas spēj radīt kvalitatīvas vides un novērtējumus. Visi raugās šajā virzienā.”

Šī interese ir radījusi jaunu, labi finansētu jaunuzņēmumu slāni, piemēram, Mechanize un Prime Intellect, kas dedzīgi vēlas kļūt par līderiem šajā jomā.

Tikmēr lielie datu marķēšanas uzņēmumi, piemēram, Mercor un Surge, iegulda vairāk RL vidēs, lai pielāgotos nozares virzībai no statiskiem datiem uz interaktīvām simulācijām. Saskaņā ar The Information ziņām, “Anthropic” vadītāji pat apsver iespēju nākamgad ieguldīt vairāk nekā 1 miljardu eiro RL vidēs.

Investori un dibinātāji cer, ka kāds no šiem jaunuzņēmumiem kļūs par sava veida “Scale AI vidēm” – atsauce uz 24 miljardu eiro vērtēto datu marķēšanas gigantu, kas palīdzēja uzplaukt sarunbotiem.

Kas īsti ir RL vide?

RL vide būtībā ir treniņu platforma, kas imitē to, ko MI aģents darītu reālā programmā. Kāds dibinātājs intervijā salīdzināja to ar “ļoti garlaicīgas videospēles” veidošanu.

Piemēram, vide var simulēt “Chrome” pārlūku un uzdot aģentam nopirkt zeķu pāri vietnē Amazon. Aģents tiek vērtēts pēc veiktspējas, un panākumu gadījumā tas saņem atlīdzības signālu.

Lai gan uzdevums šķiet vienkāršs, ir gana daudz aspketu, kur MI var kļūdīties. Tas var apjukt, piemēram, izvēļņu sistēmā vai iegādāties pārāk daudz zeķu, atsaucoties uz iepriekš ilustrēto situāciju.

Tā kā izstrādātāji nespēj paredzēt pilnīgi visas potenciāli pieļaujamās kļūdas, videi jābūt pietiekami elastīgai, lai uztvertu neparastu uzvedību un sniegtu atgriezenisko saiti. Tas padara vides veidošanu krietni sarežģītāku nekā statisku datu kopu izstrādi.

Dažas vides ir ar izteikti augstu sarežģītības pakāpi, proti, tās ļauj aģentiem izmantot gan dažādus rīkus, gan piekļūt internetam, gan strādāt ar dažādām lietotnēm. Citas vides ir ievērojami nepielaidīgākas, piemērotas konkrētu uzdevumu apgūšanai uzņēmumu programmatūrā.

Lai gan Silīcija ieleja šobrīd ir vienīgie aktīvie RL implementētāji, šai pieejai ir ievērojama priekšvēsture. 2016. gadā OpenAI veidoja “RL Gyms” – apmācības vidi, kas ir līdzīga mūsdienu konceptam. Tajā pašā gadā “Google DeepMind” sistēma AlphaGo, izmantojot RL simulācijā, uzvarēja pasaules čempionu spēlē “Go”.

Atšķirība ir tajā, ka mūsdienās pētnieki veido MI aģentus, kas lieto datorus ar lieliem transformatoru modeļiem. Atšķirībā no specializētās AlphaGo, šie aģenti paredzēti plašākām spējām, un arī lielākam kļūdu riskam.

Piesātināts tirgus

Datu marķēšanas uzņēmumi, piemēram, Scale AI, Surge un Mercor, cenšas izmantot izdevību un izstrādā RL vides. Viņiem ir vairāk resursu nekā lielākajai daļai jaunuzņēmumu, kā arī ciešas attiecības ar MI laboratorijām.

Surge izpilddirektors Edvins Čens stāsta, ka laboratorijās pieprasījums pēc RL vidēm nesen “ievērojami pieaudzis”. Surge, kas pērn guva 1 miljardu eiro ieņēmumus no sadarbībām ar OpenAI, Google, Anthropic un Meta, nesen izveidoja atsevišķu nodaļu RL vides izstrādei.

Tam seko Mercor, jaunuzņēmums ar 8,5 miljardu eiro vērtību, kas sadarbojies ar OpenAI, Meta un Anthropic. Mercor piedāvā investoriem iespēju atbalstīt RL vides konkrētām nozarēm, piemēram, programmēšanai, veselības aprūpei un jurisprudencei.

Savulaik Scale AI dominēja datu marķēšanā, taču pēc tam, kad Meta ieguldīja 11,9 miljardus eiro un pārvilināja tā vadītāju, uzņēmums zaudēja savas pozīcijas. Google un OpenAI vairs neizmanto Scale AI kā datu piegādātāju, un konkurence pastāv pat Meta iekšienē.

Daži jaunie spēlētāji sāk tieši ar šo nišu. Piemēram, Mechanize, dibināts pirms sešiem mēnešiem ar ambiciozu mērķi “automatizēt visas darbavietas”, šobrīd koncentrējas uz RL vidēm MI programmēšanas aģentiem. Uzņēmums programmētājiem piedāvā 424 000 eiro atalgojumu gadā, kas ir krietni vairāk nekā ārštata līgumslēdzēji pelna Scale AI vai Surge.

Saskaņā ar divu avotu teikto, Mechanize jau sadarbojas ar Anthropic, lai veidotu RL vides. Abi uzņēmumi atteicās komentēt partnerību.

Citi, piemēram, Prime Intellect, liek likmes uz to, ka RL vides būs noderīgas arī ārpus laboratorijām. Šis jaunuzņēmums, ko atbalsta Andrejs Karpatijs, Founders Fund un Menlo Ventures, piedāvā atvērtā koda izstrādātājiem piekļuvi tādiem pašiem resursiem kā tas ir Silīcija ielejas uzņēmumiem

Prime Intellect pētnieks Vils Brauns uzsver, ka RL vides prasa daudz vairāk skaitļošanas jaudas nekā agrākas metodes, tāpēc GPU piegādātājiem šeit varētu būt laba niša.

“RL vides būs tik plašas, ka neviena kompānija nespēs tās monopolizēt,” saka Brauns. “Mēs vēlamies veidot labu atvērtā koda infrastruktūru. Mūsu bizness ir skaitļošanas jaudas nodrošināšana, bet raugāmies uz to ilgtermiņā.”

Vai Silīcija ieleja spēs veiksmīgi implementēt RL vides?

Jautājums paliek, vai RL vides spēs mērogoties tāpat kā iepriekšējās MI mācīšanas metodes.

Pastiprinātā mācīšanās pēdējā gada laikā devusi dažus no lielākajiem sasniegumiem, tostarp OpenAI “o1” un AnthropicClaude Opus 4” modeļus. Tie ir svarīgi, jo iepriekšējās metodes sniedz arvien mazāku atdevi.

RL vides kļūst par daļu no lielākas likmes uz pastiprināto mācīšanos. Daudzi uzskata, ka šīs vides turpinās virzīt progresu, pievienojot vairāk datu un skaitļošanas jaudas.

Daži OpenAI pētnieki, kas strādāja pie “o1”, sacīja, ka uzņēmums ieguldījis “rezonēšanas modeļos”, jo uzskatīja, ka tie labi mērogosies.

Labākais veids, kā mērogot RL, joprojām nav skaidrs, taču vides šķiet daudzsološas. Tās ļauj MI aģentiem darboties simulācijās ar pieejamiem rīkiem un programmām, nevis tikai ģenerēt tekstu. Šāda pieeja, protams, pierpasa ievērojami vairāk resursu, bet varētu sniegt potenciāli lielāku atdevi.

Daži ir skeptiski, vai RL vides sevi attaisnos. Bijušais Meta pētnieks Ross Teilors uzsver, ka RL vide ir pakļauta “atalgojuma apiešanai”, kad MI “krāpj sistēmu”, nevis patiesi veic uzdevumu.

OpenAI API inženierijas vadītājs Šervins Vu podkāstā pauda skepsi par RL vidēmm kā biznesu, norādot uz sīvo konkurenci un ātro pētniecības attīstību.

Arī investors Andrejs Karpatijs, kurš atzīst RL vidi par iespējamu izrāvienu, sociālajā tīklā X ir izteicis bažas par to, cik ilgi šī pieeja spēs nodrošināt progresu: “Es ticu vidēm un aģentu mijiedarbībai, bet esmu piesardzīgs par pastiprināto mācīšanos kā tādu,” viņš raksta.

Avots: TechCrunch

Dalies :

Facebook
Twitter
LinkedIn
Pinterest

Atbildēt

Jaunākie apskati
Tev varētu interesēt