Apple daudz nerunā par saviem mākslīgā intelekta plāniem, taču pauž, ka mērķu ir daudz, viens no tiem – Siri uzlabojumi.
Brīnumainā kartā Apple ir mākslīgā intelekta (MI) jomas jauniesācēji. Lai gan ražotājs ir runājis par to un pat izlaidis dažādus produktus, domājot par MI, izskatās, ka tas tiek darīts nesteidzoties.
Tomēr pēdējo mēnešu laikā baumas un ziņas vēsta, ka Apple tikai velk laiku, gaidot īsto brīdi. Izskanējušās ziņas liek noprast, ka Apple runā gan ar OpenAI, gan Google par savu MI funkciju darbināšanu. Uzņēmums arī strādājot pie paši sava modeļa – Ajax.
Mazāki, taču jaudāki modeļi
Lai sildītu visus Apple fanus – izskatās, ka varam cerēt uz labāku Siri. Apple pētījumos izskan pieņēmumi, ka lielo valodu modeļi nekavējoties padarīs virtuālos asistentus gudrākus un labākus.
Ar iOS 18 uzņēmums plāno visas MI funkcijas darbināt pašā ierīcē, tas būs pilnībā bezsaistē. Ir grūti izveidot kvalitatīvu daudzfunkcionālu modeli pat, ja pieejami neskaitāmi datu centri un grafiskie procesori, jo viedtālrunis spēj paveikt tik vien.
Rakstā “LLM in flash: Efficient Large Language Model Inference with Limited Memory”, pētnieki izstrādājuši sistēmu modeļa datu glabāšanai SSD – parasti to saglabā ierīces RAM. “Mēs demonstrējam iespēju darbināt LLM, kas ir pat divreiz lielāki par pieejamo DRAM (iekš SSD),” pētnieki raksta, “sasniedzot secinājumu paātrinājumu līdz pat 4-5 reižu lielāku nekā tradicionālajām centrāles procesora ielādes metodēm un 20-25 reizēm videokartē.”
Apple pētnieki izveidojuši sistēmu EELBERT, kas spēj “saspiest” LLM daudz mazākā izmērā, nepazeminot tā kvalitāti. Izmēģinot samazināt Google Bert modeli, izdevās 15 reižu mazāka versija, kas ir 1.2 megabitu liela un ar 4% kvalitātes kritumu.
Siri, bet labāks
Grupa uzņēmuma pētnieku strādā pie veida, kā izmantot Siri bez uzrunas. Tā vietā, lai uzklausītu ‘’Hey Siri’’ vai ‘’Siri’’, ierīce, iespējams, spēs intuitīvi saprast, kad ar to tiek veikta saruna. “Problēma ir nedaudz izaicinošāka nekā balss uzvednes noteikšana,” pētnieki uzsver, “tāpēc, ka nebūs vadoša uzrunas frāze, ar ko tiek noteikts uzvednes sākums.” Iespējams, tieši tā iemesla dēļ vēl kāda pētnieku komanda izstrādājusi sistēmu, kas daudz precīzāk spēj atpazīt uzrunas. Vēl kādā rakstā minēts par modeli, kas labi saprot retus vārdus, ko asistenti bieži vien neatpazīst.
Kad Siri aktivējas, Apple vēlas, lai tas daudz labāk saprot un komunicē ar personu. Vienā no rakstiem tika minēta sistēma STEER, kā mērķis ir uzlabot nepārtrauktu komunikāciju ar asistentu, cenšoties saprast, kad tiek uzdoti papildus jautājumi vai par jaunu tēmu. Daudzi pētījumi fokusējas uz komunikācijas uzlabošanu tad, ja situācija nav izprotama, mācot asistentam uzdot vēl jautājumus, lai nosakidrotu apstākļus.
MI veselībā, bilžu rediģēšanā un Memojis
Kad Apple izvēlas runāt par MI, mērķis ir mazāk fokusēties uz tehnoloģiju tēmām, bet vairāk akcentēt, kā modelis ikdienā palīdzēs cilvēkiem. Lai gan Siri ir starmešu gaismā, ražotājam padomā arī ir citas noderīgas funkcijas.
Viena no tām ir veselība. LLM teorētiski varētu ļaut burties caur miljoniem biometrijas datu, ko ievākušas dažādas ierīces. Kā arī palīdzēt izprast lasīto. Ražotājs nepārtraukti meklē veidus, kā ievākt un apkopot visus kustības datus, kā izmantot gaitas atpazīšanu un austiņas personas identificēšanai, un kā izsekot un izprast sirdsdarbības datus. Apple arī izveidojuši un laiduši klajā “lielāko vairāku ierīču, vairāku lokāciju cilvēka aktivitātes datu kopu, kas balstīta uz sensoriem”. Tā kļuva pieejama pēc datu ievākšanas no 50 dalībniekiem.
Protams, uzņēmums vēlas MI padarīt arī par palīgu radošajā jomā. Intervējot vairākus animatorus, dizainerus un inženierus, tika izveidota sistēma Keyframer, kas “ļauj lietotājiem iteratīvi konstruēt un uzlabot ģenerētus dizainus.” Tā vietā, lai ievadītu uzvedni un pretī saņemtu attēlu, ir iespēja izmantot rīku klāstu, ar ko pielāgot bildi savām vajadzībām.
Ražotājs runā arī par MGIE rīku, kas ļauj rediģēt bildi, aprakstot savas vēlmes. “Īsu, bet neskaidru norādījumu vietā MGIE saprot skaidru vizuālu nolūku un noved pie sapratīgas rediģēšanas.”
Iespējams, iepazīsim arī to, kā MI darbojas ar Apple Music. Rakstā “Resource-constrained Stereo Singing Voice Cancellation,” pētnieki meklējuši veidus, kā dziesmā atdalīt balsis no instrumentiem. Tas nāktu talkā, ja cilvēkiem būtu nepieciešams rīks, piemēram, dziesmu remiksēšanai.
Lielākais Apple AI projekts
Apple lielākā un visambiciozākā MI lieta ir Ferret. Tas ir multi modāls lielo valodu modelis, kas spēj saprast instrukcijas, fokusēties uz specifiski apvilktām vai izvēlētām lietām un saprast pasauli ap tā. Tas ir veidots, lai ierīcei varētu jautāt ne tikai par apkārtējo vidi, bet arī to, kas redzams ekrānā. Pētnieki prezentē, ka tas varētu palīdzēt orientēties lietotnēs, atbildēt uz jautājumiem par App Store vērtējumiem, aprakstīt redzamo un vairāk.
Protams, šāda funkcija varētu būt lielisks pieejamības risinājums, taču spētu arī mainīt veidu, kā tiek izmantots viedtālrunis un, iespējams, kādreiz arī Apple Vision Pro.
Avots: TheVerge