DeepSeek lēš, ka modeļa izstrāde izmaksājusi vien 270 000 EUR

Ķīnas DeepSeek atklāj, ka tā MI modelis R1 apmācīts tikai par nieka 270 000 EUR, izmantojot 512 Nvidia H800 čipus.

Ķīnas mākslīgā intelekta (MI) uzņēmums DeepSeek ir paziņojis, ka tā argumentēšanas modelis R1 izmaksājis vien 270 000 eiro. Šāda summa to padara par ievērojami lētāku nekā ASV konkurentu izstrādātos modeļus.

Par šo faktu vēstīts trešdien, akadēmiskajā žurnālā Nature publicētā recenzētā rakstā. Ar teju 100% pārliecību var apgalvot, ka šie jaunumi atkal izraisīs diskusijas par to, kur Pekina ierindojas MI izstrādes sacensībā.

Uzņēmums no Hangdžou pirmo reizi publiski novērtējis R1 apmācības izmaksas. DeepSeek janvārī prezentēja zemāku izmaksu MI sistēmas, kas lika investoriem visā pasaulē pārdot tehnoloģiju akcijas bažās, ka jaunie modeļi varētu apdraudēt tādu līderu kā Nvidia pārākumu.

Kopš tā laika uzņēmuma dibinātājs Lians Venfens izteikti reti ir parādījies publiskajā telpā, izņemot mirkļus, kad tika prezentēti atjauninājumi.

Rakstā teikts, ka uz loģisko domāšanu orientētais R1 modelis tika apmācīts, izmantojot 512 Nvidia H800 mikroshēmas, un tas kopumā izmaksājis 270 000 eiro. Iepriekšējā versijā, kas publicēta janvārī, šādas informācijas nebija.

Apmācības izmaksu salīdzinājums un mikroshēmu jautājums

ASV uzņēmuma OpenAI vadītājs Sems Altmans 2023. gadā norādīja, ka tā saukto “bāzes modeļu” trenēšana izmaksājusi “daudz vairāk par 92 miljonus eiro”, taču detalizēti rādītāji par izlaidumiem netika sniegti.

Lielo valodu modeļu sagatavošana paredz spēcīgu mikroshēmu kopu darbināšanu nedēļām vai mēnešiem, lai apstrādātu milzīgu teksta un koda apjomu.

Daži ASV uzņēmumi un amatpersonas ir apšaubījušas DeepSeek sniegtos datus par izmaksām un izmantoto tehnoloģiju. Minētās H800 mikroshēmas tika izstrādātas Ķīnas tirgum pēc tam, kad ASV 2022. gada oktobrī aizliedza eksportēt krietni jaudīgākus H100 un A100 čipus uz Ķīnu.

ASV amatpersonas ziņu aģentūrai Reuters lēsa, ka DeepSeek esot piekļuve “lieliem apjomiem” H100 mikroshēmu, kas iegādātas pēc eksporta ierobežojumu ieviešanas. Savukārt Nvidia apstiprināja, ka uzņēmums izmantojis likumīgi iegādātas H800 mikroshēmas, nevis H100.

A100 izmantošana un DeepSeek modeļu apmācības process

Papildu dokumentā, kas pievienots Nature publikācijai, DeepSeek pirmo reizi atzina, ka uzņēmumam pieder arī A100 čipi, kurus tas izmantojis sākotnējos izstrādes posmos.

“Izstrādājot DeepSeek-R1, mēs izmantojām A100 GPU, lai sagatavotos eksperimentiem ar mazāku modeli,” rakstīja pētnieki. Pēc šīs sākotnējās fāzes R1 tika apmācīts 80 stundas, izmantojot 512 H800 mikroshēmu klasteri.

Iepriekš Reuters ziņoja, ka viens no iemesliem, kādēļ DeepSeek spēja piesaistīt labākos talantus Ķīnā, bija tas, ka tā bija viena no retajām vietējām kompānijām ar A100 superdatoru klasteri.

Avots: Reuters

Dalies :

Facebook
Twitter
LinkedIn
Pinterest

Atbildēt

Jaunākie apskati
Tev varētu interesēt