Ärge laske salvestusruumil muutuda mudelikoolituse peamiseks kitsaskohaks

On öeldud, et tehnoloogiaettevõtted otsivad GPU-sid või on neid omandamas.Aprillis ostis Tesla tegevjuht Elon Musk 10 000 GPU-d ja teatas, et ettevõte jätkab suures koguses GPU-de ostmist NVIDIA-lt.Ettevõtte poole pealt pingutavad IT-töötajad ka selle nimel, et investeeringutasuvuse maksimeerimiseks kasutataks pidevalt GPU-sid.Mõned ettevõtted võivad siiski avastada, et kuigi GPU-de arv suureneb, muutub GPU jõudeolek tõsisemaks.

Kui ajalugu on meile kõrgjõudlusega andmetöötluse (HPC) kohta midagi õpetanud, siis seda, et salvestusruumi ja võrkude loomist ei tohiks ohverdada arvutustööle liigse keskendumise arvelt.Kui salvestusruum ei suuda andmeid tõhusalt arvutusüksustesse edastada, isegi kui teil on maailmas kõige rohkem GPU-sid, ei saavuta te optimaalset tõhusust.

Small World Big Data analüütiku Mike Matchetti sõnul saab väiksemaid mudeleid käivitada mälus (RAM), mis võimaldab rohkem keskenduda arvutamisele.Suuremaid mudeleid, nagu miljardite sõlmedega ChatGPT, ei saa aga kõrge hinna tõttu mällu salvestada.

"Te ei mahu mällu miljardeid sõlmi, seega muutub salvestus veelgi olulisemaks, " ütleb Matchett.Kahjuks jäetakse planeerimisprotsessis sageli andmete salvestamine tähelepanuta.

Üldiselt, olenemata kasutusjuhtumist, on mudeli koolitusprotsessis neli ühist punkti:

1. Modellikoolitus
2. Järeldusrakendus
3. Andmete salvestamine
4. Kiirendatud andmetöötlus

Mudelite loomisel ja juurutamisel seab enamik nõudeid mudelikoolituse alustamiseks esikohale kiire kontseptsiooni tõestamise (POC) või testimiskeskkonnad, kusjuures andmesalvestusvajadust ei pöörata eriti tähelepanu.

Väljakutse seisneb aga selles, et väljaõpe või järelduste kasutuselevõtt võib kesta kuid või isegi aastaid.Paljud ettevõtted suurendavad selle aja jooksul kiiresti oma mudelite suurust ja infrastruktuur peab laienema, et mahutada kasvavaid mudeleid ja andmekogusid.

Google'i uuringud miljonite ML-treeningu töökoormuste kohta näitavad, et keskmiselt 30% treeningajast kulub sisendandmete konveierile.Kuigi varasemad uuringud on keskendunud GPU-de optimeerimisele koolituse kiirendamiseks, on andmekanali erinevate osade optimeerimisel endiselt palju väljakutseid.Kui teil on märkimisväärne arvutusvõimsus, saab tõeliseks kitsaskohaks see, kui kiiresti saate tulemuste saamiseks arvutustesse andmeid sisestada.

Täpsemalt nõuavad andmete salvestamise ja haldamisega seotud väljakutsed andmete kasvu planeerimist, mis võimaldab teil edenedes pidevalt andmete väärtust eraldada, eriti kui asute kasutama keerukamaid kasutusjuhtumeid, nagu süvaõpe ja närvivõrgud, mis seavad suuremaid nõudmisi. salvestusruumi mahu, jõudluse ja mastaapsuse osas.

Eriti:

Skaleeritavus
Masinõpe nõuab tohutute andmemahtude käitlemist ning andmemahu kasvades paraneb ka mudelite täpsus.See tähendab, et ettevõtted peavad iga päev rohkem andmeid koguma ja salvestama.Kui salvestusruumi ei saa skaleerida, tekitavad andmemahukad töökoormused kitsaskohti, piirates jõudlust ja põhjustades kuluka GPU jõudeoleku.

Paindlikkus
Paindlik tugi mitmele protokollile (sh NFS, SMB, HTTP, FTP, HDFS ja S3) on vajalik erinevate süsteemide vajaduste rahuldamiseks, selle asemel et piirduda ühte tüüpi keskkonnaga.

Latentsus
I/O latentsus on mudelite koostamisel ja kasutamisel kriitilise tähtsusega, kuna andmeid loetakse ja loetakse uuesti mitu korda.I/O latentsuse vähendamine võib lühendada mudelite treenimisaega päevade või kuude võrra.Mudeli kiirem väljatöötamine tähendab otseselt suuremaid ärieeliseid.

Läbilaskevõime
Salvestussüsteemide läbilaskevõime on tõhusa mudelikoolituse jaoks ülioluline.Koolitusprotsessid hõlmavad suuri andmemahtusid, tavaliselt terabaitides tunnis.

Paralleeljuurdepääs
Suure läbilaskevõime saavutamiseks jagavad koolitusmudelid tegevused mitmeks paralleelseks ülesandeks.See tähendab sageli, et masinõppe algoritmid pääsevad samaaegselt juurde samadele failidele mitmest protsessist (potentsiaalselt mitmes füüsilises serveris).Salvestussüsteem peab vastama samaaegsetele nõudmistele jõudlust kahjustamata.

Oma silmapaistvate madala latentsusaja, suure läbilaskevõime ja suuremahulise paralleelse sisendi/väljundi võimalustega on Dell PowerScale ideaalne salvestusruumi täiendus GPU-kiirendatud andmetöötlusele.PowerScale vähendab tõhusalt aega, mis kulub analüüsimudelitele, mis treenivad ja testivad mitme terabaidiseid andmekogumeid.PowerScale'i täisvälkmälu puhul suureneb ribalaius 18 korda, kõrvaldades I/O kitsaskohad, ning selle saab lisada olemasolevatele Isiloni klastritele, et kiirendada ja vabastada suure hulga struktureerimata andmete väärtust.

Lisaks pakuvad PowerScale'i mitme protokolli juurdepääsuvõimalused töökoormuste käitamiseks piiramatut paindlikkust, võimaldades andmeid salvestada ühe protokolli abil ja neile juurde pääseda teise protokolliga.Täpsemalt aitavad PowerScale'i platvormi võimsad funktsioonid, paindlikkus, skaleeritavus ja ettevõttetasemel funktsionaalsus lahendada järgmisi probleeme.

- Kiirendage innovatsiooni kuni 2,7 korda, vähendades mudeli koolitustsüklit.

- Likvideerige I/O kitsaskohad ja pakkuge mudelite kiiremat väljaõpet ja valideerimist, paremat mudeli täpsust, paremat andmeteaduse tootlikkust ja maksimaalset andmetöötlusinvesteeringute tasuvust, võimendades ettevõttetaseme funktsioone, suurt jõudlust, samaaegsust ja mastaapsust.Suurendage mudeli täpsust sügavamate ja kõrgema eraldusvõimega andmekogumitega, võimendades ühes klastris kuni 119 PB efektiivset salvestusmahtu.

- Saavutage mastaapne juurutamine, alustades väikese ja iseseisvalt skaleeritava arvutus- ja salvestusruumiga, pakkudes tugevaid andmekaitse- ja turbevõimalusi.

- Parandage andmeteaduse tootlikkust kohapealse analüütika ja eelvalideeritud lahendustega kiiremaks ja madala riskitasemega juurutamiseks.

- Kasutades tõestatud disainilahendusi, mis põhinevad parimatel tehnoloogiatel, sealhulgas NVIDIA GPU kiirendus ja võrdlusarhitektuurid koos NVIDIA DGX süsteemidega.PowerScale'i kõrge jõudlus ja samaaegsus vastavad salvestuse jõudlusnõuetele masinõppe igas etapis, alates andmete hankimisest ja ettevalmistamisest kuni mudeli koolituse ja järeldusteni.Koos OneFS-i operatsioonisüsteemiga saavad kõik sõlmed sujuvalt töötada samas OneFS-i juhitavas klastris, millel on ettevõtte tasemel funktsioonid, nagu jõudlushaldus, andmehaldus, turvalisus ja andmekaitse, mis võimaldavad ettevõtetele mudelikoolituse ja valideerimise kiiremini lõpule viia.


Postitusaeg: juuli-03-2023