Forum seedbox Strona Główna seedbox
konta shell torrent
 
 POMOCPOMOC   FAQFAQ   SzukajSzukaj   UżytkownicyUżytkownicy   GrupyGrupy   RejestracjaRejestracja 
 ProfilProfil   Zaloguj się, by sprawdzić wiadomościZaloguj się, by sprawdzić wiadomości   ZalogujZaloguj 

Zwiększanie wydajności dzięki rozwiązaniom NVIDIA SHARP In-N

 
Napisz nowy temat   Odpowiedz do tematu    Forum seedbox Strona Główna -> Ważne Informacje
Zobacz poprzedni temat :: Zobacz następny temat  
Autor Wiadomość
ayshakhatun9365
Shell User


Dołączył: 11 Lis 2024
Posty: 1

PostWysłany: Pon Lis 11, 2024 06:28    Temat postu: Zwiększanie wydajności dzięki rozwiązaniom NVIDIA SHARP In-N Odpowiedz z cytatem

Aplikacje sztucznej inteligencji i obliczeń naukowych są świetnymi przykładami problemów rozproszonego przetwarzania. Problemy są zbyt duże, a obliczenia zbyt intensywne, aby można je było uruchomić na jednej maszynie. Obliczenia te są dzielone na zadania równoległe, które są rozproszone na tysiące silników obliczeniowych, takich jak procesory CPU i GPU.



Aby osiągnąć skalowalną wydajność, system opiera się na dzieleniu obciążeń, takich jak dane treningowe, parametry modelu lub oba, na wiele węzłów. Te węzły muszą następnie często wymieniać informacje, takie jak gradienty nowo przetworzonych obliczeń modelu podczas propagacji wstecznej w treningu modelu, co wymaga wydajnej komunikacji zbiorczej, takiej jak operacje all-reduce, broadcast oraz gather i scatter.

Te zbiorowe wzorce komunikacyjne zapewniają synchronizację i konwergencję parametrów modelu w całym rozproszonym systemie. Wydajność tych operacji jest kluczowa dla minimalizacji narzutu komunikacyjnego i maksymalizacji obliczeń równoległych, ponieważ słabo zoptymalizowana zbiorowa komunikacja może prowadzić do wąskich gardeł, ograniczając skalowalność.

Wąskie gardła wynikają z kilku czynników:

Ograniczenia opóźnienia i przepustowości: Operacje zbiorowe polegają na szybkich transferach danych między węzłami, które są ograniczone przez opóźnienie i przepustowość sieci fizycznej. Wraz ze wzrostem skali systemu, ilość wymienianych danych rośnie, a czas potrzebny na komunikację staje się dominującym czynnikiem w stosunku do obliczeń.
Narzut synchronizacji: Wiele operacji zbiorczych wymaga punktów synchronizacji, w których wszystkie uczestniczące węzły muszą osiągnąć ten sam stan przed kontynuowaniem. Jeśli niektóre węzły są wolniejsze, cały system doświadcza opóźnień, co powoduje nieefektywności znane jako maruderzy .
Konkurencja w sieci: W miarę jak sieć staje się coraz bardziej przeciążona, a coraz większa liczba węzłów próbuje się komunikować jednocześnie, wzrasta rywalizacja o przepustowość i zasoby sieciowe, co jeszcze bardziej spowalnia zbiorcze operacje.
Nieoptymalne wzorce komunikacji: Niektóre algorytmy komunikacji zbiorowej (np. redukcje oparte na drzewach lub redukcja pierścieniowa) nie zawsze są dobrze zoptymalizowane pod kątem systemów na dużą skalę, co prowadzi do nieefektywnego wykorzystania dostępnych zasobów i zwiększonego opóźnienia.
Aby pokonać to wąskie gardło, konieczne jest udoskonalenie technologii sieciowych (na przykład InfiniBand lub RDMA) oraz optymalizacja algorytmiczna (na przykład hierarchiczne techniki all-reduce lub techniki potokowe) w celu zminimalizowania opóźnień synchronizacji, zmniejszenia rywalizacji i zoptymalizowania przepływu danych w systemach rozproszonych.

Stworzenie NVIDIA SHARP
Kluczowe zbiorowe komunikaty umożliwiają wszystkim silnikom obliczeniowym wymianę danych między sobą. Zarządzanie taką komunikacją na karcie sieciowej lub serwerze wymaga wymiany ogromnych ilości danych i jest narażone na zmienność opóźnienia lub zbiorczej wydajności, znaną również jako jitter serwera .

Migracja odpowiedzialności za zarządzanie i wykonywanie tych zbiorowych komunikatów na strukturze przełącznika zmniejsza ilość przesyłanych danych o połowę i minimalizuje jitter. NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) to technologia implementująca tę koncepcję i wprowadzająca koncepcję przetwarzania w sieci . Jest ona wbudowana w układ ASIC przełącznika i zaprojektowana w celu przyspieszenia zbiorowej komunikacji w rozproszonych systemach obliczeniowych.

Wprowadzony wraz z sieciami NVIDIA InfiniBand , SHARP odciąża zbiorcze operacje komunikacyjne — takie jak all-reduce, reduce i broadcast — z silników obliczeniowych serwera do przełączników sieciowych. Poprzez wykonywanie redukcji (sumowanie, uśrednianie itd.) bezpośrednio w strukturze sieciowej, SHARP poprawia te operacje i ogólną wydajność aplikacji.

Postępy generacyjne dzięki NVIDIA SHARP
Pierwsza generacja SHARP została zaprojektowana specjalnie do zastosowań naukowych, ze szczególnym uwzględnieniem operacji redukcji małych wiadomości. Została wprowadzona wraz z generacją przełączników NVIDIA EDR 100 Gb/s i szybko została wsparta przez wiodące biblioteki Message Passing Interface (MPI). Redukcja małych wiadomości SHARPv1 obsługiwała wiele aplikacji naukowych równolegle.

MVAPICH2 to implementacja standardu MPI typu open source, zaprojektowana specjalnie dla środowisk obliczeń o wysokiej wydajności (HPC). Zespół Ohio State University odpowiedzialny za bibliotekę MVAPICH MPI zademonstrował osiągnięcie wydajności SHARP na superkomputerze Texas Advanced Computing Center Frontera. Od 5x wyższej wydajności dla MPI AllReduce i do 9x dla komunikacji zbiorowej MPI Barrier. Aby uzyskać więcej informacji, zobacz Scalable MPI Collectives using SHARP: Large Scale Performance Evaluation on the TACC Frontera System .

Druga generacja SHARP została wprowadzona wraz z generacją przełączników NVIDIA HDR 200Gb/s Quantum InfiniBand i dodano obsługę obciążeń AI. SHARPv2 obejmuje obsługę dużych operacji redukcji wiadomości, obsługując pojedyncze obciążenie na raz. Ta wersja dodatkowo poprawiła skalowalność i elastyczność technologii, obsługując bardziej złożone typy danych i operacje agregacji.

Przewaga Lista numerów Whatsapp wydajnościowa SHARPv2 została wykazana w przesłaniu i wynikach NVIDIA MLPerf w czerwcu 2021 r., wykazując o 17% wyższą wydajność treningu BERT. Aby uzyskać więcej informacji, zobacz MLPerf v1.0 Training Benchmarks: Insights into a Record-Setting NVIDIA Performance .

Michael Houston, wiceprezes i główny architekt systemów AI w firmie NVIDIA, przedstawił korzyści wydajnościowe technologii AllReduce SHARPv2 podczas kursu poświęconego systemom uczenia maszynowego na Uniwersytecie Kalifornijskim w Berkeley.

Dwukrotnie większa wydajność dzięki przepustowości AllReduce przełożyła się na 17% wyższą wydajność treningu BERT.

Dwa wykresy. Wykres liniowy pokazuje wydajność w różnych skalach z SHARP i bez niego. Wykres słupkowy pokazuje wydajność SHARP w najczęściej używanych rozmiarach wiadomości.
Rysunek 1. Przykład z kursu Machine Learning Systems na Uniwersytecie Kalifornijskim w Berkeley
(źródło: Distributed deep learning, Part II: Scaling Constraints )
Ostatnio wprowadzono trzecią generację SHARP z platformą NVIDIA Quantum-2 NDR 400G InfiniBand . SHARPv3 obsługuje wielodostępne obliczenia w sieci dla obciążeń AI, co oznacza, że ​​wiele obciążeń AI jest obsługiwanych równolegle w porównaniu z pojedynczym obciążeniem w SHARPv2.

Wydajność SHARPv3 przedstawił Jithin Jose, główny inżynier oprogramowania w Microsoft Azure, w sesji Transforming Clouds to Cloud-Native Supercomputing: Best Practices with Microsoft Azure . Jithin omówił technologie obliczeniowe w sieci InfiniBand w Azure i zaprezentował korzyści wydajnościowe rzędu wielkości dla opóźnienia AllReduce.

Wykres liniowy przedstawia korzyści w zakresie opóźnień przy stosowaniu protokołu SHARPv3 w porównaniu z brakiem protokołu SHARP dla różnych rozmiarów wiadomości.
Rysunek 2. Korzyści z wydajności opóźnienia AllReduce dla SHARPv3
Kompleksowa optymalizacja systemu AI
Mocny przykład SHARP można zobaczyć w przypadku operacji all-reduce. Gradienty są sumowane w wielu procesorach graficznych lub węzłach podczas szkolenia modelu, a SHARP agreguje gradienty w sieci, unikając konieczności wysyłania pełnych zestawów danych między procesorami graficznymi lub węzłami. Skraca to czas komunikacji, co prowadzi do szybszych czasów iteracji i wyższej przepustowości dla obciążeń AI.
_________________
Lista numerów Whatsapp
Powrót do góry
Ogląda profil użytkownika Wyślij prywatną wiadomość
Reklama






Wysłany: Pon Lis 11, 2024 06:28    Temat postu:

Powrót do góry
Wyświetl posty z ostatnich:   
Napisz nowy temat   Odpowiedz do tematu    Forum seedbox Strona Główna -> Ważne Informacje Wszystkie czasy w strefie CET (Europa)
Strona 1 z 1
Skocz do:  
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach

seedbox  

To forum działa w systemie phorum.pl
Masz pomysł na forum? Załóż forum za darmo!
Forum narusza regulamin? Powiadom nas o tym!
Powered by Active24, phpBB © phpBB Group