Optymalizacja wydajności obliczeniowej metody elementów skończonych w architekturze CUDA

Adam Dziekoński

Celem niniejszej rozprawy oraz stypendium odbytego w ramach projektu było opracowanie numerycznie efektywnego rozwiązania algorytmicznego i sprzętowego, które umożliwia przyspieszenie analizy problemów elektromagnetycznych metodą elementów skończonych (MES) z funkcjami bazowymi wysokiego rzędu. Metoda elementów skończonych w dziedzinie częstotliwości stanowi wydajne i uniwersalne narzędzie analizy układów mikrofalowych (rys. 1). MES należy do grupy metod siatkowych, w których rozważa się różniczkową postać problemu brzegowego, zdefiniowanego w pewnym skończonym obszarze nazywanym dziedzina obliczeniową, który dzieli się na małe fragmenty (elementy skończone). W celu przyspieszenia analizy problemów elektromagnetycznych metodą elementów skończonych do obliczeń zastosowano akceleratory graficzne (ang. Graphics Processing Unit,GPU) kompatybilne z architekturą CUDA (ang. Compute Unified Device Architecture). W trakcie prac nad rozprawa i w trakcie stażu skoncentrowałem się na opracowaniu i optymalizacji masywnie zrównoleglonych algorytmów najbardziej kosztownych numerycznie etapów analizy MES:  generacji dużych macierzy sztywności i bezwładności  rozwiązania układów równań liniowych (w trakcie stażu opracowano implementację która pozwala na rozwiązanie układu równań na kilku akceleratorach co umożliwia szybsza i dokładniejszą analizę MES) W trakcie pobytu na stypendium opracowane algorytmy i ich implementacje zostały uruchomione i przetestowane na dwóch akceleratorach graficznym Tesla K20c (2496 rdzeni, 5 GB) oraz porównane z referencyjnymi zoptymalizowanymi implementacjami na CPU (Intel Xeon E5-2620, 6 wątków). W rozprawie przeprowadzono testy numeryczne dla filtru grzebieniowego zaprojektowanego na pasmo GSM (920-980 MHz), których rezultaty potwierdziły postawione w rozprawie tezy. Zastosowanie GPU do wykonania obliczeń najbardziej kosztownych obliczeniowo etapów MES pozwoliło na ok. 4,7 krotne skrócenie czasu analizy MES dla największego problemu (5 milionów niewiadomych). Czas analizy MES skrócono z pięciu godzin (obliczenia wykonywane wyłącznie na CPU) do ok. godziny gdy obliczenia w etapach generacji macierzy i rozwiązania układu równań wykonywane są z wykorzystaniem GPU. Opracowane algorytmu i implementacje dedykowane obliczeniom na akceleratorach graficznych pozwolą na redukcje czasu analizy układów mikrofalowych (tj. anteny i filtry), które używane są systemach komunikacji bezprzewodowej.

Autorzy

dr inż. Adam Dziekoński link otwiera się w nowej karcie

Informacje dodatkowe

Kategoria: Doktoraty, rozprawy habilitacyjne, nostryfikacje
Typ: praca doktorska pracowników zatrudnionych w PG oraz studentów studium doktoranckiego
Język: polski
Rok wydania: 2015

Źródło danych: MOSTWiedzy.pl - publikacja "Optymalizacja wydajności obliczeniowej metody elementów skończonych w architekturze CUDA" link otwiera się w nowej karcie

link otwiera się w nowej karcie

Repozytorium publikacji - Politechnika Gdańska

Treść strony