Yhdysvaltain instituutiot laittoivat Fujitsu A64FX:n vauhtiin

Rsdaa 30/07/2021 6159

Fugaku-supertietokone, joka perustuu käsikäyttöiseen A64FX-prosessoriin ja mukautettuun Fujitsu Tofu-D -kankaaseen, on todistettu arkkitehtonisesti useissa HPC- ja laajamittaisissa tekoälytesteissä, ja se on herättänyt huomattavaa huomiota supertietokoneiden joukossa.

A64X:n ominaisuuksista kiinnostuneiden instituutioiden joukossa on yhdysvaltalainen National Science Foundation (NSF), joka yhdessä Brookhaven National Labin, Stony Brookin ja Buffalon yliopiston tutkijoiden kanssa on tehnyt oman panoksensa arkkitehtuuriin. A64X:n testausta on tehty Ookamin testipenkillä, joka tarjoaa ilmaisen pääsyn tutkijoille, jotka haluavat suorittaa omia benchmarkejaan erityisillä sovelluksilla ja skaalautuvuusvaatimuksilla.

Vaikka koko arkkitehtuurin ohjelmistopino ei ole vielä saatavilla Fujitsulta, tutkijat päättelivät testiajoissaan, että heillä on ollut "erittäin myönteinen ensimmäinen kokemus A64FX:stä" heti alusta alkaen – siis jopa ilman kaikkia optimointeja ja helppokäyttöisyyttä. käytä täydellistä ohjelmistopinoa, jonka saat sen toimituksen jälkeen. "Toistaiseksi se on täyttänyt odotukset, että useimmat tällaiset ohjelmistot voivat tarjota erinomaisen suorituskyvyn heti alusta alkaen. Kuitenkin SVE-ohjelmistoekosysteemin suhteellinen epäkypsyys (ottaen huomioon, että meillä ei vielä ole Fujitsu-pinoa) tekee tämän väitteen yleistämisen vaikeaksi."

Ookami-testijärjestelmä perustuu HPE:n Apollo 80 -järjestelmäsuunnitteluun, jossa on 174 A64FX-solmua (1,8 GHz, 32 Gt HBM, 512 Gt SSD) ja Luster-tiedostojärjestelmä, joka on sijoitettu vajaan petabyyn ClusterStoriin, jossa on HDR 200 Gt/s ja jossa on ylimääräistä duaalia. -socket solmut AMD (Rooma), Intel (Skylake ja Haswell) ja Nvidia V100 GPU:iden vertailuun. Ohjelmistopuolella tiimillä ei ollut ongelmia tavanomaisen HPC-ohjelmistopinon käytössä (CentOS 8, Bright Cluster Manager, SLURM).

Laajemmasta ohjelmistonäkymästä katsottuna he sanovat: "Pysyvä vitsimme on, että järjestelmä on "ARM-vapaa" (eli "vaaraton"), koska standardien mukaiset FORTRAN-, C- tai C++-sovellukset yksinkertaisesti kääntävät ja loppuvat. laatikosta, kun arkipäiväiset ongelmat, kuten kääntäjien liput ja kirjastopolut, on käsitelty. Tämä johtuu tavallisesta ja täydellisestä Linux-jakelusta, laajasta standardien mukaisten työkaluketjujen valikoimasta ja kasvavasta lineaarialgebran ja tieteellisten ytimien kirjastosta sekä useiden optimoitujen MPI-toteutuksien (Cray, MVAPICH, OpenMPI) saatavuudesta. A64FX:lle ja SVE:lle."

Yhdysvaltain toimielimet laittavat Fujitsu A64FX:n vauhtiin

He lisäävät, että temppu on kaikki mitä täytyy tehdä, jotta prosessori saa korkean suorituskyvyn ja valita sopivat työkaluketjut. "Varhaiset huolenaiheet sisälsivät InfiniBandin suorituskyvyn heikkenemisen käskyputkien syvyyden ja välimuistin arkkitehtuurin vuoksi - nämä ovat osoittautuneet perusteettomiksi."

Arkkitehtuurin testaustulokset eivät olleet vain hyväksyttäviä: Tiimi huomauttaa, että joillekin ohjelmistoille "tämä muunnossuorituskyky on saatavilla melkein heti käyttövalmiina – MPI+OpenMP-vektorisoidun koodin pitäisi vain kääntää ja toimia heti hyvin, ja lisäsuorituskyky on mahdollista viritystä.”

Täydellinen joukko vertailuanalyysituloksia löytyy täältä.

Muista, että nämä ovat out of the box -tuloksia, jotka varmasti kertovat paljon A64FX:ään perustuvan järjestelmän arvosta. Minisovelluksiin ja sovelluksiin kuuluvat Fortran/OpenMP-pohjainen SWIM sään ennustamiseen (hyvä testata kaistanleveyttä ja välimuistin suorituskykyä), molekyylidynamiikka valmiustilassa GROMACS (joka osui joihinkin Arm and Cray -ohjelmiston rajoituksiin), XDMoD pilvi-instanssin kautta ja PENNANT, jäsentämätön mesh-pohjainen sovellus, joka haastoi A64FX:n "paikallisuuden puutteen ja arkkitehtuurin 256 tavun välimuistirivin vuoksi" samalla kun painotti hypersäikeistyksen lakkaa.

Huolimatta joistakin, usein ohjelmisto- ja muistiongelmista johtuvista hikista, "prosessorin vektorin huippunopeus ja huippumuistin kaistanleveys ovat todellakin helposti saatavilla käännetyille koodeille, jotka ovat hyvin vektoroituja ja jotka kiinnittävät huomiota muistiviitteiden lokalisointiin CMG:ssä. Jälkimmäinen on helppo toteuttaa ajamalla neljää monisäikeistä MPI-prosessia solmua kohti, yksi per CMG.

"Se tulisi nähdä "johtajuusprosessorina", joka myy korkeaa suorituskykyä ja suurta tehotehokkuutta suuressa joukossa hyvin vektoroituja tieteellisiä sovelluksia heikentyneen suorituskyvyn (etenkin jos ei ole vektoroitu) ja alentaen soveltuvuutta (ensisijaisesti muistikapasiteetin vuoksi). ) yleisemmillä koodeilla."

PREV: Google laskee palvelimen Tau-pilvi-instanssien avulla

NEXT: INTEL TUKI DPU HITILLE, ODOTTAA JEVONIN PARADOX BUNCEA

Yhdysvaltain instituutiot laittoivat Fujitsu A64FX:n vauhtiin

Popular Articles