Google laskee palvelimen Tau-pilvi-instanssien avulla

Rsdaa 30/07/2021 7101

Maailmassa, jossa Mooren laki hidastuu ja laitteistoa on suunniteltava yhä enemmän yhdessä järjestelmäohjelmistopinon ja sen yläpuolella olevien sovellusten kanssa, mahdollisten laitteistoyhdistelmien matriisi laajenee ja syvenee. Tämä, enemmän kuin mikään muu, osoittaa, että yleiskäyttöisten CPU-laskennan aikakausi on päättymässä. Mutta se tekee myös oikeiden laitteistojen valinnasta työkuormituksiisi paljon vaikeampaa kuin esimerkiksi kaksi vuosikymmentä tai jopa vuosikymmen sitten, jolloin yleiskäyttöinen X86-palvelin oli turvallisin veto ja melkein kaikki ottivat sen, ja näin ollen näimme nousun. Intelin palvelinkeskuksessa.

Täällä 2000-luvun toisella vuosikymmenellä hienorakeinen kapasiteetti, joka on mitoitettu erityisesti työkuormille ja veloitetaan tuntikohtaisesti, sekä erikoistunut laskentaan useiden suoritinten, grafiikkasuorittimien, FPGA:iden ja mukautettujen ASIC-laitteiden välillä tekoälyn työkuormien suorittamiseen erityisesti, on yhä enemmän sääntö. Julkinen pilvi antaa yrityksille mahdollisuuden testata, mikä kapasiteetin ja kyvykkyyden yhdistelmä sopii heille, ennen kuin ne tekevät suuria pääomasitoumuksia, minkä vuoksi näemme laskennan lisääntyvän hyperskaalaajien ja pilvenrakentajien keskuudessa. Tämä runsaudensarvi tarvitsee laskea omia työkuormiaan, ja he antavat meidän vuokrata sen omallemme. Ja tämä tarkoittaa, että voimme purkaa ostajan katumuksen ja laskentamatriisin hyperskaalaajille, jotka ovat myös pilvenrakentajia.

Mikään ei todista tätä paremmin kuin Googlen ilmoitus uusista Tau-instanssityypeistä Google Cloudissa.

Tau, jonka useimmat teistä tuntevat, on kreikkalainen symboli, joka tarkoittaa kultaista suhdetta, ja kuten Googlen teknisestä infrastruktuurista vastaava varatoimitusjohtaja Urs Hölzle selittää The Next Platformille, tämän nimen on tarkoitus ilmaista, että yritys on yrittää saada laskennan, muistin ja I/O:n tasapainon "juuri oikeaan" tiettyihin skaalautuviin työkuormiin, joita yleensä ajetaan hakukone- ja sovellusjättiläisessä ja joka on selvä haastaja julkisessa pilvikilpailussa. Tarkemmin sanottuna se työtaakka, josta puhumme Googlen myynnin "skaalautuessa", on hakukone, verkkopalvelu ja muut vastaavat työmäärät.

Tau t2d on ensimmäinen esiintymä, joka tulee olemaan esiintymäperhe, joka todennäköisesti sisältää muita prosessoreita, jotka on myös viritetty antamaan parempaa vastinetta rahalle hyvin tietyissä työkuormissa. T2d-instanssi perustuu AMD:n "Milan" Epyc 7003 -prosessorin yksikantaiseen toteutukseen, jossa on tässä tapauksessa aktivoituina enintään 60 ydintä ja joka voidaan leikata sieltä pienemmiksi biteiksi. Erikois Milan-sirussa on yhteensä 64 ydintä, joten neljää näistä ytimistä käytetään KVM-hypervisorin ja muiden tallennus- ja verkkotoimintojen hallintaan. Sikäli kuin tiedämme, Googlella ei ole täysin päällä olevaa kotitekoista DPU:ta, joka hoitaisi tämän työn – mikä vapauttaa kaikki ytimet hypervisorin ja sen I/O:n suorittamisesta, kuten Amazon Web Services tekee kotimaisen "Nitron" kanssa. DPU ja sen muokattu KVM-hypervisor. Mutta epäilemme vahvasti, että Googlella on jollain tavalla SmartNIC-kortteja, jotka voivat purkaa joitain tallennus- ja verkkotoimintoja ilman, että ne menevät DPU:hun asti. Tästä syystä Tau t2d -esiintymässä on 60 ydintä 64:stä todellisen työn suorittamiseen; Muuten jopa 30 prosenttia suorittimen ytimistä poltettaisiin hypervisorissa, tallennustilassa ja I/O-ylimäärässä.

Google ja AMD eivät ole tarkkoja tämän erityisen Milan Epyc 7003 -sirun syötteistä ja nopeuksista, mikä on ärsyttävää mutta odotettua. Lopulta t2d tulee näkyviin, kun se on saatavilla Google Cloudissa, joten miksi Google ei vain kerro meille, kuinka se saa 56 prosenttia paremman suorituskyvyn ja 42 prosenttia paremman hinta/suorituskykysuhteen Tau-esiintymän kanssa Arm Graviton2 -esiintymiin verrattuna Amazon Webissä. Palvelut ja jopa suurempi marginaali verrattuna "Cascade Lake" Xeon SP -esiintymiin Microsoft Azuressa, joka suorittaa SPECrate2017_int_base kokonaislukujen vertailutestiä.

Tässä ovat suorituskykyerot, jotka Google näkee omissa SPEC-testeissään:

Ja tässä ovat hinta/suorituskykyerot:

Kuten näet, Google on normalisoinut nämä tiedot Graviton2 m6g.8xlarge -esiintymää varten, jossa on 32 vCPU:ta ja 128 Gt muistia ja 12 Gb/s linkki verkkoon. se maksaa 1,232 dollaria per tunti pyynnöstä vuokrattavana. Tau-esiintymä, jossa on 32 vCPU:ta ja 128 Gt muistia, maksaa 1,352 dollaria tunnissa vuokrattavissa pyynnöstä, joten se on hieman kalliimpi, mutta tekee sen paljon paremmalla suorituskyvyllä. Kysymys kuuluu, mitä Google maksaa AMD:lle saadakseen tämän 64-ytimisen Milanon osan t2d-instanssiin, ja Hölzle ei aikonut sanoa, mutta hän vihjasi vahvasti sanoessaan, että tapa parantaa hintaa/suorituskykyä oli "lisää nopeutta ja pienemmät kustannukset."

Google tekee palvelinmatematiikan Tau-pilvi-instanssien avulla

Yllä esitetty Microsoft Azure -esiintymä, joka on nimenomaisesti tunnistettu tässä asiakirjassa, oli D32s_v4-esiintymä, jossa on 32 vCPU:ta ja 128 Gt muistia ja 16 Gt/s verkkoyhteys. se maksaa 1,536 dollaria tunnissa.

Microsoft Azure D32s_v4 -esiintymä ei käytä uudempaa "Ice Lake" Xeon SP:tä, joka kaventaisi jonkin verran suorituskykyerot Milanoon ja Graviton2:een nähden ja mahdollisesti hinta/suorituskykyeron, mutta ei ehkä riippuen siitä, mitä Microsoft veloittaa niistä. Ice Lake Xeon SP:iin perustuvat Azure DS_v5 -esiintymät ovat olleet julkisessa esikatselussa huhtikuun lopusta lähtien, ja D32s_v5-esiintymä, jossa on 32 vCPU:ta ja 128 Gt muistia, maksaa vain 0,768 dollaria tunnissa ja tarjoaisi noin 20 prosenttia enemmän raakakokonaislukujen suorituskykyä ydintä kohti ja noin puolet hinnasta. Kun teemme sen matematiikan, se näyttää tältä:

Näytti siltä, että Microsoft sai helvetin alennuksen Ice Lake Xeon SP:istä, koska epäilemme vahvasti, että Microsoft ei menetä rahaa joissakin tapauksissa, ja innostuimme. Mutta Microsoft varoitti tämän Ice Lake -ilmentymän julkaisun pienessä tekstissä, että tämä oli erityinen esikatseluhinnoittelu. Tällä erikoishinnoittelulla Ice Lake on tässä hinta/suorituskyky voittaja, jos kokonaislukujen suorituskyky skaalautuu odotetulla tavalla Cascade Lakesta Ice Lakeen. Kyllä, tämä on yllättävää, ja ei, ei ole yllättävää, miksi Google ei suorittanut testejä Azure Ice Lake -esiintymillä, jotka eivät ole vielä yleisesti saatavilla. Mutta Google teki epäilemättä saman laskelman kuin mekin, ja se yrittää selvittää, mitä Microsoftin on veloitettava, jotta se vastaa hinta-suorituskykyään. Vastaus on: Jossain hieman alle 1,00 dollaria tunnissa. Saapa nähdä, tekeekö Microsoft pilvi-ilmentymän lambadan päästäkseen nenänsä luudanvarren alle.

Tiedämme vain, että kilpailu on hyvää ja se saa kaikki pilvipalveluiden myyjät kilpailemaan lujasti dollarista.

AWS- ja Azure-esiintymät skaalautuvat jopa 48 ja 64 vCPU:hin, ja ihme on, miksi Google ei nostanut suorituskykyä maksimissaan esitelläkseen entistä enemmän. Ehkä DPU voisi olla hyödyllinen tässä?

Tuo 56 prosentin suorituskyvyn kasvu johtui muuten AMD Optimizing C/C++ (AOCC) -kääntäjän käytöstä, joka on erittäin viritetty Epyc-arkkitehtuuriin, aivan kuten Intelin kääntäjät ovat erittäin viritetty Xeon SP -siruille, ja Google oli täysin rehellinen. kun se huomautti, että se sai vain 25 prosentin suorituskyvyn kasvun Graviton2:een verrattuna, kun käytettiin avoimen lähdekoodin GCC 11 -kääntäjiä. Joten puolet suorituskyvyn lisäyksestä tuli kääntäjästä ja puolet sirusta, ja hinta laski, koska Tau-esiintymässä ei ole maksimimuistia ja luultavasti muut ominaisuudet ovat hieman heikentyneet. (Ja siksi Google voi maksaa vähemmän sirusta ja nostaa rahaa.)

Tässä on tapa, jolla kolme erilaista virtuaalikonetta sijoittuvat CoreMark-benchmark-testiin, joka on suosittu tapa mitata suorittimen suorituskykyä, ja jostain syystä Google puhuu tässä vain hinta/suorituskyvystä:

Tau t2d -esiintymä on saatavilla kolmannella vuosineljänneksellä esiintymänä Google Compute Enginessä (vastaa AWS EC2:ta ja Microsoft Azure VM:ää) sekä taustalla olevana laskentatyyppinä Google Kubernetes Enginessä, konttialustapalvelu, joka on myös saatavilla. Google Cloudin julkisessa pilvessä.

Voimme odottaa, että Googlella on Tau-esiintymiä, jotka perustuvat muihin prosessoreihin.

"Meille tämä on ensimmäinen tapaus Tau-perheessä", Hölzle kertoo The Next Platformille. "Jatkamme tätä perhettä ajan myötä muilla piirisarjoilla, toivottavasti AMD:ltä, ehkä muilta, ja todellakin on tarkoitus luoda kokoonpano, joka toimii erittäin hyvin tämän tyyppisille käyttäjille. Minusta on todella hienoa, että pystymme tuottamaan tämän aukon X86-maailmassa ilman kompromisseja ja pakottamatta asiakkaita kääntämään ja ehkä lisensoimaan ohjelmistojaan toisella arkkitehtuurilla. Mutta tiedäthän, me näemme Armin myös kilpailijana, ja olemme avoimia kaikille ratkaisuille, jotka toimivat asiakkaan kannalta. Haluan kuitenkin sanoa, että AMD on tällä hetkellä selvästi, kuten lukumme osoittavat, askeleen edellä tässä työmääräkategoriassa, vaikka Arm Graviton2 olisi mukana."

Kaikki palvelinkeskuksen kohteet liikkuvat koko ajan. On hämmästyttävää, että kukaan osuu mihin tahansa. Sinun täytyy vain kuumentaa päätäsi kohti tuleva kohde ja jatkaa ampumista.

PREV: INTEL VIIVE "SAPPHIRE RAPIDS" -PALVELINSIRUJA, VAHVISTAA HBM:N MUISTIVALINNON

NEXT: Yhdysvaltain instituutiot laittoivat Fujitsu A64FX:n vauhtiin

Google laskee palvelimen Tau-pilvi-instanssien avulla

Popular Articles