Čo je RDD v Scale?
Čo je RDD v Scale?

Video: Čo je RDD v Scale?

Video: Čo je RDD v Scale?
Video: RDD in PySpark | Spark 1 2024, November
Anonim

Odolné distribuované množiny údajov ( RDD ) je základná dátová štruktúra Spark. Ide o nemennú distribuovanú kolekciu objektov. RDD môže obsahovať akýkoľvek typ Pythonu, Java, príp Scala objekty vrátane tried definovaných používateľom. Formálne, an RDD je rozdelená kolekcia záznamov len na čítanie.

Otázkou tiež je, aký je rozdiel medzi RDD a DataFrame?

RDD – RDD je distribuovaná kolekcia dátových prvkov rozložená na mnohých strojoch v zhluk. RDD sú množinou objektov Java alebo Scala reprezentujúcich dáta. DataFrame – A DataFrame je distribuovaná kolekcia údajov usporiadaná do pomenovaných stĺpcov. Koncepčne sa rovná tabuľke v relačná databáza.

Okrem toho, ako sa distribuuje RDD? Odolný Distribuovaný Množiny údajov ( RDD ) Sú a distribuovaný kolekcia objektov, ktoré sú uložené v pamäti alebo na diskoch rôznych strojov klastra. Slobodný RDD môžu byť rozdelené do viacerých logických oddielov, takže tieto oddiely môžu byť uložené a spracované na rôznych počítačoch klastra.

ako funguje spark RDD?

RDD v Spark mať kolekciu záznamov, ktoré obsahujú oddiely. RDD v Spark sú rozdelené na malé logické časti údajov - známe ako oddiely, keď sa vykoná akcia, spustí sa úloha pre každý oddiel. Priečky v RDD sú základné jednotky paralelizmu.

Čo je rýchlejšie RDD alebo DataFrame?

RDD - Pri vykonávaní jednoduchých operácií zoskupovania a agregácie RDD API je pomalšie. DataFrame - Pri vykonávaní prieskumnej analýzy, vytváraní súhrnných štatistík o údajoch, dátové rámce sú rýchlejšie . RDD - Keď chcete transformáciu a akcie na nízkej úrovni, používame RDD . Tiež, keď potrebujeme abstrakcie na vysokej úrovni, ktoré používame RDD.

Odporúča: