Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?
Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?
Anonim

Amazon EMR používa ako svoju distribúciu Apache Hadoop motor na spracovanie údajov . Hadoop je open source softvérový rámec Java, ktorý podporuje údajov -intenzívne distribuované aplikácie bežiace na veľkých klastroch z komoditný hardvér.

Navyše, čo je Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) je Webové služby Amazon ( AWS ) nástroj na spracovanie a analýzu veľkých dát. Amazon EMR spracováva veľké dáta cez klaster virtuálnych serverov Hadoop Amazon Elastické Compute Cloud ( EC2 ) a Amazon Služba jednoduchého ukladania ( S3 ).

Okrem toho, je Amazon EMR plne riadený? Je to a plne riadený služba dátového jazera, ktorá dokáže oddeliť úložisko údajov od výpočtových zdrojov a namiesto toho sprístupňuje škálovateľné výpočtové klastre, ktoré je možné použiť na požiadanie, a zahŕňa možnosť prístupu viacerých klastrov k rovnakým súborom údajov naraz.

Možno sa tiež opýtať, ako funguje AWS EMR?

Vo všeobecnosti, keď spracovávate údaje v Amazon EMR , vstupom sú dáta uložené ako súbory vo vami zvolenom základnom súborovom systéme, ako napr Amazon S3 alebo HDFS. Tieto údaje prechádzajú z jedného kroku do druhého v postupnosti spracovania. Posledný krok zapíše výstupné dáta na určené miesto, ako napr Amazon vedro S3.

Aký je rozdiel medzi ec2 a EMR?

Na rozdiel od EMR , EC2 nekategorizuje podriadené uzly na jadro a uzly úloh. To zvyšuje riziko straty údajov HDFS v prípade odstránenia/straty uzla. EC2 používa knižnice Apache (s3a) na prístup k údajom na s3. Na druhej strane, EMR používa proprietárny kód AWS na rýchlejší prístup k s3.

Odporúča: