Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?
Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?

Video: Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?

Video: Aký je motor na spracovanie údajov za Amazon Elastic MapReduce?
Video: What is Amazon EMR and how can I use it for processing data? 2024, Apríl
Anonim

Amazon EMR používa ako svoju distribúciu Apache Hadoop motor na spracovanie údajov . Hadoop je open source softvérový rámec Java, ktorý podporuje údajov -intenzívne distribuované aplikácie bežiace na veľkých klastroch z komoditný hardvér.

Navyše, čo je Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) je Webové služby Amazon ( AWS ) nástroj na spracovanie a analýzu veľkých dát. Amazon EMR spracováva veľké dáta cez klaster virtuálnych serverov Hadoop Amazon Elastické Compute Cloud ( EC2 ) a Amazon Služba jednoduchého ukladania ( S3 ).

Okrem toho, je Amazon EMR plne riadený? Je to a plne riadený služba dátového jazera, ktorá dokáže oddeliť úložisko údajov od výpočtových zdrojov a namiesto toho sprístupňuje škálovateľné výpočtové klastre, ktoré je možné použiť na požiadanie, a zahŕňa možnosť prístupu viacerých klastrov k rovnakým súborom údajov naraz.

Možno sa tiež opýtať, ako funguje AWS EMR?

Vo všeobecnosti, keď spracovávate údaje v Amazon EMR , vstupom sú dáta uložené ako súbory vo vami zvolenom základnom súborovom systéme, ako napr Amazon S3 alebo HDFS. Tieto údaje prechádzajú z jedného kroku do druhého v postupnosti spracovania. Posledný krok zapíše výstupné dáta na určené miesto, ako napr Amazon vedro S3.

Aký je rozdiel medzi ec2 a EMR?

Na rozdiel od EMR , EC2 nekategorizuje podriadené uzly na jadro a uzly úloh. To zvyšuje riziko straty údajov HDFS v prípade odstránenia/straty uzla. EC2 používa knižnice Apache (s3a) na prístup k údajom na s3. Na druhej strane, EMR používa proprietárny kód AWS na rýchlejší prístup k s3.

Odporúča: