Aký je problém s malými súbormi v Hadoop?
Aký je problém s malými súbormi v Hadoop?

Video: Aký je problém s malými súbormi v Hadoop?

Video: Aký je problém s malými súbormi v Hadoop?
Video: ПОЛТЕРГЕЙСТ 5 УРОВНЯ СНОВА НЕ ДАЕТ ПОКОЯ, ЖУТКАЯ АКТИВНОСТЬ / LEVEL 5 POLTERGEIST, CREEPY ACTIVITY 2024, Smieť
Anonim

1) Problém s malým súborom v HDFS : Ukladanie veľkého množstva malé súbory ktoré sú mimoriadne menšie veľkosť bloku nie je možné efektívne zvládnuť HDFS . Prečítanie malé súbory zahŕňajú veľa vyhľadávaní a veľa preskakovania medzi dátovým uzlom a dátovým uzlom, čo je zase neefektívne spracovanie dát.

Okrem toho, ktoré súbory riešia problémy s malými súbormi v Hadoop?

1) HAR ( Hadoop archív) Súbory bol predstavený riešiť problém s malým súborom . HAR zaviedol vrstvu na vrchu HDFS , ktoré poskytujú rozhranie pre súbor pristupovanie. Použitím Hadoop archívny príkaz, HAR súbory sú vytvorené, ktoré beží a MapReduce prácu zbaliť súbory archivuje sa do menšie počet HDFS súbory.

Okrem toho, môžem mať viacero súborov v HDFS, ktoré používajú rôzne veľkosti blokov? Predvolené veľkosť z blokovať je 64 MB. vy môcť zmeniť v závislosti od vašej požiadavky. K tvojej otázke áno môže vytvoriť viacero súborov variovaním veľkosti blokov ale v reálnom čase toto bude nezvýhodňujú výrobu.

Navyše, prečo HDFS nespracúva malé súbory optimálne?

Problémy s malé súbory a HDFS Každý súbor , adresár a blokovanie HDFS je reprezentovaný ako objekt v pamäti menného uzla, z ktorých každý zaberá 150 bajtov, ako orientačné pravidlo. ďalej HDFS nie je zamerané na efektívny prístup malé súbory : to je primárne určený pre streamingový prístup veľkých súbory.

Prečo je Hadoop pomalý?

Pomaly Rýchlosť spracovania Toto vyhľadávanie disku si vyžaduje čas, čím je celý proces veľmi náročný pomaly . Ak Hadoop spracováva údaje v malom objeme, je to veľmi pomaly porovnateľne. Je ideálny pre veľké súbory údajov. Ako Hadoop má jadro dávkového spracovania, jeho rýchlosť spracovania v reálnom čase je nižšia.

Odporúča: