Obsah:

Aké sú rôzne formáty súborov v Hadoop?
Aké sú rôzne formáty súborov v Hadoop?

Video: Aké sú rôzne formáty súborov v Hadoop?

Video: Aké sú rôzne formáty súborov v Hadoop?
Video: Marlin Firmware - VScode PlatformIO Install - Build Basics 2024, Smieť
Anonim

Našťastie pre vás sa komunita veľkých dát v podstate uspokojila s tromi optimalizovanými formáty súborov na použitie v Hadoop klastre: Optimalizovaný stĺpcový riadok (ORC), Avro a Parkety.

Následne si možno položiť otázku, aké sú rôzne typy dátových formátov?

Sú tam tri typy údajov mapovanie a GIS dátových formátov . Každý typu sa rieši inak.

Typy dátových formátov

  • Súborové - Shapefiles, Microstation Design Files (DGN), obrázky GeoTIFF.
  • Na základe adresára – ESRI ArcInfo Coverages, US Census TIGER.
  • Databázové pripojenia - PostGIS, ESRI ArcSDE, MySQL.

Okrem toho, ktorý formát súboru je v úli najlepší? RCFile je riadkový stĺpcový formát súboru . Toto je iná forma Formát súboru úľa ktorý ponúka vysokú mieru kompresie riadkov. Ak máte požiadavku na vykonávanie viacerých riadkov naraz, môžete použiť RCFile formát.

Vzhľadom na to, aké sú bežné vstupné formáty v Hadoop?

InputFormat vytvorí Inputsplit

  • Najbežnejšie InputFormat sú:
  • FileInputFormat- Je to základná trieda pre všetky súbory založené na InputFormat.
  • TextInputFormat- Je to predvolený formát vstupu pre MapReduce.
  • KeyValueTextInputFormat- Je podobný TextInputFormat.
  • Ak sa chcete dozvedieť viac o InputFormat v Hadoop, kliknite na odkaz.

Aký je formát súboru orc v Hadoop?

Formát súboru ORC Stĺpcový optimalizovaný riadok ( ORC ) formát súboru poskytuje vysoko efektívny spôsob ukladania údajov Hive. Bol navrhnutý tak, aby prekonal obmedzenia druhého Úľa formáty súborov . Použitím súbory ORC zlepšuje výkon pri čítaní, zápise a spracovaní údajov Hive.

Odporúča: