Obsah:
Video: Aké sú odľahlé hodnoty pri analýze údajov?
2024 Autor: Lynn Donovan | [email protected]. Naposledy zmenené: 2023-12-15 23:52
V štatistike an odľahlé je a údajov bod, ktorý sa výrazne líši od iných pozorovaní. An odľahlé môže to byť spôsobené variabilitou merania alebo môže naznačovať experimentálnu chybu; posledne menované sú niekedy vylúčené z údajov nastaviť. An odľahlý môže spôsobiť vážne problémy štatistické analýzy.
Vzhľadom na to, ako zistíte odľahlé hodnoty v údajoch?
Bod, ktorý spadá mimo údajov vnútorné oplotenie súboru je klasifikované ako malé odľahlé , zatiaľ čo ten, ktorý spadá mimo vonkajších plotov, je klasifikovaný ako hlavný odľahlý . Ak chcete nájsť vnútorné ploty pre vaše údajov najprv vynásobte medzikvartilový rozsah číslom 1,5. Potom pridajte výsledok k Q3 a odčítajte ho od Q1.
Okrem vyššie uvedeného, mám zo svojich údajov odstrániť odľahlé hodnoty? Pre a väčšina, ak vaše údaje si týmito extrémnymi prípadmi ovplyvnený, ty môcť viazaný a vstup pre historického predstaviteľa vaše údaje to vylučuje odľahlé hodnoty . Určte od prípadu k prípadu čo a účinok odľahlé hodnoty bol. A odtiaľ sa rozhodnite, či chcete odstrániť , zmeniť alebo ponechať krajný hodnoty.
V súvislosti s tým, ako sa analýza údajov vysporiada s odľahlými hodnotami?
Tu sú štyri prístupy:
- Zrušte odľahlé záznamy. V prípade Billa Gatesa alebo inej skutočne odľahlej hodnoty je niekedy najlepšie tento záznam úplne odstrániť zo súboru údajov, aby daná osoba alebo udalosť neskreslila vašu analýzu.
- Obmedzte svoje odľahlé údaje.
- Priraďte novú hodnotu.
- Skúste premenu.
Aký je príklad odľahlej hodnoty?
Odľahlý . more Hodnota, ktorá "leží mimo" (izmut menšia alebo väčšia ako) väčšina ostatných hodnôt v množine údajov. Pre príklad v skóre 25, 29, 3, 32, 85, 33, 27, 28 sú obe 3 a 85 " odľahlé hodnoty ".
Odporúča:
Zahŕňate odľahlé hodnoty do súhrnu 5 čísel?
Päť čísel predstavuje minimum, hodnotu prvého kvartilu (Q1), medián, hodnotu tretieho kvartilu (Q3) a maximum. Prvá vec, ktorú si na tomto súbore údajov môžete všimnúť, je číslo 27. Toto je veľmi odlišné od zvyšku údajov. Je to odľahlá hodnota a musí sa odstrániť
Zahŕňate odľahlé hodnoty do štandardnej odchýlky?
Smerodajná odchýlka nikdy nie je záporná. Štandardná odchýlka je citlivá na odľahlé hodnoty. Jedinečná odchýlka môže zvýšiť štandardnú odchýlku a následne skresliť obraz rozptylu. Pre údaje s približne rovnakým priemerom platí, že čím väčšie je rozpätie, tým väčšia je štandardná odchýlka
Aké sú rôzne typy údajov pri dolovaní údajov?
Poďme diskutovať o tom, aký typ údajov možno ťažiť: Ploché súbory. Relačné databázy. Dátový sklad. Transakčné databázy. Multimediálne databázy. Priestorové databázy. Databázy časových radov. World Wide Web (WWW)
Čo spôsobuje odľahlé hodnoty v údajoch?
Odľahlé hodnoty sú často spôsobené ľudskou chybou, ako sú chyby pri zhromažďovaní, zaznamenávaní alebo zadávaní údajov. Údaje z rozhovoru môžu byť zaznamenané nesprávne alebo môžu byť pri zadávaní údajov chybne zakódované
Ako sa Hadoop používa v analýze údajov?
Hadoop je softvérový rámec s otvoreným zdrojovým kódom, ktorý umožňuje spracovanie veľkých súborov údajov naprieč klastrami počítačov pomocou jednoduchých programovacích modelov. Hadoop je navrhnutý tak, aby sa dal rozšíriť z jednotlivých serverov na tisíce strojov