Je věda o datech a velká data hadoop stejná? Existuje nějaký rozdíl mezi nimi nebo oba znamenají to samé?


Odpověď 1:

Ne, rozhodně ne.

Pojďme diskutovat o tomto problému do tří částí:

Data Science je specializace na řešení různých problémů pomocí různých metod od statistiky, kombinatoriky, matematiky a informatiky atd.)

Velká data: Velká data v širokém pohledu jsou konceptem manipulace s obrovskými daty (pojem obrovský je relativní) mimo tradiční metody.

Hadoop: Hadoop je rámec nebo můžeme říci prostředí, které lze použít ke správě a analýze obrovských datových souborů pomocí různých nástrojů (PIG, HIVE, Scoop, Fume atd.)

Reference :

Výukový program Hadoop

Data science

Velká data


Odpověď 2:

Předpokládám, že jste si mysleli, že „Data Science“ a „Big Data Hadoop“ jsou dvě různé věci, ale ve skutečnosti jsou tři. Data Science, Big Data a Hadoop mají různé významy.

Předpokládejme, že jste student ve třídě 10. Dostali jste za úkol najít průměrné známky v každém předmětu, které získali vaši spolužáci. Ve své třídě máte 50 studentů, z nichž každý studuje 5 předmětů. Nalezení průměru není žádná věda o raketách, takže to všechno děláte v excelentním listu. Nyní vás učitel požádá, abyste provedli stejný výpočet pro všechny sekce A, B a C, asi 150 studentů. List Excelu je opět dostačující. Nyní byste chtěli vědět, jaké by byly průměrné známky pro Science, které získali studenti z 10. třídy po celé zemi, což je kolem 14,31,861 studentů v roce 2016. Je možné, že tolik dat nebudete moci uložit do excelentního listu, abyste je uložili. v databázi jako MySQL nebo Oracle. Spuštění dotazu SQL najít průměr. Nyní jste zvědaví na trend, jak se průměry pohybovaly od posledních 20 let ve vědě pro třídu 10, což je asi 3000000 záznamů. Pokud byste měli najít průměr všech 5 předmětů a ne jen vědy, zpracovali byste 30000000 x 5 záznamů. Data jsou nyní velká, což se také nazývá „Velká data“.

Big Data - extrémně velké datové soubory, které lze výpočtově analyzovat, aby odhalily vzorce, trendy a asociace, zejména ty, které se týkají lidského chování a interakcí.- Z Wikipedie

Pravděpodobně byste neměli ukládat tolik dat do MySQL nebo Oracle a spustit SQL dotaz na milionech záznamů. Nikdy jsem se nezabýval tolik dat v SQL databázi, takže nebudu komentovat jeho výkon, ale použil jsem Hadoop ke zpracování obrovského množství datových sad, mnohem větších než studentská databáze, o které mluvíme. Hadoop je rámec, který distribuuje data do více systémů, takže všechny systémy mohou provádět výpočty paralelně, čímž se zvyšuje celková rychlost výpočtu, také nazývaná Distribuované výpočty. Hadoop má svůj vlastní systém souborů, což je systém pro ukládání dat pro Big Data.

Datová věda v laikovém pojetí je věda o porozumění tomu, co dělat s daty, velká nebo malá. Doposud jsme se jen snažili najít průměr skóre, ale vědec s údaji by šel dál a hledal způsoby, jak najít to, co lze s průměrem udělat. Pro organizaci jim pomůže podnikat obchodní rozhodnutí a najít vzory, které by pomohly šéfům dělat lepší rozhodnutí a přidělit zdroje ke zvýšení zisku. Většina vědců s údaji nemusí používat Hadoop, pokud se nezabývají Big Data, obvykle pro výpočet používají R lang nebo Python.

Big Data je koncept.Hadoop je nástroj.Data Science je obor počítačové vědy.


Odpověď 3:

Předpokládám, že jste si mysleli, že „Data Science“ a „Big Data Hadoop“ jsou dvě různé věci, ale ve skutečnosti jsou tři. Data Science, Big Data a Hadoop mají různé významy.

Předpokládejme, že jste student ve třídě 10. Dostali jste za úkol najít průměrné známky v každém předmětu, které získali vaši spolužáci. Ve své třídě máte 50 studentů, z nichž každý studuje 5 předmětů. Nalezení průměru není žádná věda o raketách, takže to všechno děláte v excelentním listu. Nyní vás učitel požádá, abyste provedli stejný výpočet pro všechny sekce A, B a C, asi 150 studentů. List Excelu je opět dostačující. Nyní byste chtěli vědět, jaké by byly průměrné známky pro Science, které získali studenti z 10. třídy po celé zemi, což je kolem 14,31,861 studentů v roce 2016. Je možné, že tolik dat nebudete moci uložit do excelentního listu, abyste je uložili. v databázi jako MySQL nebo Oracle. Spuštění dotazu SQL najít průměr. Nyní jste zvědaví na trend, jak se průměry pohybovaly od posledních 20 let ve vědě pro třídu 10, což je asi 3000000 záznamů. Pokud byste měli najít průměr všech 5 předmětů a ne jen vědy, zpracovali byste 30000000 x 5 záznamů. Data jsou nyní velká, což se také nazývá „Velká data“.

Big Data - extrémně velké datové soubory, které lze výpočtově analyzovat, aby odhalily vzorce, trendy a asociace, zejména ty, které se týkají lidského chování a interakcí.- Z Wikipedie

Pravděpodobně byste neměli ukládat tolik dat do MySQL nebo Oracle a spustit SQL dotaz na milionech záznamů. Nikdy jsem se nezabýval tolik dat v SQL databázi, takže nebudu komentovat jeho výkon, ale použil jsem Hadoop ke zpracování obrovského množství datových sad, mnohem větších než studentská databáze, o které mluvíme. Hadoop je rámec, který distribuuje data do více systémů, takže všechny systémy mohou provádět výpočty paralelně, čímž se zvyšuje celková rychlost výpočtu, také nazývaná Distribuované výpočty. Hadoop má svůj vlastní systém souborů, což je systém pro ukládání dat pro Big Data.

Datová věda v laikovém pojetí je věda o porozumění tomu, co dělat s daty, velká nebo malá. Doposud jsme se jen snažili najít průměr skóre, ale vědec s údaji by šel dál a hledal způsoby, jak najít to, co lze s průměrem udělat. Pro organizaci jim pomůže podnikat obchodní rozhodnutí a najít vzory, které by pomohly šéfům dělat lepší rozhodnutí a přidělit zdroje ke zvýšení zisku. Většina vědců s údaji nemusí používat Hadoop, pokud se nezabývají Big Data, obvykle pro výpočet používají R lang nebo Python.

Big Data je koncept.Hadoop je nástroj.Data Science je obor počítačové vědy.