Re: [討論] 會用Hadoop == 具備大數據處理能力?

看板	Soft_Job
作者	dryman (dryman)
時間	2016-07-06 23:04:31
留言	28則留言 (21推 0噓 7→)

看板Soft_Job

我前兩份工作也是用Hadoop。我負責的是data stack tech lead 公司日資料量300TB 「大數據」這名詞真的很模糊不過這不是台灣的問題，因為美國這邊很多人也都是這麼搞我自己是這麼觀察啦... 把大數據當做資料科學技術來看的，大都沒有大資料把大數據當作「大型資料工程」問題來看的，由於問題複雜度太高所以很難作為資料科學問題來處理這什麼意思？大多數的資料科學演算法動輒O(N^2)以上數據量一大複雜度馬上就飆到上萬台機器都算不動的情況而一般的「大數據」工程師就是要解決因應數據量上升而需要重新設計演算法的工程問題 hadoop就是為了解決這樣的工程問題而生 * * * 傳統資料庫提供的是高階的SQL抽象層你只要處理集合間的連結即可底層真正的演算法，不論是透過hash table, sort, b-tree 很多人一般根本不需要接觸到但是當你數據量大到一定程度後由資料庫引擎自動幫你決定的演算法就再也不適用了 Hadoop 的設計就是讓你可以把資料問題轉換成 sort (map reduce shuffle phase) sort也是一般資料庫要解決大型資料查詢的最佳演算法（例如group by, join, or diff）一些高富雜度的問題，經過使用hadoop來客製演算法，就變得算得動了我第一份工作就是將一個要算五個小時的PostgreSQL ETL 重寫成map reduce，變得只有二十分鐘這個效率應該是用hive/pig都做不到的。因為要客製化演算法這只是在數據量變大後其中一個變困難的問題資料蒐集、處理（上述的ETL就是問題之一）、儲存、查詢每件事都變得困難許多通常資料科學家會拿去作分析的，大都是縮小很多的資料集了他們的第一步，通常就是怎麼把資料變得更小，不然算不動XD * * * 我最近試著把一些之前所學知識整理成部落格不定期更新 :P https://medium.com/@fchern 其中一篇是「那些大數據書不會教的資料工程」 http://tinyurl.com/hvrt7s8 主要在講如何進行資料清理有空可以看看 * * * 最後...不要寄信給我（包含職涯建議之類）有問題請在版上發問 :) -- 我推文沒寫清楚 hadoop, spark 都無法自動替你解決資料大過記憶體的情況複雜的演算法很多都還是要自己去推敲不過早期的spark真的會有資料大過記憶體就OOM的情況因為它們早期不是用sort，而是用hash table來處理shuffle phase..

※ 批踢踢實業坊(ptt.cc), 來自: 98.248.38.67
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467817474.A.291.html

→ now99: 推 07/06 23:07

推 longlyeagle: 推不過Map Reduce限制真得很大很多演算法為了可以 07/06 23:10

→ longlyeagle: 利用Map Reduce來運算改得面目全非明明還是用一樣的 07/06 23:10

→ longlyeagle: 一樣的名子 Performance跟裡面真正的算法都不一樣了 07/06 23:11

推 psinqoo: 使用 Rhadoop SparkR ~~ 07/06 23:14

→ dryman: 包含spark，都無法解決當你的資料集比記憶體還大時該怎麼 07/06 23:23

→ dryman: 辦 07/06 23:23

推 htc812: spark 怎麼會不能解決資料集大過記憶體的情況... 07/06 23:29

推 longlyeagle: 至少有好的scalability可以用加機器解決算不錯了吧? 07/06 23:29

推 SuM0m0: 會spill to disk啊 07/06 23:36

推 longlyeagle: 其實現在同時submit多支還是會炸吧? 還是2.0有解決? 07/06 23:36

→ dryman: 現在spark對於超大資料處理效能我不熟。我還在做data時 07/06 23:37

→ dryman: 它在處理超大資料的效能評估一直沒有達到我們的標準 07/06 23:38

推 SuM0m0: 這類題目可能得跟storage一起討論不然case by case落差大 07/06 23:39

推 daniel54088: 推這版真的很多神人 07/06 23:57

推 bowin: 推 07/07 00:16

推 laject: 推 07/07 00:27

推 king4647: 推 map reduce 不好寫QQ 07/07 00:30

推 sonicnaru: 有神到.. 07/07 00:58

推 h310713: Data pre process 才是重點 07/07 01:10

推 htc812: 推 07/07 01:41

推 vn509942: 感謝分享 07/07 07:51

推 Argos: 推 07/07 09:51

推 coronach: 之前就看過分享文了，推 07/07 09:56

推 Baudelaire: 這篇寫的好 07/07 11:56

推 ken9527k: 謝謝分享 07/07 12:22

推 PolarGG: 推 07/07 17:46

推 Gladstone: 推 07/10 01:37

Re: [討論] 會用Hadoop == 具備大數據處理能力?

您可能感興趣

熱門文章