※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467817474.A.291.html
→ now99: 推 07/06 23:07
推 longlyeagle: 推 不過Map Reduce限制真得很大 很多演算法為了可以 07/06 23:10
→ longlyeagle: 利用Map Reduce來運算改得面目全非 明明還是用一樣的 07/06 23:10
→ longlyeagle: 一樣的名子 Performance跟裡面真正的算法都不一樣了 07/06 23:11
推 psinqoo: 使用 Rhadoop SparkR ~~ 07/06 23:14
→ dryman: 包含spark,都無法解決當你的資料集比記憶體還大時該怎麼 07/06 23:23
→ dryman: 辦 07/06 23:23
推 htc812: spark 怎麼會不能解決資料集大過記憶體的情況... 07/06 23:29
推 longlyeagle: 至少有好的scalability可以用加機器解決 算不錯了吧? 07/06 23:29
推 SuM0m0: 會spill to disk啊 07/06 23:36
推 longlyeagle: 其實現在同時submit多支還是會炸吧? 還是2.0有解決? 07/06 23:36
→ dryman: 現在spark對於超大資料處理效能我不熟。我還在做data時 07/06 23:37
→ dryman: 它在處理超大資料的效能評估一直沒有達到我們的標準 07/06 23:38
推 SuM0m0: 這類題目可能得跟storage一起討論 不然case by case落差大 07/06 23:39
推 daniel54088: 推 這版真的很多神人 07/06 23:57
推 bowin: 推 07/07 00:16
推 laject: 推 07/07 00:27
推 king4647: 推 map reduce 不好寫QQ 07/07 00:30
推 sonicnaru: 有神到.. 07/07 00:58
推 h310713: Data pre process 才是重點 07/07 01:10
推 htc812: 推 07/07 01:41
推 vn509942: 感謝分享 07/07 07:51
推 Argos: 推 07/07 09:51
推 coronach: 之前就看過分享文了,推 07/07 09:56
推 Baudelaire: 這篇寫的好 07/07 11:56
推 ken9527k: 謝謝分享 07/07 12:22
推 PolarGG: 推 07/07 17:46
推 Gladstone: 推 07/10 01:37