—-課程已於 2020 年 5 月更新—
許多常見的資料分析需求,Elasticsearch 正被定位成比 Hadoop、Spark 和 Flink 快很多的替代品。這是一個需要裡解的重要的工具。 本課程教你使用 Elasticsearch、Logstash、Beats、Kibana 等在群集上做大數據的搜索、分析和視覺化。
https://softnshare.com/elasticsearch-7-and-elastic-stack/
hadoop安裝 在 軟體開發學習資訊分享 Facebook 的精選貼文
Hadoop 和“大數據”的世界可能會令人生畏 – 許多具有神秘名稱的不同技術形成了 Hadoop 生態系統。通過本課程,你不僅可以了解這些系統是什麼以及它們如何組織在一起,而且你將親自動手並學習如何使用它們來解決實際的業務問題!
在這個全面的課程中學習和掌握最受歡迎的大數據技術,由亞馬遜和 IMDb 的前工程師和高級經理教授。我們將遠遠超越 Hadoop 本身,並深入各種可能需要整合的分散式系統中。
1. 使用 Hortonworks 和 Ambari UI 在桌面上安裝並使用
真正的 Hadoop 安裝
2. 使用 HDFS 和 MapReduce 管理群集上的大數據
3. 使用 Pig 和 Spark 編寫程式以分析 Hadoop 上的資料
4. 使用 Sqoop、Hive、MySQL、HBase、Cassandra、MongoDB、Drill、Phoenix、Presto 儲存和查詢你的資料
5. 使用 Hadoop 生態系統設計真實世界的系統
6. 了解如何使用 YARN、Mesos、Zookeeper、Oozie、Zeppelin 和 Hue 管理群集
7. 使用 Kafka、Flume、Spark Streaming、Flink 和 Storm 即時處理串流資料
了解 Hadoop 對於在擁有大量數據的公司工作的任何人來說都是非常有價值的技能。
https://softnshare.com/ultimate-hands-on-hadoop-tame-your-…/
hadoop安裝 在 軟體開發學習資訊分享 Facebook 的精選貼文
--課程已於 2017 年 9 月更新--
“大數據“分析是一個熱門和非常有價值的技能 – 本課程將教你大數據中最熱門的技術:Apache Spark。
從這 5 小時的課程,你會學到
1. 將大數據分析問題架構為 Spark 問題
2. 使用 Amazon 的 Elastic MapReduce 服務在具有 Hadoop YARN 的叢集上運行你的工作
3. 在桌上型電腦或是叢集上安裝和運行 Apache Spark
4. 使用 Spark 的彈性分散式資料集,透過多個 CPU 來處理和分析大型資料集合
5. 實現迭代演算法,例如使用 Spark 的廣度優先搜索
6. 使用 MLLib 機器學習庫來回答常見的資料探勘問題
7. 學習 Spark SQL 如何讓你使用結構化資料
8. 理解 Spark Streaming 如何讓你的處理即時連續傳輸的資料流
9. 調整和解決叢集上運行的大型作業
10. 使用廣播變數和累加器在 Spark 叢集上的節點之間共享資訊
11. 了解 GraphX 程式庫如何幫助解決網路分析問題
>英文字幕:有
https://softnshare.wordpress.com/…/tampingbigdatawithapach…/
hadoop安裝 在 [問題]R+hadoop安裝問題(附影片) - 看板R_Language - 批踢踢 ... 的推薦與評價
[目的]=================================================================
在ubuntu16上安裝R和hadoop環境
並用rhdfs和rmr2執行簡單範例
[問題]=================================================================
(問題1):在library(rmr2)時會出現錯誤訊息:
Please review your hadoop settings. See help(hadoop.settings)
(問題2):library(rhdfs)後
init.hdfs()出現錯誤訊息:
17/01/11 17:20:17 WARN util.NativeCodeLoader:
Unable to load native-hadoop
library for your platform...
using builtin-java classes where applicable
猜或許是hadoop streaming設置錯了??
[安裝過程]=================================================================
啟動hadoop
cd ~/hadoop && sbin/start-all.sh
-----------------------------------------------------------------------------
裝r在master就好
sudo apt-get update
sudo apt-get upgrade
sudo apt-get install r-base
java 設訂-----------------------------------------------------------
echo $JAVA_HOME
sudo JAVA_HOME=/usr/lib/jvm/jdk/ R CMD javareconf
in the R-------------------------------------------------------------
進入R
sudo R
install.packages(c("codetools","R","Rcpp","RJSONIO","bitops","digest","functional","stringr","plyr","reshape2","rJava","caTools"))
下載rmr(用於mapreduce 和 rhabse)
wget --no-check-certificate
https://raw.github.com/RevolutionAnalytics/rmr2/3.3.0/build/rmr2_3.3.0.tar.gz
wget --no-check-certificate
https://raw.github.com/RevolutionAnalytics/rhdfs/master/build/rhdfs_1.0.8.tar.gz
在R中
---------------------------------------------------------------------------------------
$sudo R
install.packages("/home/hduser/rhdfs_1.0.8.tar.gz", repos=NULL, type="source")
install.packages("/home/hduser/rmr2_3.3.0.tar.gz", repos = NULL,
type="source")
安裝影片如下:
https://www.youtube.com/watch?v=w70h_u8qoHM&t=680s
[路徑設置/網路資料
]=================================================================
參考一些網路資料
都無法決解這問題
發現很多討論都跟HADOOP_STREAMING路徑設置有關@@
@資料一
https://stackoverflow.com/questions/29682432/r-mapreduce-library-rmr2-shows-a-warning-message-when-loaded
這篇提到要在R中重設Sys.setenv的路徑跟我完全不一樣
感覺也不是我的問題
@資料二
https://github.com/RevolutionAnalytics/RHadoop/issues/122
這篇還沒開始看,英文好吃力
@資料三
https://github.com/RevolutionAnalytics/rmr2/issues/155
這篇跟我的問題非常像,但我還是看不太懂,而他設的路徑也跟我不一樣@@
>small.ints = to.dfs(1:10)
>mapr = mapreduce(input = small.ints,
map = function(k,v) cbind(v,v^2))
會有
Streaming Command Failed!
Error in ...
hadoop streaming failed with error code 5
不知是什麼意思>"<
以下是我設的路徑:
Sys.setenv(HADOOP_HOME="/home/hduser/hadoop")
Sys.setenv(HADOOP_PREFIX="/home/hduser/hadoop")
Sys.setenv(HADOOP_CMD="/home/hduser/hadoop/bin/hadoop")
Sys.setenv(HADOOP_STREAMING="/home/hduser/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar")
不知是哪錯的...
在hadoop/logs也看不太懂錯誤是什麼QAQ
希望大大們幫看一下我HADOOP_STREAMING設置是否有錯?或怎麼看錯誤
或是哪出錯了>"<
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.128.101.143
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1484131319.A.BFD.html
rJava已成功下載
可以library
但是rmr 和 rhdfs還是跟上面一樣的錯誤
QAQ
※ 編輯: rlearner (140.128.101.143), 01/18/2017 00:06:46
... <看更多>