旗下產業: A產業/ A實習/ A計劃
全國統一咨詢熱線:400-0100-444
2019年排三开奖分布图 > 熱門文章 > 大數據分析 > Hadoop在大數據分析中的意義和作用
Hadoop在大數據分析中的意義和作用
時間:2019-11-22來源:2019年排三开奖分布图 www.yuxjcj.com.cn點擊量:次作者:Sissi
時間:2019-11-22點擊量:次作者:Sissi

2019年排三开奖分布图 www.yuxjcj.com.cn



  什么是Hadoop?
 

  Apache Hadoop是一個開放源代碼軟件框架,用于開發在分布式計算環境中執行的數據處理應用程序。
 

  使用HADOOP構建的應用程序可在分布在商用計算機群集上的大型數據集上運行。商品計算機便宜且可廣泛獲得。這些主要用于以低成本實現更大的計算能力。


  與駐留在個人計算機系統的本地文件系統中的數據類似,在Hadoop中,數據駐留在稱為 Hadoop分布式文件系統的分布式文件系統中。處理模型基于 “數據局部性” 概念,其中計算邏輯被發送到包含數據的群集節點(服務器)。這種計算邏輯無非是用高級語言(例如Java)編寫的程序的編譯版本。這樣的程序可以處理存儲在Hadoop HDFS中的數據。
 

  你知道嗎?計算機集群由一組相互連接并充當單個系統的多個處理單元(存儲磁盤+處理器)組成。
 

  在本教程中,您將學習
 

  一、Hadoop生態系統和組件
 

  二、Hadoop架構
 

  三、Hadoop的功能
 

  四、Hadoop中的網絡拓撲
 

一、Hadoop生態系統和組件
 

  下圖顯示了Hadoop生態系統中的各個組件-
 

大數據分析
Apache Hadoop由兩個子項目組成–
 

  Hadoop MapReduce: MapReduce是用于編寫在Hadoop上運行的應用程序的計算模型和軟件框架。這些MapReduce程序能夠在大型計算節點群集上并行處理大量數據。
 

  HDFS (Hadoop分布式文件系統):HDFS負責Hadoop應用程序的存儲部分。MapReduce應用程序使用HDFS中的數據。HDFS創建數據塊的多個副本,并將它們分布在群集中的計算節點上。這種分布實現了可靠且快速的計算。
 

  盡管Hadoop以MapReduce及其分布式文件系統HDFS而聞名,但該術語還用于一系列相關項目,這些項目屬于分布式計算和大規模數據處理的范疇。Apache的其他與Hadoop相關的項目包括 Hive,HBase,Mahout,Sqoop,Flume和ZooKeeper。
 

二、Hadoop架構
 

大數據分析
高級Hadoop架構
 

  Hadoop具有使用MapReduce和HDFS方法進行數據存儲和分布式數據處理的主從結構。
 

  NameNode:
 

  NameNode表示名稱空間中使用的每個文件和目錄
 

  數據節點:
 

  DataNode可幫助您管理HDFS節點的狀態,并允許您與塊進行交互
 

  主節點:
 

  主節點允許您使用Hadoop MapReduce進行數據并行處理。
 

  從節點:
 

  從節點是Hadoop集群中的其他計算機,可讓您存儲數據以進行復雜的計算。此外,所有從屬節點都隨附有Task Tracker和一個DataNode。這使您可以分別與NameNode和Job Tracker同步進程。
 

  在Hadoop中,可以在云或本地中設置主系統或從系統
 

三、Hadoop的功能
 

  •適用于大數據分析
 

  由于大數據實際上傾向于分布和非結構化,因此HADOOP群集最適合分析大數據。由于流向計算節點的是處理邏輯(不是實際數據),因此消耗的網絡帶寬更少。該概念稱為 數據局部性概念 ,它有助于提高基于Hadoop的應用程序的效率。
 

  •可擴展性
 

  通過添加其他群集節點,可以輕松地將HADOOP群集擴展到任何程度,從而實現大數據的增長。同樣,擴展不需要修改應用程序邏輯。
 

  容錯
 

  HADOOP生態系統提供了將輸入數據復制到其他群集節點的規定。這樣,在群集節點發生故障的情況下,仍然可以通過使用存儲在另一個群集節點上的數據來進行數據處理。
 

四、Hadoop中的網絡拓撲
 

  當Hadoop群集的大小增長時,網絡的拓撲(安排)會影響Hadoop群集的性能。除了性能之外,還需要關注高可用性和故障處理。為了實現此Hadoop,集群形成利用了網絡拓撲。
 

大數據分析

  通常,網絡帶寬是組成任何網絡時要考慮的重要因素。但是,由于測量帶寬可能很困難,因此在Hadoop中,網絡被表示為一棵樹,并且該樹的節點之間的距離(跳數)被視為Hadoop集群形成的重要因素。在此,兩個節點之間的距離等于它們到其最接近的共同祖先的距離之和。
 

  Hadoop集群由一個數據中心,機架和實際執行作業的節點組成。在這里,數據中心由機架組成,而機架由節點組成。進程可用的網絡帶寬取決于進程的位置。也就是說,隨著我們遠離-
 

  1、在同一節點上處理;
 

  2、同一機架上的不同節點;
 

  3、同一數據中心不同機架上的節點;
 

  4、不同數據中心中的節點。



 

?2007-2019/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2019/ 2019年排三开奖分布图 www.yuxjcj.com.cn 北京漫動者教育科技有限公司 備案號: 京ICP備12034770號 監督電話:010-62568622 郵箱:[email protected]