hadoop-logoアパッチHadoop

Apache®Hadoop®プロジェクトは、信頼性が高く、スケーラブルで、分散されたコンピューティングのためのオープンソースソフトウェアを開発しています。

ApacheHadoopソフトウェアライブラリは、シンプルなプログラミングモデルを使用してコンピューターのクラスター全体で大きなデータセットの分散処理を可能にするフレームワークです。1台のサーバーから数千台のコンピューターまで拡張するように設計されており、それぞれがローカルの計算とストレージを提供します。高可用性を提供するためにハードウェアに頼るのではなく、ライブラリ自体はアプリケーションレイヤーで障害を検出して処理するように設計されており、障害が発生しやすいコンピューターのクラスターの上に高可用性のサービスを提供します。

詳細はこちら» ダウンロード » 開始 »

最新ニュース

ApacheHadoop3.4ラインの最初のリリースです。3.3以降、2888のバグ修正、改善、機能強化が含まれています。

ユーザーは主要な変更の概要を読むことをお勧めします。詳細については、リリースノート変更ログを確認してください。

ApacheHadoop3.3ラインのリリースです。

3.3.5以降のApacheHadoop3.3のユーザーはこのリリースにアップグレードする必要があります。

機能のハイライト

SBOMアーティファクト

このリリースから、HadoopはCycloneDX Mavenプラグインを使用してソフトウェア部品表(SBOM)を公開します。SBOMの詳細については、SBOMを参照してください。

HDFS RBF:RDBMSベースのトークンストレージサポート

HDFS Router-Router Based Federationは、HADOOP-18535のMySQLに委任トークンを格納することをサポートするようになりました。これにより、元のZookeeperベースの実装から、トークンの操作が向上します。

新しいファイルシステムAPI

HADOOP-18671は、HDFS依存性のある特定のアプリケーションが他のHadoop互換ファイルシステム上で実行できるように、HDFS固有のAPIをHadoop Commonに多数移行しました。

特に、recoverLease()とisFileClosed()はLeaseRecoverableインターフェースを介して公開され、setSafeMode()はSafeModeインターフェースを介して公開されます。

ユーザーは、リリース 3.3.5 以降の 主な変更の概要 を参照することをお勧めします。前の 3.3.5 リリース以降の 117 個のバグ修正、改善、その他の機能強化の詳細については、リリース ノート変更ログ を確認してください。

ApacheHadoop3.3ラインのリリースです。

重要な変更点としては、次のようなものがあります。

  • 依存関係の大規模な更新。真の CVE と誤検知の両方の伝達 CVE の報告を制御しようとします。
  • ABFS 入力ストリームのプレフェッチに関する重大な修正。正しい読み取りを可能にします。
  • file:// と s3a:// ファイルシステム用の high-performance バージョンを使用した、すべて FSDataInputStream 実装用のベクトル IO API。file:// は Java ネイティブ IO を介し、s3a:// はパラレル GET リクエストになります。
  • Arm64 バイナリ。注意:Arm64 リリースは別のプラットフォーム上にあるため、jar ファイルは x86 リリースのファイルと一致しない場合があります。したがって、maven アーティファクトも一致しない場合があります。
  • Hadoop 独自のコードのセキュリティ修正。

Apache Hadoop 3.3.4 以前のユーザーはこのリリースにアップグレードする必要があります。

すべてのユーザーに、リリース 3.3.4 以降の 主な変更の概要 を参照することをお勧めします。

以前の 3.3.4 リリース以降のバグ修正、改善、およびその他の拡張機能については、リリース ノート変更ログ を確認してください。

Azure ABFS: ストリームのプレフェッチに対する重大な修正

ABFS コネクタには、重大なバグ修正 https://issues.apache.org/jira/browse/HADOOP-18546 があります: ABFS. abfs ストリームの close() において進行中の読み取りのリストの削除を無効化します。

Hadoop リリース 3.3.2 以降の abfs コネクタを使用するすべてのユーザーは、このリリースにアップグレードするか、fs.azure.readaheadqueue.depth0 に設定してプレフェッチを無効にする必要があります。

ApacheHadoop3.3ラインのリリースです。

3.3.3 以降の少数のセキュリティ修正と重要な統合修正が含まれています。

Apache Hadoop 3.3.3 のユーザーはこのリリースにアップグレードする必要があります。

Hadoop 2.x と Hadoop 3.2 のユーザーもまた、3.3.x ラインにアップグレードする必要があります。機能の拡張に加え、これは重大なセキュリティ/データ整合性問題以外のものに対して修正を受け取る唯一のブランチです。

ユーザーは、リリース 3.3.3 以降の 主な変更の概要 を参照することをお勧めします。前の 3.3.3 リリース以降のバグ修正、改善、およびその他の拡張機能については、リリース ノート変更ログ を確認してください。

これは、Apache Hadoop 3.2 ラインの 3 番目の安定したリリースです。

3.2.3 以降の 153 個のバグ修正、改善、および拡張機能が含まれています。

ユーザーは、3.2.3 以降の 主な変更の概要 を参照することをお勧めします。前の 3.2.3 リリース以降の 153 個のバグ修正、改善、およびその他の拡張機能については、リリース ノート変更ログ を確認してください。

モジュール

プロジェクトには次のモジュールが含まれています。

  • Hadoop Common: 他の Hadoop モジュールをサポートする一般的なユーティリティ。
  • Hadoop Distributed File System (HDFS™): アプリケーション データへの高スループット アクセスを提供する分散ファイル システムです。
  • Hadoop YARN: ジョブスケジューリングとクラスターリソース管理のためのフレームワーク。
  • Hadoop MapReduce: 大規模なデータセットを並列処理するための YARN ベースのシステム。

Hadoop を使用している人

さまざまな企業や組織が調査や運用に Hadoop を使用しています。ユーザーは Hadoop の PoweredBy ウィキページ に自身を追加することを推奨されています。

関連プロジェクト

Apache の Hadoop 関連プロジェクトには以下が含まれます

  • Ambari™: Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig、Sqoop を含む、Apache Hadoop クラスターのプロビジョニング、管理、監視のための Web ベースのツール。Ambari はまた、ヒートマップなどのクラスターの正常性を見るためのダッシュボード、および MapReduce、Pig、Hive アプリケーションを視覚的に表示する機能と、それらのパフォーマンス特性をユーザーフレンドリーな方法で診断する機能も提供します。
  • Avro™: データシリアル化システム。
  • Cassandra™: 単一障害点のないスケーラブルなマルチマスターデータベース。
  • Chukwa™: 大規模な分散システムを管理するためのデータ収集システム。
  • HBase™: 大規模なテーブルの構造化データストレージをサポートする、スケーラブルな分散データベース。
  • Hive™: データの要約とアドホッククエリを提供するデータウェアハウスインフラストラクチャ。
  • Mahout™: スケーラブルな機械学習およびデータマイニングライブラリ。
  • Ozone™: Hadoop 用のスケーラブル、冗長、分散オブジェクトストア。
  • Pig™: 並列計算用の高レベルデータフロー言語および実行フレームワーク。
  • Spark™: Hadoop データ用の高速で汎用的な計算エンジン。Spark は、ETL、機械学習、ストリーム処理、グラフ計算などの幅広いアプリケーションをサポートするシンプルで表現力豊かなプログラミングモデルを提供します。
  • Submarine: エンジニアやデータサイエンティストが分散クラスターで機械学習やディープラーニングのワークロードを実行することを可能にする統合 AI プラットフォーム。
  • Tez™: Hadoop YARN に基づいて構築された汎用データフロープログラミングフレームワークで、バッチとインタラクティブの両方のユースケースでデータを処理するためのタスクの任意の DAG を実行するための強力で柔軟なエンジンを提供します。Tez は Hadoop™ MapReduce を基盤の実行エンジンとして置き換えるために、Hadoop エコシステムの Hive™、Pig™、およびその他のフレームワーク、およびその他の商用ソフトウェア(例: ETL ツール)によって採用されています。
  • ZooKeeper™: 分散アプリケーション用の高性能調整サービス。