概要

メトリクスは、監視、パフォーマンスチューニング、およびデバッグに使用される、Hadoopデーモンによって公開される統計情報です。デフォルトで利用可能なメトリクスは多数あり、トラブルシューティングに非常に役立ちます。このページでは、利用可能なメトリクスの詳細を示します。

各セクションでは、メトリクスがグループ化されている各コンテキストについて説明します。

Metrics 2.0フレームワークのドキュメントはこちらです。

jvmコンテキスト

JvmMetrics

各メトリクスレコードには、追加情報として、ProcessName、SessionID、Hostnameなどのタグが含まれています。

名前 説明
MemNonHeapUsedM 現在使用中の非ヒープメモリ(MB単位)
MemNonHeapCommittedM 現在コミット済みの非ヒープメモリ(MB単位)
MemNonHeapMaxM 最大非ヒープメモリサイズ(MB単位)
MemHeapUsedM 現在使用中のヒープメモリ(MB単位)
MemHeapCommittedM 現在コミット済みのヒープメモリ(MB単位)
MemHeapMaxM 最大ヒープメモリサイズ(MB単位)
MemMaxM 最大メモリサイズ(MB単位)
ThreadsNew 現在のNEWスレッド数
ThreadsRunnable 現在のRUNNABLEスレッド数
ThreadsBlocked 現在のBLOCKEDスレッド数
ThreadsWaiting 現在のWAITINGスレッド数
ThreadsTimedWaiting 現在のTIMED_WAITINGスレッド数
ThreadsTerminated 現在のTERMINATEDスレッド数
GcInfo GCの種類でグループ化された、合計GC回数とGC時間(ミリ秒単位)。例) GcCountPS Scavenge=6、GCTimeMillisPS Scavenge=40、GCCountPS MarkSweep=0、GCTimeMillisPS MarkSweep=0
GcCount 合計GC回数
GcTimeMillis 合計GC時間(ミリ秒単位)
LogFatal FATALログの総数
LogError ERRORログの総数
LogWarn WARNログの総数
LogInfo INFOログの総数
GcNumWarnThresholdExceeded GC警告しきい値を超過した回数
GcNumInfoThresholdExceeded GC情報しきい値を超過した回数
GcTotalExtraSleepTime 合計GC追加スリープ時間(ミリ秒単位)
GcTimePercentage dfs.namenode.gc.time.monitor.enableがtrueに設定されている場合、監視ウィンドウ内でJVMがGC一時停止に費やした時間のパーセンテージ(0..100)。dfs.namenode.gc.time.monitor.sleep.interval.msを使用して、スリープ間隔をミリ秒単位で指定します。dfs.namenode.gc.time.monitor.observation.window.msを使用して、監視ウィンドウをミリ秒単位で指定します。

rpcコンテキスト

rpc

各メトリクスレコードには、追加情報として、Hostnameやポート(サーバーがバインドされている番号)などのタグが含まれています。rpc.metrics.timeunit構成を使用して、RPCメトリクスの時間単位を構成できます。RPCメトリクスに使用されるデフォルトの時間単位はミリ秒です(以下の説明のとおり)。

名前 説明
ReceivedBytes 受信したバイト数の合計
SentBytes 送信したバイト数の合計
RpcQueueTimeNumOps RPC呼び出しの合計数
RpcQueueTimeAvgTime 平均キュー時間(ミリ秒単位)
RpcLockWaitTimeNumOps RPC呼び出しの合計数(RpcQueueTimeNumOpsと同じ)
RpcLockWaitTimeAvgTime ロック取得の待機時間の平均(ミリ秒単位)
RpcProcessingTimeNumOps RPC呼び出しの合計数(RpcQueueTimeNumOpsと同じ)
RpcProcessingAvgTime 平均処理時間(ミリ秒単位)
RpcAuthenticationFailures 認証失敗の合計数
RpcAuthenticationSuccesses 認証成功の合計数
RpcAuthorizationFailures 認証失敗の合計数
RpcAuthorizationSuccesses 認証成功の合計数
NumOpenConnections 現在のオープン接続数
CallQueueLength コールキューの現在の長さ
numDroppedConnections 切断された接続の合計数
rpcQueueTimenumsNumOps rpc.metrics.quantile.enableがtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcQueueTimenums50thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPCキュー時間の50パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcQueueTimenums75thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPCキュー時間の75パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcQueueTimenums90thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPCキュー時間の90パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcQueueTimenums95thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPCキュー時間の95パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcQueueTimenums99thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPCキュー時間の99パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcProcessingTimenumsNumOps rpc.metrics.quantile.enableがtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcProcessingTimenums50thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPC処理時間の50パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcProcessingTimenums75thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPC処理時間の75パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcProcessingTimenums90thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の90パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcProcessingTimenums90thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の95パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcProcessingTimenums95thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の99パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcProcessingTimenums99thPercentileLatency rpc.metrics.quantile.enableがtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervalsで指定します。
rpcLockWaitTimenumsNumOps rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の50パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcLockWaitTimenums50thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の75パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcLockWaitTimenums75thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の90パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcLockWaitTimenums90thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の95パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcLockWaitTimenums95thPercentileLatency rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の99パーセンタイル値をミリ秒単位(num秒間隔)で表示します。numrpc.metrics.percentiles.intervals で指定されます。
rpcLockWaitTimenums99thPercentileLatency TotalRequests
RPCサーバーが処理したリクエストの総数。 TotalRequestsPerSeconds

RPCサーバーが1秒あたりに処理したリクエストの総数。

RetryCache/NameNodeRetryCache

名前 説明
RetryCacheメトリクスはNameNodeのフェイルオーバーを監視するのに役立ちます。各メトリクスレコードにはHostnameタグが含まれています。 CacheHit
RetryCacheがヒットした総数 CacheCleared
RetryCacheがクリアされた総数 CacheUpdated

RetryCacheが更新された総数

FairCallQueue

名前 説明
FairCallQueueメトリクスは、FairCallQueueが有効な場合にのみ存在します。各メトリクスは、各優先度レベルごとに存在します。 FairCallQueueSize_pPriority
優先度キュー内の現在の呼び出し数 FairCallQueueOverflowedCalls_pPriority

優先度キューでオーバーフローした呼び出しの総数

DecayRpcSchedulerDetailed

名前 説明
DecayRpcSchedulerDetailedメトリクスは、DecayRpcSchedulerが使用されている(FairCallQueueが有効になっている)場合にのみ存在します。これはFairCallQueueメトリクスに追加されます。各優先度レベルについて、rpcqueueとrpcprocessingの詳細メトリクスが公開されます。 DecayRPCSchedulerPriority.Priority.RpcQueueTime
各優先度のRpcQueueTimeメトリクス DecayRPCSchedulerPriority.Priority.RpcProcessingTime

各優先度のRpcProcessingTimeメトリクス

rpcdetailedコンテキスト

rpcdetailedコンテキストのメトリクスは、RPCレイヤーによって統一された方法で公開されます。各RPCに対して、その名前を基に2つのメトリクスが公開されます。「(RPCメソッド名)NumOps」という名前のメトリクスは、メソッド呼び出しの総数を示し、「(RPCメソッド名)AvgTime」という名前のメトリクスは、メソッド呼び出しの平均ターンアラウンドタイムをミリ秒単位で示します。AvgTimeメトリクスには、データ構造に対するロックの取得を待機する時間は含まれないことに注意してください (RpcLockWaitTimeAvgTime を参照)。

rpcdetailed

各メトリクスレコードには、メトリクスに加えて、ホスト名やポート(サーバーがバインドされている番号)などのタグが追加情報として含まれています。

名前 説明
呼び出されないRPCに関するメトリクスは、メトリクスレコードには含まれません。 methodnameNumOps
メソッドが呼び出された合計回数 methodnameAvgTime

メソッドの平均ターンアラウンドタイム(ミリ秒単位)

dfsコンテキスト

namenode

名前 説明
各メトリクスレコードには、メトリクスに加えて、ProcessName、SessionId、Hostnameなどのタグが追加情報として含まれています。 CreateFileOps
作成されたファイルの総数 FilesCreated
作成またはmkdir操作によって作成されたファイルとディレクトリの総数 FilesAppended
追加されたファイルの総数 GetBlockLocations
getBlockLocations操作の総数 FilesRenamed
名前変更操作の総数(名前変更されたファイル/ディレクトリの数ではない) GetListingOps
ディレクトリリスト操作の総数 DeleteFileOps
削除操作の総数 FilesDeleted
削除または名前変更操作によって削除されたファイルとディレクトリの総数 FileInfoOps
getFileInfoおよびgetLinkFileInfo操作の総数 AddBlockOps
成功したaddBlock操作の総数 GetAdditionalDatanodeOps
getAdditionalDatanode操作の総数 CreateSymlinkOps
createSymlink操作の総数 GetLinkTargetOps
getLinkTarget操作の総数 FilesInGetListingOps
ディレクトリリスト操作によってリストされたファイルとディレクトリの総数 SuccessfulReReplications
成功したブロックの再レプリケーションの総数 NumTimesReReplicationNotScheduled
ブロックの再レプリケーションのスケジュールに失敗した回数の合計 TimeoutReReplications
タイムアウトしたブロックの再レプリケーションの総数 AllowSnapshotOps
allowSnapshot操作の総数 DisallowSnapshotOps
disallowSnapshot操作の総数 CreateSnapshotOps
createSnapshot操作の総数 DeleteSnapshotOps
deleteSnapshot操作の総数 RenameSnapshotOps
renameSnapshot操作の総数 ListSnapshottableDirOps
snapshottableDirectoryStatus操作の総数 SnapshotDiffReportOps
getSnapshotDiffReport操作の総数 TransactionsNumOps
ジャーナルトランザクションの総数 TransactionsAvgTime
ジャーナルトランザクションの平均時間(ミリ秒単位) SyncsNumOps
ジャーナル同期の総数 SyncsAvgTime
ジャーナル同期の平均時間(ミリ秒単位) SyncsTimenums(50/75/90/95/99)thPercentileLatency
ジャーナル同期時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 TransactionsBatchedInSync
同期でバッチ処理されたジャーナルトランザクションの総数 TransactionsBatchedInSyncnums(50/75/90/95/99)thPercentileCount
バッチ処理されたジャーナルトランザクション数の50/75/90/95/99パーセンタイル値(num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 StorageBlockReportNumOps
DataNode内の個々のストレージからのブロックレポート処理の総数 StorageBlockReportAvgTime
ブロックレポート処理の平均時間(ミリ秒単位) StorageBlockReportnums(50/75/90/95/99)thPercentileLatency
ブロックレポート処理時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 CacheReportNumOps
DataNodeからのキャッシュレポート処理の総数 CacheReportAvgTime
キャッシュレポート処理の平均時間(ミリ秒単位) CacheReportnums(50/75/90/95/99)thPercentileLatency
キャッシュされたレポート処理時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 SafeModeTime
FSNameSystemの起動から、セーフモードが最後に終了した時間までの間隔(ミリ秒単位)。(セーフモードでの時間と必ずしも等しくはありません。 HDFS-5156 を参照) FsImageLoadTime
起動時のFSイメージの読み込み時間(ミリ秒単位) GetEditNumOps
SecondaryNameNodeからのエディットダウンロードの総数 GetEditAvgTime
エディットダウンロードの平均時間(ミリ秒単位) GetImageNumOps
SecondaryNameNodeからのfsimageダウンロードの総数 GetImageAvgTime
fsimageダウンロードの平均時間(ミリ秒単位) PutImageNumOps
SecondaryNameNodeへのfsimageアップロードの総数 PutImageAvgTime
fsimageアップロードの平均時間(ミリ秒単位) TotalFileOps
実行されたファイル操作の総数 NNStartedTimeInMillis
NameNodeの開始時間(ミリ秒単位) GenerateEDEKTimeNumOps
EDEK生成の総数 GenerateEDEKTimeAvgTime
EDEK生成の平均時間(ミリ秒単位) GenerateEDEKTimenums(50/75/90/95/99)thPercentileLatency
EDEK生成に費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 WarmUpEDEKTimeNumOps
EDEKウォームアップの総数 WarmUpEDEKTimeAvgTime
EDEKウォームアップの平均時間(ミリ秒単位) WarmUpEDEKTimenums(50/75/90/95/99)thPercentileLatency
EDEKウォームアップに費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 ResourceCheckTimenums(50/75/90/95/99)thPercentileLatency
NameNodeリソースチェックのレイテンシーの50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 EditLogTailTimeNumOps
スタンバイNameNodeがエディットログを追跡した回数の合計 EditLogTailTimeAvgTime
スタンバイNameNodeがエディットログの追跡に費やした平均時間(ミリ秒単位) EditLogTailTimenums(50/75/90/95/99)thPercentileLatency
スタンバイNameNodeによるエディットログの追跡に費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 EditLogFetchTimeNumOps
スタンバイNameNodeがジャーナルノードからリモートエディットストリームをフェッチした回数の合計 EditLogFetchTimeAvgTime
スタンバイNameNodeがジャーナルノードからリモートエディットストリームをフェッチするのに費やした平均時間(ミリ秒単位) EditLogFetchTimenums(50/75/90/95/99)thPercentileLatency
スタンバイNameNodeによるジャーナルノードからのエディットストリームのフェッチに費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 NumEditLogLoadedNumOps
スタンバイNameNodeがエディットをロードした回数の合計 NumEditLogLoadedAvgCount
各エディットログの追跡でスタンバイNameNodeによってロードされたエディットの平均数 NumEditLogLoadednums(50/75/90/95/99)thPercentileCount
各エディットログの追跡でスタンバイNameNodeによってロードされたエディット数の50/75/90/95/99パーセンタイル値(num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 EditLogTailIntervalNumOps
スタンバイNameNodeによるエディットログの追跡間の間隔の合計数 EditLogTailIntervalAvgTime
スタンバイNameNodeによるエディットログの追跡間の間隔の平均時間(ミリ秒単位) スタンバイ NameNode による編集ログの末尾処理間の時間の 50/75/90/95/99 パーセンタイル値(ミリ秒単位、num 秒の粒度)。パーセンタイル測定はデフォルトではオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。
PendingEditsCount 保留中の編集の現在の数

FSNamesystem

各メトリクスレコードには、メトリクスに加えて、HAState や Hostname などのタグが追加情報として含まれています。

名前 説明
MissingBlocks 欠落しているブロックの現在の数
ExpiredHeartbeats 期限切れになったハートビートの合計数
TransactionsSinceLastCheckpoint 最後のチェックポイントからのトランザクションの合計数
TransactionsSinceLastLogRoll 最後の編集ログロールからのトランザクションの合計数
LastWrittenTransactionId 編集ログに書き込まれた最後のトランザクション ID
LastCheckpointTime 最後のチェックポイントからのエポックからのミリ秒単位の時間
CapacityTotal DataNode の現在の生の容量(バイト単位)
CapacityTotalGB DataNode の現在の生の容量(GB 単位)
CapacityUsed すべての DataNode で現在使用されている容量(バイト単位)
CapacityUsedGB すべての DataNode で現在使用されている容量(GB 単位)
CapacityRemaining 現在の残り容量(バイト単位)
CapacityRemainingGB 現在の残り容量(GB 単位)
CapacityUsedNonDFS DataNode が DFS 以外の目的で使用している現在のスペース(バイト単位)
TotalLoad 現在の接続数
SnapshottableDirectories スナップショット可能なディレクトリの現在の数
スナップショット 現在のスナップショット数
NumEncryptionZones 暗号化ゾーンの現在の数
BlocksTotal システムに割り当てられたブロックの現在の数
FilesTotal ファイルとディレクトリの現在の数
PendingReplicationBlocks レプリケートが保留中のブロックの現在の数
UnderReplicatedBlocks レプリケートが不足しているブロックの現在の数
CorruptBlocks 破損したレプリカがあるブロックの現在の数。
ScheduledReplicationBlocks レプリケーションがスケジュールされているブロックの現在の数
PendingDeletionBlocks 削除が保留中のブロックの現在の数
ExcessBlocks 余分なブロックの現在の数
PostponedMisreplicatedBlocks (HA のみ) レプリケートが延期されたブロックの現在の数
PendingDataNodeMessageCount (HA のみ) スタンバイ NameNode で後で処理するために保留中のブロック関連メッセージの現在の数
MillisSinceLastLoadedEdits (HA のみ) スタンバイ NameNode が最後に編集ログをロードしてからの時間(ミリ秒単位)。アクティブ NameNode では 0 に設定されます。
BlockCapacity ブロック容量の現在の数
NumLiveDataNodes 現在ライブ状態のデータノードの数
NumDeadDataNodes 現在デッド状態のデータノードの数
NumDecomLiveDataNodes 廃止され、現在ライブ状態のデータノードの数
NumDecomDeadDataNodes 廃止され、現在デッド状態のデータノードの数
NumDecommissioningDataNodes 廃止状態のデータノードの数
VolumeFailuresTotal すべての DataNode でのボリューム障害の合計数
EstimatedCapacityLostTotal ボリューム障害による損失容量の合計の見積もり
StaleDataNodes 遅延したハートビートが原因で古いとマークされた DataNode の現在の数
NumStaleStorages コンテンツが古いとマークされたストレージの数 (NameNode の再起動/フェイルオーバー後、最初のブロックレポートを受信する前)
MissingReplOneBlocks レプリケーション係数 1 の欠落しているブロックの現在の数
HighestPriorityLowRedundancyReplicatedBlocks 損失リスクが最も高い(0 または 1 レプリカを持つ)、破損していない、冗長性の低いレプリケートされたブロックの現在の数。最も高い優先度で復旧されます。
HighestPriorityLowRedundancyECBlocks 損失リスクが最も高い、破損していない、冗長性の低い EC ブロックの現在の数。最も高い優先度で復旧されます。
NumFilesUnderConstruction 構築中のファイルの現在の数
NumActiveClients リースを保持しているアクティブクライアントの現在の数
HAState (HA のみ) NameNode の現在の状態: 初期化中、アクティブ、スタンバイ、または停止状態
FSState ファイルシステムの現在の状態: セーフモードまたは操作中
LockQueueLength FSNameSystem ロックの取得を待機しているスレッドの数
ReadLockLongHoldCount 読み取りロックがしきい値よりも長く保持された回数
WriteLockLongHoldCount 書き込みロックがしきい値よりも長く保持された回数
TotalSyncCount 編集ログによって実行された同期操作の合計数
TotalSyncTimes 同期操作でさまざまな編集ログによって費やされた合計ミリ秒数
NameDirSize NameNode 名前ディレクトリのサイズ(バイト単位)
NumTimedOutPendingReconstructions タイムアウトした再構成の数。タイムアウトした一意のブロックの数ではありません。
NumInMaintenanceLiveDataNodes メンテナンス状態のライブデータノードの数
NumInMaintenanceDeadDataNodes メンテナンス状態のデッドデータノードの数
NumEnteringMaintenanceDataNodes メンテナンス状態に入ろうとしているデータノードの数
FSN(Read/Write)LockOperationNameNanosNumOps 操作によるロック取得の合計数
FSN(Read/Write)LockOperationNameNanosAvgTime 操作によるロック保持の平均時間(ナノ秒単位)
FSN(Read/Write)LockOverallNanosNumOps すべての操作によるロック取得の合計数
FSN(Read/Write)LockOverallNanosAvgTime すべての操作によるロック保持の平均時間(ナノ秒単位)

JournalNode

JournalNode の視点からのジャーナルのサーバー側メトリクス。各メトリクスレコードには、メトリクスに加えて、追加情報として Hostname タグが含まれています。

名前 説明
Syncs60sNumOps 同期操作の数 (1 分の粒度)
Syncs60s50thPercentileLatencyMicros 同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、1 分の粒度)
Syncs60s75thPercentileLatencyMicros 同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、1 分の粒度)
Syncs60s90thPercentileLatencyMicros 同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、1 分の粒度)
Syncs60s95thPercentileLatencyMicros 同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、1 分の粒度)
Syncs60s99thPercentileLatencyMicros 同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、1 分の粒度)
Syncs300sNumOps 同期操作の数 (5 分の粒度)
Syncs300s50thPercentileLatencyMicros 同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、5 分の粒度)
Syncs300s75thPercentileLatencyMicros 同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、5 分の粒度)
Syncs300s90thPercentileLatencyMicros 同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、5 分の粒度)
Syncs300s95thPercentileLatencyMicros 同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、5 分の粒度)
Syncs300s99thPercentileLatencyMicros 同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、5 分の粒度)
Syncs3600sNumOps 同期操作の数 (1 時間の粒度)
Syncs3600s50thPercentileLatencyMicros 同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、1 時間の粒度)
Syncs3600s75thPercentileLatencyMicros 同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、1 時間の粒度)
Syncs3600s90thPercentileLatencyMicros 同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、1 時間の粒度)
Syncs3600s95thPercentileLatencyMicros 同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、1 時間の粒度)
Syncs3600s99thPercentileLatencyMicros 同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、1 時間の粒度)
NumTransactionsBatchedInSync60sNumOps 同期操作でトランザクションがバッチ処理された回数 (1 分の粒度)
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (1 分の粒度)
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (1 分の粒度)
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (1 分の粒度)
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (1 分の粒度)
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (1 分の粒度)
NumTransactionsBatchedInSync300sNumOps 同期操作でトランザクションがバッチ処理された回数 (5 分の粒度)
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (5 分の粒度)
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (5 分の粒度)
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (5 分の粒度)
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (5 分の粒度)
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (5 分の粒度)
NumTransactionsBatchedInSync3600sNumOps 同期操作でトランザクションがバッチ処理された回数 (1 時間の粒度)
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (1 時間の粒度)
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (1 時間の粒度)
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (1 時間の粒度)
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (1 時間の粒度)
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros 同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (1 時間の粒度)
BatchesWritten 起動以降に書き込まれたバッチの合計数
TxnsWritten 起動以降に書き込まれたトランザクションの合計数
BytesWritten 起動以降に書き込まれたバイトの合計数
BatchesWrittenWhileLagging このノードが遅延していたときに書き込まれたバッチの合計数
LastWriterEpoch 現在の書き込み側のエポック番号
CurrentLagTxns この JournalNode が遅延しているトランザクションの数
LastWrittenTxId この JournalNode に保存されている最も高いトランザクション ID
LastPromisedEpoch このノードが低いエポックを受け入れないことを約束した最後のエポック番号。約束がされていない場合は 0
LastJournalTimestamp 最後に正常に書き込まれたトランザクションのタイムスタンプ
TxnsServedViaRpc RPC メカニズムを介して提供されたトランザクションの数
BytesServedViaRpc RPC メカニズムを介して提供されたバイト数
RpcRequestCacheMissAmountNumMisses キャッシュにデータがないために提供できなかった RPC リクエストの数
RpcRequestCacheMissAmountAvgTxns リクエストがキャッシュを逃したトランザクションの平均数。たとえば、トランザクション ID 10 がリクエストされ、キャッシュの最も古いトランザクションが ID 15 の場合、値 5 がこの平均に追加されます
RpcEmptyResponses 編集内容が 0 個で返された RPC リクエストの数

datanode

各メトリクスレコードには、メトリクスに加えて、SessionId や Hostname などのタグが追加情報として含まれています。

名前 説明
BytesWritten DataNode に書き込まれたバイトの合計数
BytesRead DataNode から読み取られたバイトの合計数
ReadTransferRateNumOps データの読み取り転送の合計数
ReadTransferRateAvgTime DataNode から読み取られたバイトの平均転送速度(1 秒あたりのバイト数で測定)。
ReadTransferRatenums(50/75/90/95/99)thPercentileRate DataNode から読み取られたバイトの転送速度の 50/75/90/95/99 パーセンタイル値(1 秒あたりのバイト数で測定)。
BlocksWritten DataNode に書き込まれたブロックの合計数
BlocksRead DataNode から読み取られたブロックの合計数
BlocksReplicated レプリケートされたブロックの合計数
BlocksRemoved 削除されたブロックの合計数
BlocksVerified 検証されたブロックの合計数
BlockVerificationFailures 検証失敗の合計数
BlocksCached キャッシュされたブロックの合計数
BlocksUncached キャッシュされていないブロックの合計数
ReadsFromLocalClient ローカルクライアントからの読み取り操作の合計数
ReadsFromRemoteClient リモートクライアントからの読み取り操作の総数
ローカルクライアントからの書き込み ローカルクライアントからの書き込み操作の総数
リモートクライアントからの書き込み リモートクライアントからの書き込み操作の総数
ブロックのローカルパス情報取得 ブロックのローカルパス名を取得する操作の総数
RAMディスクへのブロック書き込み メモリに書き込まれたブロックの総数
RAMディスクへのブロック書き込みフォールバック メモリに書き込まれたが満たされなかった(ディスクへのフェイルオーバー)ブロックの総数
RAMディスクへのバイト書き込み メモリに書き込まれたバイトの総数
RAMディスクからのブロック読み取りヒット数 メモリ内のブロックが読み取られた回数の総数
RAMディスクから退避されたブロック数 メモリ内で退避されたブロックの総数
読み取りなしにRAMディスクから退避されたブロック数 メモリから読み取られることなく退避されたブロックの総数
RAMディスクブロック退避ウィンドウ時間(ミリ秒)操作数 メモリ内で退避されたブロック数
RAMディスクブロック退避ウィンドウ時間(ミリ秒)平均時間 メモリ内のブロックが退避されるまでの平均時間(ミリ秒)
RamDiskBlocksEvictionWindowsnums(50/75/90/95/99)thPercentileLatency メモリへの書き込みと退避の間のレイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
RAMディスクへの遅延永続化されたブロック数 遅延ライターによってディスクに書き込まれたブロックの総数
遅延永続化前に削除されたRAMディスクブロック数 ディスクに永続化される前にアプリケーションによって削除されたブロックの総数
RAMディスクへの遅延永続化されたバイト数 遅延ライターによってディスクに書き込まれたバイトの総数
RAMディスクへの遅延永続化ウィンドウ時間(ミリ秒)操作数 遅延ライターによってディスクに書き込まれたブロック数
RAMディスクへの遅延永続化ウィンドウ時間(ミリ秒)平均時間 遅延ライターによってディスクに書き込まれたブロックの平均時間(ミリ秒)
RamDiskBlocksLazyPersistWindowsnums(50/75/90/95/99)thPercentileLatency メモリへの書き込みとディスクへの永続化の間のレイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
Fsync回数 fsyncの総数
ボリューム障害 発生したボリューム障害の総数
ブロック読み取り操作数 読み取り操作の総数
ブロック読み取り操作平均時間 読み取り操作の平均時間(ミリ秒)
ブロック書き込み操作数 書き込み操作の総数
ブロック書き込み操作平均時間 書き込み操作の平均時間(ミリ秒)
ブロックチェックサム操作数 ブロックチェックサム操作の総数
ブロックチェックサム操作平均時間 ブロックチェックサム操作の平均時間(ミリ秒)
ブロックコピー操作数 ブロックコピー操作の総数
ブロックコピー操作平均時間 ブロックコピー操作の平均時間(ミリ秒)
ブロック置換操作数 ブロック置換操作の総数
ブロック置換操作平均時間 ブロック置換操作の平均時間(ミリ秒)
ハートビート操作数 ハートビートの総数
ハートビート平均時間 ハートビートの平均時間(ミリ秒)
HeartbeatsForServiceId-NNIdNumOps 特定のサービスIDおよびNNIDへのハートビートの総数
HeartbeatsForServiceId-NNIdAvgTime 特定のサービスIDおよびNNIDへのハートビートの平均時間(ミリ秒)
ハートビート合計操作数 ハートビートの総数(HeartbeatsNumOpsの複製)
ハートビート合計平均時間 ハートビートの合計平均時間(ミリ秒)
HeartbeatsTotalForServiceId-NNIdNumOps 特定のサービスIDおよびNNIDへのハートビートの総数(HeartbeatsForServiceId-NNIdNumOpsの複製)
HeartbeatsTotalForServiceId-NNIdAvgTime 特定のサービスIDおよびNNIDへのハートビートの合計平均時間(ミリ秒)
ライフライン操作数 ライフラインメッセージの総数
ライフライン平均時間 ライフラインメッセージ処理の平均時間(ミリ秒)
LifelinesForServiceId-NNIdNumOps 特定のサービスIDおよびNNIDへのライフラインメッセージの総数
LifelinesForServiceId-NNIdAvgTime 特定のサービスIDおよびNNIDへのライフラインメッセージ処理の平均時間(ミリ秒)
ブロックレポート操作数 ブロックレポート操作の総数
ブロックレポート平均時間 ブロックレポート操作の平均時間(ミリ秒)
BlockReportsServiceId-NNIdNumOps 特定のサービスIDおよびNNIDへのブロックレポート操作の総数
BlockReportsServiceId-NNIdAvgTime 特定のサービスIDおよびNNIDへのブロックレポート操作の平均時間(ミリ秒)
インクリメンタルブロックレポート操作数 インクリメンタルブロックレポート操作の総数
インクリメンタルブロックレポート平均時間 インクリメンタルブロックレポート操作の平均時間(ミリ秒)
IncrementalBlockReportsServiceId-NNIdNumOps 特定のサービスIDおよびNNIDへのインクリメンタルブロックレポート操作の総数
IncrementalBlockReportsServiceId-NNIdAvgTime 特定のサービスIDおよびNNIDへのインクリメンタルブロックレポート操作の平均時間(ミリ秒)
キャッシュレポート操作数 キャッシュレポート操作の総数
キャッシュレポート平均時間 キャッシュレポート操作の平均時間(ミリ秒)
パケットACKラウンドトリップ時間ナノ秒操作数 ACKラウンドトリップの総数
パケットACKラウンドトリップ時間ナノ秒平均時間 ACK送信から受信までの平均時間(ダウンストリームACK時間を引いたもの)(ナノ秒)
PacketAckRoundTripTimeNanosnums(50/75/90/95/99)thPercentileLatency ACK送信から受信までのレイテンシの50/75/90/95/99パーセンタイル(ダウンストリームACK時間を引いたもの)(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
フラッシュナノ秒操作数 フラッシュの総数
フラッシュナノ秒平均時間 フラッシュの平均時間(ナノ秒)
FlushNanosnums(50/75/90/95/99)thPercentileLatency フラッシュ時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
Fsyncナノ秒操作数 fsyncの総数
Fsyncナノ秒平均時間 fsyncの平均時間(ナノ秒)
FsyncNanosnums(50/75/90/95/99)thPercentileLatency fsync時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
ネットワークでブロックされた送信データパケット時間ナノ秒操作数 送信パケットの総数
ネットワークでブロックされた送信データパケット時間ナノ秒平均時間 送信パケットの平均待ち時間(ナノ秒)
SendDataPacketBlockedOnNetworkNanosnums(50/75/90/95/99)thPercentileLatency 送信パケットの待ち時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
送信データパケット転送時間ナノ秒操作数 送信パケットの総数
送信データパケット転送時間ナノ秒平均時間 送信パケットの平均転送時間(ナノ秒)
SendDataPacketTransferNanosnums(50/75/90/95/99)thPercentileLatency 送信パケットの転送時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
合計書き込み時間 書き込み操作に費やされた合計時間(ミリ秒)
合計読み取り時間 読み取り操作に費やされた合計時間(ミリ秒)
リモートから読み取られたバイト数 リモートクライアントによって読み取られたバイト数
リモートから書き込まれたバイト数 リモートクライアントによって書き込まれたバイト数
BPサービスアクター情報 ブロックプールサービスアクターに関する情報
保留中のIBRのブロック数 保留中のインクリメンタルブロックレポート(IBR)内のブロック数
保留中のIBRで受信中のブロック数 保留中のインクリメンタルブロックレポート(IBR)内の受信ステータスのブロック数
保留中のIBRで受信済みのブロック数 保留中のインクリメンタルブロックレポート(IBR)内の受信済みステータスのブロック数
保留中のIBRで削除されたブロック数 保留中のインクリメンタルブロックレポート(IBR)内の削除済みステータスのブロック数
EC復元タスク イレージャーコーディング復元タスクの総数
EC失敗した復元タスク イレージャーコーディング失敗した復元タスクの総数
EC無効な復元タスク イレージャーコーディング無効な復元タスクの総数
ECデコード時間ナノ秒 デコードタスクで費やされたナノ秒の合計
EC復元読み取りバイト数 イレージャーコーディングワーカーによって読み取られたバイトの総数
EC復元書き込みバイト数 イレージャーコーディングワーカーによって書き込まれたバイトの総数
EC復元リモート読み取りバイト数 イレージャーコーディングワーカーによってリモート読み取りされたバイトの総数

FsVolume

ボリュームごとのメトリクスには、DatanodeボリュームIO関連の統計が含まれています。ボリュームごとのメトリクスはデフォルトでオフになっています。dfs.datanode.fileio.profiling.percentage.fractionを1〜100の整数値に設定することで有効にできます。この値を0に設定すると、プロファイリングが無効になることを意味します。ただし、ボリュームごとのメトリクスを有効にすると、パフォーマンスに影響を与える可能性があります。各メトリクスレコードには、メトリクスに加えて、ホスト名などの追加情報を示すタグが含まれています。

名前 説明
合計メタデータ操作数 メタデータ操作の総数(単調増加)。メタデータ操作には、stat、list、mkdir、delete、move、open、およびposix_fadviseが含まれます。
メタデータ操作レート操作数 メトリクスの間隔時間内のメタデータ操作の数
メタデータ操作レート平均時間 メタデータ操作の平均時間(ミリ秒)
MetadataOperationLatencynums(50/75/90/95/99)thPercentileLatency メタデータ操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
合計データファイルIO数 データファイルIO操作の総数(単調増加)
データファイルIOレート操作数 メトリクスの間隔時間内のデータファイルIO操作の数
データファイルIOレート平均時間 データファイルIO操作の平均時間(ミリ秒)
DataFileIoLatencynums(50/75/90/95/99)thPercentileLatency データファイルIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
フラッシュIOレート操作数 メトリクスの間隔時間内のファイルフラッシュIO操作の数
フラッシュIOレート平均時間 ファイルフラッシュIO操作の平均時間(ミリ秒)
FlushIoLatencynums(50/75/90/95/99)thPercentileLatency ファイルフラッシュIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
同期IOレート操作数 メトリクスの間隔時間内のファイル同期IO操作の数
同期IOレート平均時間 ファイル同期IO操作の平均時間(ミリ秒)
SyncIoLatencynums(50/75/90/95/99)thPercentileLatency ファイル同期IO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
読み取りIOレート操作数 メトリクスの間隔時間内のファイル読み取りIO操作の数
読み取りIOレート平均時間 ファイル読み取りIO操作の平均時間(ミリ秒)
ReadIoLatencynums(50/75/90/95/99)thPercentileLatency ファイル読み取りIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervalsで指定します。
書き込みIOレート操作数 メトリクスの間隔時間内のファイル書き込みIO操作の数
書き込みIOレート平均時間 ファイル書き込みIO操作の平均時間(ミリ秒)
WriteIoLatencynums(50/75/90/95/99)thPercentileLatency ファイル書き込み IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。
TransferIoRateNumOps メトリクスの間隔時間内のファイル転送 IO 操作の回数
TransferIoRateAvgTime ファイル転送 IO 操作の平均時間(ミリ秒単位)
TransferIoLatencynums(50/75/90/95/99)thPercentileLatency ファイル転送 IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。
NativeCopyIoRateNumOps メトリクスの間隔時間内のファイルネイティブコピー IO 操作の回数
NativeCopyIoRateAvgTime ファイルネイティブコピー IO 操作の平均時間(ミリ秒単位)
NativeCopyIoLatencynums(50/75/90/95/99)thPercentileLatency ファイルネイティブコピー IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。
TotalFileIoErrors ファイル IO エラー操作の合計数(単調増加)
FileIoErrorRateNumOps メトリクスの間隔時間内のファイル IO エラー操作の回数
FileIoErrorRateAvgTime 操作の開始から失敗までの平均時間(ミリ秒単位)

RBFMetrics

RBFMetrics は、ルーターベースのフェデレーションにおけるサブクラスターの情報を集計したメトリクスを示します。

名前 説明
NumFiles ファイルとディレクトリの現在の数
NumBlocks 現在割り当てられているブロック数
NumOfBlocksPendingReplication レプリケートが保留中のブロックの現在の数
レプリケーションが保留中のブロック数 レプリケートが不足しているブロックの現在の数
NumOfBlocksPendingDeletion 削除が保留中のブロックの現在の数
削除が保留中のブロック数 ProvidedSpace
NumInMaintenanceLiveDataNodes メンテナンス状態のライブデータノードの数
NumInMaintenanceDeadDataNodes メンテナンス状態のデッドデータノードの数
NumEnteringMaintenanceDataNodes メンテナンス状態に入ろうとしているデータノードの数
フェデレーションクラスターにマウントされたリモートストレージの総容量 TotalCapacity
DataNode の現在の生の容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) UsedCapacity
すべての DataNode で現在使用されている容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) RemainingCapacity
現在の残りの容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) TotalCapacityBigInt
DataNode の現在の生の容量(バイト単位)(BigInteger を使用) UsedCapacityBigInt
すべての DataNode で現在使用されている容量(バイト単位)(BigInteger を使用) RemainingCapacityBigInt
現在の残りの容量(バイト単位)(BigInteger を使用) 欠落しているブロックの現在の数
NumOfMissingBlocks 現在ライブ状態のデータノードの数
NumLiveNodes 現在デッド状態のデータノードの数
NumDeadNodes 遅延したハートビートが原因で古いとマークされた DataNode の現在の数
NumStaleNodes 廃止され、現在ライブ状態のデータノードの数
NumDecomLiveNodes 廃止され、現在デッド状態のデータノードの数
NumDecomDeadNodes 廃止状態のデータノードの数
NumDecommissioningNodes Namenodes
すべてのネームノードに関する現在の情報 Nameservices
登録されている各ネームサービスに関する現在の情報 MountTable
フェデレーションファイルシステムの接続テーブル Routers
すべてのルーターに関する現在の情報 NumNameservices
ネームサービスの数 NumNamenodes
ネームノードの数 NumExpiredNamenodes
期限切れのネームノードの数 NodeUsage

DataNode の使用状況の最大値、中央値、最小値、および標準偏差

RouterRPCMetrics

名前 説明
RouterRPCMetrics は、ルーターベースのフェデレーションにおけるルーターコンポーネントの統計を示します。 ProcessingOp
ルーターが内部的に処理した操作の数 ProxyOp
ルーターがネームノードにプロキシした操作の数 ProxyOpFailureStandby
NN への到達に失敗した操作の数 ProxyOpFailureCommunicate
スタンバイ NN に到達した操作の数 ProxyOpNotImplemented
実装されていない操作の数 RouterFailureStateStore
ステートストアが利用できないために失敗したリクエストの数 RouterFailureReadOnly
読み取り専用のマウントポイントのために失敗したリクエストの数 RouterFailureLocked
ロックされたパスのために失敗したリクエストの数 RouterFailureSafemode
セーフモードのために失敗したリクエストの数 ProcessingNumOps
メトリクスの間隔時間内にルーターが内部的に処理した操作の数 ProcessingAvgTime
ルーターが操作を処理する平均時間(ナノ秒単位) ProxyNumOps
メトリクスの間隔時間内にルーターがネームノードに操作をプロキシした回数 ProxyAvgTime

ルーターがネームノードに操作をプロキシする平均時間(ナノ秒単位)

StateStoreMetrics

名前 説明
StateStoreMetrics は、ルーターベースのフェデレーションにおけるステートストアコンポーネントの統計を示します。 ReadsNumOps
メトリクスの間隔時間内のステートストアの GET トランザクションの数 ReadsAvgTime
ステートストアの GET トランザクションの平均時間(ミリ秒単位) WritesNumOps
メトリクスの間隔時間内のステートストアの PUT トランザクションの数 WritesAvgTime
ステートストアの PUT トランザクションの平均時間(ミリ秒単位) RemovesNumOps
メトリクスの間隔時間内のステートストアの REMOVE トランザクションの数 RemovesAvgTime
ステートストアの REMOVE トランザクションの平均時間(ミリ秒単位) FailuresNumOps
メトリクスの間隔時間内のステートストアの失敗したトランザクションの数 FailuresAvgTime
ステートストアの失敗したトランザクションの平均時間(ミリ秒単位) CacheBaseRecordSize

ステートストアにキャッシュするストアレコードの数

yarn コンテキスト

ClusterMetrics

名前 説明
ClusterMetrics は、ResourceManager の観点から見た YARN クラスターのメトリクスを示します。各メトリクスレコードには、メトリクスに加えて追加情報として Hostname タグが含まれています。 NumActiveNMs
現在のアクティブな NodeManager の数 numDecommissioningNMs
現在、廃止中の NodeManager の数 NumDecommissionedNMs
現在、廃止された NodeManager の数 NumShutdownNMs
現在、正常にシャットダウンされた NodeManager の数。強制的に終了された NodeManager はカウントされません。 NumLostNMs
ハートビートを送信しないため、失われた NodeManager の現在の数。 NumUnhealthyNMs
現在、異常な NodeManager の数 NumRebootedNMs
現在、再起動された NodeManager の数 AMLaunchDelayNumOps
起動された AM の合計数 AMLaunchDelayAvgTime
AM コンテナーが割り当てられた後、RM が AM コンテナーを起動するのに費やす平均時間(ミリ秒単位) AMRegisterDelayNumOps
登録された AM の合計数 AMRegisterDelayAvgTime

AM コンテナーが起動された後、AM が RM に登録するのに費やす平均時間(ミリ秒単位)

QueueMetrics

QueueMetrics は、ResourceManager の観点から見たアプリケーションキューを示します。各メトリクスレコードは、各キューの統計を示し、メトリクスに加えて、キュー名やホスト名などのタグを追加情報として含みます。

名前 説明
running_num などのメトリクス(running_0 など)では、yarn-site.xml でプロパティ yarn.resourcemanager.metrics.runtime.buckets を設定してバケットを変更できます。デフォルト値は 60,300,1440 です。 running_0
経過時間が 60 分未満の実行中のアプリケーションの現在の数 running_60
経過時間が 60 分から 300 分の間の実行中のアプリケーションの現在の数 running_300
経過時間が 300 分から 1440 分の間の実行中のアプリケーションの現在の数 running_1440
経過時間が 1440 分を超える実行中のアプリケーションの現在の数 AppsSubmitted
送信されたアプリケーションの合計数 AppsRunning
実行中のアプリケーションの現在の数 AppsPending
まだコンテナーが割り当てられていないアプリケーションの現在の数 AppsCompleted
完了したアプリケーションの合計数 AppsKilled
強制終了されたアプリケーションの合計数 AppsFailed
失敗したアプリケーションの合計数 AllocatedMB
現在割り当てられているメモリ(MB単位) AllocatedVCores
現在割り当てられている CPU(仮想コア数) AllocatedContainers
現在割り当てられているコンテナーの数 AggregateContainersAllocated
割り当てられたコンテナーの合計数 aggregateNodeLocalContainersAllocated
割り当てられたノードローカルコンテナーの合計数 aggregateRackLocalContainersAllocated
割り当てられたラックローカルコンテナーの合計数 aggregateOffSwitchContainersAllocated
割り当てられたオフスイッチコンテナーの合計数 AggregateContainersReleased
解放されたコンテナーの合計数 AvailableMB
現在利用可能なメモリ(MB単位) AvailableVCores
現在利用可能な CPU(仮想コア数) PendingMB
スケジューラによって満たされるのが保留されている現在のメモリリクエスト(MB単位) PendingVCores
スケジューラによって満たされるのが保留されている現在の CPU リクエスト(仮想コア数) PendingContainers
スケジューラによって満たされるのが保留されているコンテナーの現在の数 ReservedMB
現在予約されているメモリ(MB単位) ReservedVCores
現在予約されている CPU(仮想コア数) ReservedContainers
現在予約されているコンテナーの数 ActiveUsers
現在のアクティブなユーザー数 ActiveApplications
現在のアクティブなアプリケーション数 AppAttemptFirstContainerAllocationDelayNumOps
すべてのアテンプトで割り当てられた最初のコンテナーの合計数 AppAttemptFirstContainerAllocationDelayAvgTime
RM がすべてのアテンプトで最初のコンテナーを割り当てるのに費やす平均時間。マネージド AM の場合、最初のコンテナーは AM コンテナーです。したがって、これは AM コンテナーを割り当てるまでの時間を示します。アンマネージド AM の場合、これはアンマネージド AM が要求した最初のコンテナーを割り当てるまでの時間です。 FairShareMB
(FairScheduler のみ)現在のメモリのフェアシェア(MB単位) FairShareVCores
(FairScheduler のみ)現在の CPU のフェアシェア(仮想コア数) MinShareMB
(FairScheduler のみ)メモリの最小シェア(MB単位) MinShareVCores
(FairScheduler のみ)CPU の最小シェア(仮想コア数) MaxShareMB
(FairScheduler のみ)メモリの最大シェア(MB単位) MaxShareVCores

(FairScheduler のみ)CPU の最大シェア(仮想コア数)

NodeManagerMetrics

名前 説明
NodeManagerMetrics は、ノード内のコンテナーの統計を示します。各メトリクスレコードには、メトリクスに加えて追加情報として Hostname タグが含まれています。 containersLaunched
起動されたコンテナーの合計数 containersCompleted
正常に完了したコンテナーの合計数 containersFailed
失敗したコンテナーの合計数 containersKilled
強制終了されたコンテナーの合計数 containersIniting
現在初期化中のコンテナーの数 containersRunning
現在実行中のコンテナーの数 AllocatedContainers
allocatedContainers allocatedGB
現在割り当てられているメモリ(GB単位) availableGB
現在利用可能なメモリ(GB単位) allocatedVcores
現在使用されている vcore availableVcores
現在利用可能な vcore containerLaunchDuration
NM がコンテナーを起動するのにかかる平均時間(ミリ秒単位) badLocalDirs
現在、不良なローカルディレクトリの数。現在、NM プロセスで読み取り/書き込み/実行できないディスク、またはディスクがいっぱいの場合は不良と見なされます。 badLogDirs
現在、不良なログディレクトリの数。現在、NM プロセスで読み取り/書き込み/実行できないディスク、またはディスクがいっぱいの場合は不良と見なされます。 goodLocalDirsDiskUtilizationPerc
すべての良好なローカルディレクトリにおける現在のディスク使用率(パーセント) goodLogDirsDiskUtilizationPerc

ContainerMetrics

ContainerMetrics は、コンテナのリソース使用状況の統計情報を表示します。各メトリクスレコードには、メトリクスに加えて、ContainerPid や Hostname などの追加情報を示すタグが含まれます。

名前 説明
pMemLimitMBs コンテナの物理メモリ制限 (MB 単位)
vMemLimitMBs コンテナの仮想メモリ制限 (MB 単位)
vCoreLimit コンテナの CPU 制限 (vコア数)
launchDurationMs コンテナの起動時間 (ミリ秒)
localizationDurationMs コンテナのローカライゼーション時間 (ミリ秒)
StartTime コンテナの開始時刻 (ミリ秒)
FinishTime コンテナの終了時刻 (ミリ秒)
ExitCode コンテナの終了コード
PMemUsageMBsNumUsage 物理メモリ使用量メトリクスの総数
PMemUsageMBsAvgMBs 平均物理メモリ使用量 (MB)
PMemUsageMBsStdevMBs 物理メモリ使用量の標準偏差 (MB)
PMemUsageMBsMinMBs 最小物理メモリ使用量 (MB)
PMemUsageMBsMaxMBs 最大物理メモリ使用量 (MB)
PMemUsageMBsIMinMBs 現在の間隔における最小物理メモリ使用量 (MB) (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PMemUsageMBsIMaxMBs 現在の間隔における最大物理メモリ使用量 (MB) (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PMemUsageMBsINumUsage 現在の間隔における物理メモリ使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PCpuUsagePercentNumUsage 物理 CPU コア使用率メトリクスの総数
PCpuUsagePercentAvgPercents 平均物理 CPU コア使用率
PCpuUsagePercentStdevPercents 物理 CPU コア使用率の標準偏差
PCpuUsagePercentMinPercents 最小物理 CPU コア使用率
PCpuUsagePercentMaxPercents 最大物理 CPU コア使用率
PCpuUsagePercentIMinPercents 現在の間隔における最小物理 CPU コア使用率 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PCpuUsagePercentIMaxPercents 現在の間隔における最大物理 CPU コア使用率 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PCpuUsagePercentINumUsage 現在の間隔における物理 CPU コア使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
MilliVcoreUsageNumUsage vコア使用量メトリクスの総数
MilliVcoreUsageAvgMilliVcores 平均 vコア使用量の 1000 倍
MilliVcoreUsageStdevMilliVcores vコア使用量の標準偏差の 1000 倍
MilliVcoreUsageMinMilliVcores 最小 vコア使用量の 1000 倍
MilliVcoreUsageMaxMilliVcores 最大 vコア使用量の 1000 倍
MilliVcoreUsageIMinMilliVcores 現在の間隔における平均 vコア使用量の 1000 倍 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
MilliVcoreUsageIMaxMilliVcores 現在の間隔における最大 vコア使用量の 1000 倍 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
MilliVcoreUsageINumUsage 現在の間隔における vコア使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定)
PMemUsageMBHistogramNumUsage 物理メモリ使用量メトリクスの総数 (1 秒間隔)
PMemUsageMBHistogram50thPercentileMBs 物理メモリ使用量の 50 パーセンタイル値 (MB、1 秒間隔)
PMemUsageMBHistogram75thPercentileMBs 物理メモリ使用量の 75 パーセンタイル値 (MB、1 秒間隔)
PMemUsageMBHistogram90thPercentileMBs 物理メモリ使用量の 90 パーセンタイル値 (MB、1 秒間隔)
PMemUsageMBHistogram95thPercentileMBs 物理メモリ使用量の 95 パーセンタイル値 (MB、1 秒間隔)
PMemUsageMBHistogram99thPercentileMBs 物理メモリ使用量の 99 パーセンタイル値 (MB、1 秒間隔)
PCpuUsagePercentHistogramNumUsage 物理 CPU コア使用量メトリクスの総数 (1 秒間隔)
PCpuUsagePercentHistogram50thPercentilePercents 物理 CPU コア使用率の 50 パーセンタイル値 (1 秒間隔)
PCpuUsagePercentHistogram75thPercentilePercents 物理 CPU コア使用率の 75 パーセンタイル値 (1 秒間隔)
PCpuUsagePercentHistogram90thPercentilePercents 物理 CPU コア使用率の 90 パーセンタイル値 (1 秒間隔)
PCpuUsagePercentHistogram95thPercentilePercents 物理 CPU コア使用率の 95 パーセンタイル値 (1 秒間隔)
PCpuUsagePercentHistogram99thPercentilePercents 物理 CPU コア使用率の 99 パーセンタイル値 (1 秒間隔)

ugi コンテキスト

UgiMetrics

UgiMetrics は、ユーザーおよびグループ情報に関連します。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。

名前 説明
LoginSuccessNumOps 成功した Kerberos ログインの総数
LoginSuccessAvgTime 成功した Kerberos ログインの平均時間 (ミリ秒)
LoginFailureNumOps 失敗した Kerberos ログインの総数
LoginFailureAvgTime 失敗した Kerberos ログインの平均時間 (ミリ秒)
getGroupsNumOps グループ解決の総数
getGroupsAvgTime グループ解決の平均時間 (ミリ秒)
getGroupsnumsNumOps グループ解決の総数 (num 秒間隔)。numhadoop.user.group.metrics.percentiles.intervals で指定。
getGroupsnums50thPercentileLatency グループ解決時間の 50 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。numhadoop.user.group.metrics.percentiles.intervals で指定。
getGroupsnums75thPercentileLatency グループ解決時間の 75 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。numhadoop.user.group.metrics.percentiles.intervals で指定。
getGroupsnums90thPercentileLatency グループ解決時間の 90 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。numhadoop.user.group.metrics.percentiles.intervals で指定。
getGroupsnums95thPercentileLatency グループ解決時間の 95 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。numhadoop.user.group.metrics.percentiles.intervals で指定。
getGroupsnums99thPercentileLatency グループ解決時間の 99 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。numhadoop.user.group.metrics.percentiles.intervals で指定。

metricssystem コンテキスト

MetricsSystem

MetricsSystem は、メトリクスのスナップショットと公開に関する統計情報を表示します。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。

名前 説明
NumActiveSources 現在のアクティブなメトリクスソースの数
NumAllSources メトリクスソースの総数
NumActiveSinks 現在のアクティブなシンクの数
NumAllSinks シンクの総数 (ただし、通常は NumActiveSinks より少ない。詳細については、HADOOP-9946 を参照してください)
SnapshotNumOps メトリクスソースから統計情報をスナップショットするための操作の総数
SnapshotAvgTime メトリクスソースから統計情報をスナップショットするための平均時間 (ミリ秒)
PublishNumOps シンクに統計情報を公開するための操作の総数
PublishAvgTime シンクに統計情報を公開するための平均時間 (ミリ秒)
DroppedPubAll 破棄された公開の総数
Sink_instanceNumOps instance のシンク操作の総数
Sink_instanceAvgTime instance のシンク操作の平均時間 (ミリ秒)
Sink_instanceDropped instance の破棄されたシンク操作の総数
Sink_instanceQsize シンク操作の現在のキュー長

default コンテキスト

StartupProgress

StartupProgress メトリクスは、NameNode の起動に関する統計情報を表示します。起動フェーズごとに、その名前に基づいて 4 つのメトリクスが公開されます。起動のフェーズは、LoadingFsImageLoadingEditsSavingCheckpoint、および SafeMode です。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。

名前 説明
ElapsedTime 合計経過時間 (ミリ秒)
PercentComplete NameNode の起動進捗における現在の完了率 (最大値は 100 ではなく 1.0)
phaseCount フェーズで完了したステップの総数
phaseElapsedTime フェーズにおける合計経過時間 (ミリ秒)
phaseTotal フェーズにおけるステップの総数
phasePercentComplete フェーズにおける現在の完了率 (最大値は 100 ではなく 1.0)