メトリクスは、監視、パフォーマンスチューニング、およびデバッグに使用される、Hadoopデーモンによって公開される統計情報です。デフォルトで利用可能なメトリクスは多数あり、トラブルシューティングに非常に役立ちます。このページでは、利用可能なメトリクスの詳細を示します。
各セクションでは、メトリクスがグループ化されている各コンテキストについて説明します。
Metrics 2.0フレームワークのドキュメントはこちらです。
各メトリクスレコードには、追加情報として、ProcessName、SessionID、Hostnameなどのタグが含まれています。
名前 | 説明 |
---|---|
MemNonHeapUsedM |
現在使用中の非ヒープメモリ(MB単位) |
MemNonHeapCommittedM |
現在コミット済みの非ヒープメモリ(MB単位) |
MemNonHeapMaxM |
最大非ヒープメモリサイズ(MB単位) |
MemHeapUsedM |
現在使用中のヒープメモリ(MB単位) |
MemHeapCommittedM |
現在コミット済みのヒープメモリ(MB単位) |
MemHeapMaxM |
最大ヒープメモリサイズ(MB単位) |
MemMaxM |
最大メモリサイズ(MB単位) |
ThreadsNew |
現在のNEWスレッド数 |
ThreadsRunnable |
現在のRUNNABLEスレッド数 |
ThreadsBlocked |
現在のBLOCKEDスレッド数 |
ThreadsWaiting |
現在のWAITINGスレッド数 |
ThreadsTimedWaiting |
現在のTIMED_WAITINGスレッド数 |
ThreadsTerminated |
現在のTERMINATEDスレッド数 |
GcInfo |
GCの種類でグループ化された、合計GC回数とGC時間(ミリ秒単位)。例) GcCountPS Scavenge=6、GCTimeMillisPS Scavenge=40、GCCountPS MarkSweep=0、GCTimeMillisPS MarkSweep=0 |
GcCount |
合計GC回数 |
GcTimeMillis |
合計GC時間(ミリ秒単位) |
LogFatal |
FATALログの総数 |
LogError |
ERRORログの総数 |
LogWarn |
WARNログの総数 |
LogInfo |
INFOログの総数 |
GcNumWarnThresholdExceeded |
GC警告しきい値を超過した回数 |
GcNumInfoThresholdExceeded |
GC情報しきい値を超過した回数 |
GcTotalExtraSleepTime |
合計GC追加スリープ時間(ミリ秒単位) |
GcTimePercentage |
dfs.namenode.gc.time.monitor.enable がtrueに設定されている場合、監視ウィンドウ内でJVMがGC一時停止に費やした時間のパーセンテージ(0..100)。dfs.namenode.gc.time.monitor.sleep.interval.ms を使用して、スリープ間隔をミリ秒単位で指定します。dfs.namenode.gc.time.monitor.observation.window.ms を使用して、監視ウィンドウをミリ秒単位で指定します。 |
各メトリクスレコードには、追加情報として、Hostnameやポート(サーバーがバインドされている番号)などのタグが含まれています。rpc.metrics.timeunit
構成を使用して、RPCメトリクスの時間単位を構成できます。RPCメトリクスに使用されるデフォルトの時間単位はミリ秒です(以下の説明のとおり)。
名前 | 説明 |
---|---|
ReceivedBytes |
受信したバイト数の合計 |
SentBytes |
送信したバイト数の合計 |
RpcQueueTimeNumOps |
RPC呼び出しの合計数 |
RpcQueueTimeAvgTime |
平均キュー時間(ミリ秒単位) |
RpcLockWaitTimeNumOps |
RPC呼び出しの合計数(RpcQueueTimeNumOpsと同じ) |
RpcLockWaitTimeAvgTime |
ロック取得の待機時間の平均(ミリ秒単位) |
RpcProcessingTimeNumOps |
RPC呼び出しの合計数(RpcQueueTimeNumOpsと同じ) |
RpcProcessingAvgTime |
平均処理時間(ミリ秒単位) |
RpcAuthenticationFailures |
認証失敗の合計数 |
RpcAuthenticationSuccesses |
認証成功の合計数 |
RpcAuthorizationFailures |
認証失敗の合計数 |
RpcAuthorizationSuccesses |
認証成功の合計数 |
NumOpenConnections |
現在のオープン接続数 |
CallQueueLength |
コールキューの現在の長さ |
numDroppedConnections |
切断された接続の合計数 |
rpcQueueTime numsNumOps |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcQueueTime nums50thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPCキュー時間の50パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcQueueTime nums75thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPCキュー時間の75パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcQueueTime nums90thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPCキュー時間の90パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcQueueTime nums95thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPCキュー時間の95パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcQueueTime nums99thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPCキュー時間の99パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcProcessingTime numsNumOps |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcProcessingTime nums50thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPC処理時間の50パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcProcessingTime nums75thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPC処理時間の75パーセンタイル(ミリ秒単位)(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcProcessingTime nums90thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の90パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcProcessingTime nums90thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の95パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcProcessingTime nums95thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPC処理時間の99パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcProcessingTime nums99thPercentileLatency |
rpc.metrics.quantile.enable がtrueに設定されている場合、RPC呼び出しの合計数(num秒の粒度)を示します。numは、rpc.metrics.percentiles.intervals で指定します。 |
rpcLockWaitTime numsNumOps |
rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の50パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcLockWaitTime nums50thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の75パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcLockWaitTime nums75thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の90パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcLockWaitTime nums90thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の95パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
rpcLockWaitTime nums95thPercentileLatency |
rpc.metrics.quantile.enable が true に設定されている場合、RPCロック待機時間の99パーセンタイル値をミリ秒単位(num秒間隔)で表示します。num は rpc.metrics.percentiles.intervals で指定されます。 |
|
TotalRequests |
RPCサーバーが処理したリクエストの総数。 |
TotalRequestsPerSeconds |
名前 | 説明 |
---|---|
RetryCacheメトリクスはNameNodeのフェイルオーバーを監視するのに役立ちます。各メトリクスレコードにはHostnameタグが含まれています。 |
CacheHit |
RetryCacheがヒットした総数 |
CacheCleared |
RetryCacheがクリアされた総数 |
CacheUpdated |
名前 | 説明 |
---|---|
FairCallQueueメトリクスは、FairCallQueueが有効な場合にのみ存在します。各メトリクスは、各優先度レベルごとに存在します。 | FairCallQueueSize_p Priority |
優先度キュー内の現在の呼び出し数 | FairCallQueueOverflowedCalls_p Priority |
名前 | 説明 |
---|---|
DecayRpcSchedulerDetailedメトリクスは、DecayRpcSchedulerが使用されている(FairCallQueueが有効になっている)場合にのみ存在します。これはFairCallQueueメトリクスに追加されます。各優先度レベルについて、rpcqueueとrpcprocessingの詳細メトリクスが公開されます。 | DecayRPCSchedulerPriority. Priority.RpcQueueTime |
各優先度のRpcQueueTimeメトリクス | DecayRPCSchedulerPriority. Priority.RpcProcessingTime |
rpcdetailedコンテキスト
各メトリクスレコードには、メトリクスに加えて、ホスト名やポート(サーバーがバインドされている番号)などのタグが追加情報として含まれています。
名前 | 説明 |
---|---|
呼び出されないRPCに関するメトリクスは、メトリクスレコードには含まれません。 | methodnameNumOps |
メソッドが呼び出された合計回数 | methodnameAvgTime |
名前 | 説明 |
---|---|
各メトリクスレコードには、メトリクスに加えて、ProcessName、SessionId、Hostnameなどのタグが追加情報として含まれています。 |
CreateFileOps |
作成されたファイルの総数 |
FilesCreated |
作成またはmkdir操作によって作成されたファイルとディレクトリの総数 |
FilesAppended |
追加されたファイルの総数 |
GetBlockLocations |
getBlockLocations操作の総数 |
FilesRenamed |
名前変更操作の総数(名前変更されたファイル/ディレクトリの数ではない) |
GetListingOps |
ディレクトリリスト操作の総数 |
DeleteFileOps |
削除操作の総数 |
FilesDeleted |
削除または名前変更操作によって削除されたファイルとディレクトリの総数 |
FileInfoOps |
getFileInfoおよびgetLinkFileInfo操作の総数 |
AddBlockOps |
成功したaddBlock操作の総数 |
GetAdditionalDatanodeOps |
getAdditionalDatanode操作の総数 |
CreateSymlinkOps |
createSymlink操作の総数 |
GetLinkTargetOps |
getLinkTarget操作の総数 |
FilesInGetListingOps |
ディレクトリリスト操作によってリストされたファイルとディレクトリの総数 |
SuccessfulReReplications |
成功したブロックの再レプリケーションの総数 |
NumTimesReReplicationNotScheduled |
ブロックの再レプリケーションのスケジュールに失敗した回数の合計 |
TimeoutReReplications |
タイムアウトしたブロックの再レプリケーションの総数 |
AllowSnapshotOps |
allowSnapshot操作の総数 |
DisallowSnapshotOps |
disallowSnapshot操作の総数 |
CreateSnapshotOps |
createSnapshot操作の総数 |
DeleteSnapshotOps |
deleteSnapshot操作の総数 |
RenameSnapshotOps |
renameSnapshot操作の総数 |
ListSnapshottableDirOps |
snapshottableDirectoryStatus操作の総数 |
SnapshotDiffReportOps |
getSnapshotDiffReport操作の総数 |
TransactionsNumOps |
ジャーナルトランザクションの総数 |
TransactionsAvgTime |
ジャーナルトランザクションの平均時間(ミリ秒単位) |
SyncsNumOps |
ジャーナル同期の総数 |
SyncsAvgTime |
ジャーナル同期の平均時間(ミリ秒単位) | SyncsTime nums(50/75/90/95/99)thPercentileLatency |
ジャーナル同期時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
TransactionsBatchedInSync |
同期でバッチ処理されたジャーナルトランザクションの総数 | TransactionsBatchedInSync nums(50/75/90/95/99)thPercentileCount |
バッチ処理されたジャーナルトランザクション数の50/75/90/95/99パーセンタイル値(num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
StorageBlockReportNumOps |
DataNode内の個々のストレージからのブロックレポート処理の総数 |
StorageBlockReportAvgTime |
ブロックレポート処理の平均時間(ミリ秒単位) | StorageBlockReport nums(50/75/90/95/99)thPercentileLatency |
ブロックレポート処理時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
CacheReportNumOps |
DataNodeからのキャッシュレポート処理の総数 |
CacheReportAvgTime |
キャッシュレポート処理の平均時間(ミリ秒単位) | CacheReport nums(50/75/90/95/99)thPercentileLatency |
キャッシュされたレポート処理時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
SafeModeTime |
FSNameSystemの起動から、セーフモードが最後に終了した時間までの間隔(ミリ秒単位)。(セーフモードでの時間と必ずしも等しくはありません。 HDFS-5156 を参照) |
FsImageLoadTime |
起動時のFSイメージの読み込み時間(ミリ秒単位) |
GetEditNumOps |
SecondaryNameNodeからのエディットダウンロードの総数 |
GetEditAvgTime |
エディットダウンロードの平均時間(ミリ秒単位) |
GetImageNumOps |
SecondaryNameNodeからのfsimageダウンロードの総数 |
GetImageAvgTime |
fsimageダウンロードの平均時間(ミリ秒単位) |
PutImageNumOps |
SecondaryNameNodeへのfsimageアップロードの総数 |
PutImageAvgTime |
fsimageアップロードの平均時間(ミリ秒単位) |
TotalFileOps |
実行されたファイル操作の総数 |
NNStartedTimeInMillis |
NameNodeの開始時間(ミリ秒単位) |
GenerateEDEKTimeNumOps |
EDEK生成の総数 |
GenerateEDEKTimeAvgTime |
EDEK生成の平均時間(ミリ秒単位) | GenerateEDEKTime nums(50/75/90/95/99)thPercentileLatency |
EDEK生成に費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
WarmUpEDEKTimeNumOps |
EDEKウォームアップの総数 |
WarmUpEDEKTimeAvgTime |
EDEKウォームアップの平均時間(ミリ秒単位) | WarmUpEDEKTime nums(50/75/90/95/99)thPercentileLatency |
EDEKウォームアップに費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 |
ResourceCheckTime nums(50/75/90/95/99)thPercentileLatency |
NameNodeリソースチェックのレイテンシーの50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
EditLogTailTimeNumOps |
スタンバイNameNodeがエディットログを追跡した回数の合計 |
EditLogTailTimeAvgTime |
スタンバイNameNodeがエディットログの追跡に費やした平均時間(ミリ秒単位) | EditLogTailTime nums(50/75/90/95/99)thPercentileLatency |
スタンバイNameNodeによるエディットログの追跡に費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
EditLogFetchTimeNumOps |
スタンバイNameNodeがジャーナルノードからリモートエディットストリームをフェッチした回数の合計 |
EditLogFetchTimeAvgTime |
スタンバイNameNodeがジャーナルノードからリモートエディットストリームをフェッチするのに費やした平均時間(ミリ秒単位) | EditLogFetchTime nums(50/75/90/95/99)thPercentileLatency |
スタンバイNameNodeによるジャーナルノードからのエディットストリームのフェッチに費やされた時間の50/75/90/95/99パーセンタイル値(ミリ秒単位、num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
NumEditLogLoadedNumOps |
スタンバイNameNodeがエディットをロードした回数の合計 |
NumEditLogLoadedAvgCount |
各エディットログの追跡でスタンバイNameNodeによってロードされたエディットの平均数 | NumEditLogLoaded nums(50/75/90/95/99)thPercentileCount |
各エディットログの追跡でスタンバイNameNodeによってロードされたエディット数の50/75/90/95/99パーセンタイル値(num秒間隔)。パーセンタイルの測定はデフォルトでオフになっており、間隔を監視しません。間隔は |
EditLogTailIntervalNumOps |
スタンバイNameNodeによるエディットログの追跡間の間隔の合計数 |
EditLogTailIntervalAvgTime |
スタンバイNameNodeによるエディットログの追跡間の間隔の平均時間(ミリ秒単位) | スタンバイ NameNode による編集ログの末尾処理間の時間の 50/75/90/95/99 パーセンタイル値(ミリ秒単位、num 秒の粒度)。パーセンタイル測定はデフォルトではオフになっており、間隔を監視しません。間隔は dfs.metrics.percentiles.intervals で指定されます。 |
PendingEditsCount |
保留中の編集の現在の数 |
各メトリクスレコードには、メトリクスに加えて、HAState や Hostname などのタグが追加情報として含まれています。
名前 | 説明 |
---|---|
MissingBlocks |
欠落しているブロックの現在の数 |
ExpiredHeartbeats |
期限切れになったハートビートの合計数 |
TransactionsSinceLastCheckpoint |
最後のチェックポイントからのトランザクションの合計数 |
TransactionsSinceLastLogRoll |
最後の編集ログロールからのトランザクションの合計数 |
LastWrittenTransactionId |
編集ログに書き込まれた最後のトランザクション ID |
LastCheckpointTime |
最後のチェックポイントからのエポックからのミリ秒単位の時間 |
CapacityTotal |
DataNode の現在の生の容量(バイト単位) |
CapacityTotalGB |
DataNode の現在の生の容量(GB 単位) |
CapacityUsed |
すべての DataNode で現在使用されている容量(バイト単位) |
CapacityUsedGB |
すべての DataNode で現在使用されている容量(GB 単位) |
CapacityRemaining |
現在の残り容量(バイト単位) |
CapacityRemainingGB |
現在の残り容量(GB 単位) |
CapacityUsedNonDFS |
DataNode が DFS 以外の目的で使用している現在のスペース(バイト単位) |
TotalLoad |
現在の接続数 |
SnapshottableDirectories |
スナップショット可能なディレクトリの現在の数 |
スナップショット |
現在のスナップショット数 |
NumEncryptionZones |
暗号化ゾーンの現在の数 |
BlocksTotal |
システムに割り当てられたブロックの現在の数 |
FilesTotal |
ファイルとディレクトリの現在の数 |
PendingReplicationBlocks |
レプリケートが保留中のブロックの現在の数 |
UnderReplicatedBlocks |
レプリケートが不足しているブロックの現在の数 |
CorruptBlocks |
破損したレプリカがあるブロックの現在の数。 |
ScheduledReplicationBlocks |
レプリケーションがスケジュールされているブロックの現在の数 |
PendingDeletionBlocks |
削除が保留中のブロックの現在の数 |
ExcessBlocks |
余分なブロックの現在の数 |
PostponedMisreplicatedBlocks |
(HA のみ) レプリケートが延期されたブロックの現在の数 |
PendingDataNodeMessageCount |
(HA のみ) スタンバイ NameNode で後で処理するために保留中のブロック関連メッセージの現在の数 |
MillisSinceLastLoadedEdits |
(HA のみ) スタンバイ NameNode が最後に編集ログをロードしてからの時間(ミリ秒単位)。アクティブ NameNode では 0 に設定されます。 |
BlockCapacity |
ブロック容量の現在の数 |
NumLiveDataNodes |
現在ライブ状態のデータノードの数 |
NumDeadDataNodes |
現在デッド状態のデータノードの数 |
NumDecomLiveDataNodes |
廃止され、現在ライブ状態のデータノードの数 |
NumDecomDeadDataNodes |
廃止され、現在デッド状態のデータノードの数 |
NumDecommissioningDataNodes |
廃止状態のデータノードの数 |
VolumeFailuresTotal |
すべての DataNode でのボリューム障害の合計数 |
EstimatedCapacityLostTotal |
ボリューム障害による損失容量の合計の見積もり |
StaleDataNodes |
遅延したハートビートが原因で古いとマークされた DataNode の現在の数 |
NumStaleStorages |
コンテンツが古いとマークされたストレージの数 (NameNode の再起動/フェイルオーバー後、最初のブロックレポートを受信する前) |
MissingReplOneBlocks |
レプリケーション係数 1 の欠落しているブロックの現在の数 |
HighestPriorityLowRedundancyReplicatedBlocks |
損失リスクが最も高い(0 または 1 レプリカを持つ)、破損していない、冗長性の低いレプリケートされたブロックの現在の数。最も高い優先度で復旧されます。 |
HighestPriorityLowRedundancyECBlocks |
損失リスクが最も高い、破損していない、冗長性の低い EC ブロックの現在の数。最も高い優先度で復旧されます。 |
NumFilesUnderConstruction |
構築中のファイルの現在の数 |
NumActiveClients |
リースを保持しているアクティブクライアントの現在の数 |
HAState |
(HA のみ) NameNode の現在の状態: 初期化中、アクティブ、スタンバイ、または停止状態 |
FSState |
ファイルシステムの現在の状態: セーフモードまたは操作中 |
LockQueueLength |
FSNameSystem ロックの取得を待機しているスレッドの数 |
ReadLockLongHoldCount |
読み取りロックがしきい値よりも長く保持された回数 |
WriteLockLongHoldCount |
書き込みロックがしきい値よりも長く保持された回数 |
TotalSyncCount |
編集ログによって実行された同期操作の合計数 |
TotalSyncTimes |
同期操作でさまざまな編集ログによって費やされた合計ミリ秒数 |
NameDirSize |
NameNode 名前ディレクトリのサイズ(バイト単位) |
NumTimedOutPendingReconstructions |
タイムアウトした再構成の数。タイムアウトした一意のブロックの数ではありません。 |
NumInMaintenanceLiveDataNodes |
メンテナンス状態のライブデータノードの数 |
NumInMaintenanceDeadDataNodes |
メンテナンス状態のデッドデータノードの数 |
NumEnteringMaintenanceDataNodes |
メンテナンス状態に入ろうとしているデータノードの数 |
FSN(Read/Write)Lock OperationNameNanosNumOps |
操作によるロック取得の合計数 |
FSN(Read/Write)Lock OperationNameNanosAvgTime |
操作によるロック保持の平均時間(ナノ秒単位) |
FSN(Read/Write)LockOverallNanosNumOps |
すべての操作によるロック取得の合計数 |
FSN(Read/Write)LockOverallNanosAvgTime |
すべての操作によるロック保持の平均時間(ナノ秒単位) |
JournalNode の視点からのジャーナルのサーバー側メトリクス。各メトリクスレコードには、メトリクスに加えて、追加情報として Hostname タグが含まれています。
名前 | 説明 |
---|---|
Syncs60sNumOps |
同期操作の数 (1 分の粒度) |
Syncs60s50thPercentileLatencyMicros |
同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、1 分の粒度) |
Syncs60s75thPercentileLatencyMicros |
同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、1 分の粒度) |
Syncs60s90thPercentileLatencyMicros |
同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、1 分の粒度) |
Syncs60s95thPercentileLatencyMicros |
同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、1 分の粒度) |
Syncs60s99thPercentileLatencyMicros |
同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、1 分の粒度) |
Syncs300sNumOps |
同期操作の数 (5 分の粒度) |
Syncs300s50thPercentileLatencyMicros |
同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、5 分の粒度) |
Syncs300s75thPercentileLatencyMicros |
同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、5 分の粒度) |
Syncs300s90thPercentileLatencyMicros |
同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、5 分の粒度) |
Syncs300s95thPercentileLatencyMicros |
同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、5 分の粒度) |
Syncs300s99thPercentileLatencyMicros |
同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、5 分の粒度) |
Syncs3600sNumOps |
同期操作の数 (1 時間の粒度) |
Syncs3600s50thPercentileLatencyMicros |
同期レイテンシーの 50 パーセンタイル値(マイクロ秒単位、1 時間の粒度) |
Syncs3600s75thPercentileLatencyMicros |
同期レイテンシーの 75 パーセンタイル値(マイクロ秒単位、1 時間の粒度) |
Syncs3600s90thPercentileLatencyMicros |
同期レイテンシーの 90 パーセンタイル値(マイクロ秒単位、1 時間の粒度) |
Syncs3600s95thPercentileLatencyMicros |
同期レイテンシーの 95 パーセンタイル値(マイクロ秒単位、1 時間の粒度) |
Syncs3600s99thPercentileLatencyMicros |
同期レイテンシーの 99 パーセンタイル値(マイクロ秒単位、1 時間の粒度) |
NumTransactionsBatchedInSync60sNumOps |
同期操作でトランザクションがバッチ処理された回数 (1 分の粒度) |
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (1 分の粒度) |
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (1 分の粒度) |
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (1 分の粒度) |
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (1 分の粒度) |
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (1 分の粒度) |
NumTransactionsBatchedInSync300sNumOps |
同期操作でトランザクションがバッチ処理された回数 (5 分の粒度) |
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (5 分の粒度) |
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (5 分の粒度) |
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (5 分の粒度) |
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (5 分の粒度) |
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (5 分の粒度) |
NumTransactionsBatchedInSync3600sNumOps |
同期操作でトランザクションがバッチ処理された回数 (1 時間の粒度) |
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 50 パーセンタイル値 (1 時間の粒度) |
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 75 パーセンタイル値 (1 時間の粒度) |
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 90 パーセンタイル値 (1 時間の粒度) |
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 95 パーセンタイル値 (1 時間の粒度) |
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros |
同期カウントでバッチ処理されたトランザクションの 99 パーセンタイル値 (1 時間の粒度) |
BatchesWritten |
起動以降に書き込まれたバッチの合計数 |
TxnsWritten |
起動以降に書き込まれたトランザクションの合計数 |
BytesWritten |
起動以降に書き込まれたバイトの合計数 |
BatchesWrittenWhileLagging |
このノードが遅延していたときに書き込まれたバッチの合計数 |
LastWriterEpoch |
現在の書き込み側のエポック番号 |
CurrentLagTxns |
この JournalNode が遅延しているトランザクションの数 |
LastWrittenTxId |
この JournalNode に保存されている最も高いトランザクション ID |
LastPromisedEpoch |
このノードが低いエポックを受け入れないことを約束した最後のエポック番号。約束がされていない場合は 0 |
LastJournalTimestamp |
最後に正常に書き込まれたトランザクションのタイムスタンプ |
TxnsServedViaRpc |
RPC メカニズムを介して提供されたトランザクションの数 |
BytesServedViaRpc |
RPC メカニズムを介して提供されたバイト数 |
RpcRequestCacheMissAmountNumMisses |
キャッシュにデータがないために提供できなかった RPC リクエストの数 |
RpcRequestCacheMissAmountAvgTxns |
リクエストがキャッシュを逃したトランザクションの平均数。たとえば、トランザクション ID 10 がリクエストされ、キャッシュの最も古いトランザクションが ID 15 の場合、値 5 がこの平均に追加されます |
RpcEmptyResponses |
編集内容が 0 個で返された RPC リクエストの数 |
各メトリクスレコードには、メトリクスに加えて、SessionId や Hostname などのタグが追加情報として含まれています。
名前 | 説明 |
---|---|
BytesWritten |
DataNode に書き込まれたバイトの合計数 |
BytesRead |
DataNode から読み取られたバイトの合計数 |
ReadTransferRateNumOps |
データの読み取り転送の合計数 |
ReadTransferRateAvgTime |
DataNode から読み取られたバイトの平均転送速度(1 秒あたりのバイト数で測定)。 |
ReadTransferRate nums(50/75/90/95/99)thPercentileRate |
DataNode から読み取られたバイトの転送速度の 50/75/90/95/99 パーセンタイル値(1 秒あたりのバイト数で測定)。 |
BlocksWritten |
DataNode に書き込まれたブロックの合計数 |
BlocksRead |
DataNode から読み取られたブロックの合計数 |
BlocksReplicated |
レプリケートされたブロックの合計数 |
BlocksRemoved |
削除されたブロックの合計数 |
BlocksVerified |
検証されたブロックの合計数 |
BlockVerificationFailures |
検証失敗の合計数 |
BlocksCached |
キャッシュされたブロックの合計数 |
BlocksUncached |
キャッシュされていないブロックの合計数 |
ReadsFromLocalClient |
ローカルクライアントからの読み取り操作の合計数 |
ReadsFromRemoteClient |
リモートクライアントからの読み取り操作の総数 |
ローカルクライアントからの書き込み |
ローカルクライアントからの書き込み操作の総数 |
リモートクライアントからの書き込み |
リモートクライアントからの書き込み操作の総数 |
ブロックのローカルパス情報取得 |
ブロックのローカルパス名を取得する操作の総数 |
RAMディスクへのブロック書き込み |
メモリに書き込まれたブロックの総数 |
RAMディスクへのブロック書き込みフォールバック |
メモリに書き込まれたが満たされなかった(ディスクへのフェイルオーバー)ブロックの総数 |
RAMディスクへのバイト書き込み |
メモリに書き込まれたバイトの総数 |
RAMディスクからのブロック読み取りヒット数 |
メモリ内のブロックが読み取られた回数の総数 |
RAMディスクから退避されたブロック数 |
メモリ内で退避されたブロックの総数 |
読み取りなしにRAMディスクから退避されたブロック数 |
メモリから読み取られることなく退避されたブロックの総数 |
RAMディスクブロック退避ウィンドウ時間(ミリ秒)操作数 |
メモリ内で退避されたブロック数 |
RAMディスクブロック退避ウィンドウ時間(ミリ秒)平均時間 |
メモリ内のブロックが退避されるまでの平均時間(ミリ秒) |
RamDiskBlocksEvictionWindows nums(50/75/90/95/99)thPercentileLatency |
メモリへの書き込みと退避の間のレイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
RAMディスクへの遅延永続化されたブロック数 |
遅延ライターによってディスクに書き込まれたブロックの総数 |
遅延永続化前に削除されたRAMディスクブロック数 |
ディスクに永続化される前にアプリケーションによって削除されたブロックの総数 |
RAMディスクへの遅延永続化されたバイト数 |
遅延ライターによってディスクに書き込まれたバイトの総数 |
RAMディスクへの遅延永続化ウィンドウ時間(ミリ秒)操作数 |
遅延ライターによってディスクに書き込まれたブロック数 |
RAMディスクへの遅延永続化ウィンドウ時間(ミリ秒)平均時間 |
遅延ライターによってディスクに書き込まれたブロックの平均時間(ミリ秒) |
RamDiskBlocksLazyPersistWindows nums(50/75/90/95/99)thPercentileLatency |
メモリへの書き込みとディスクへの永続化の間のレイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
Fsync回数 |
fsyncの総数 |
ボリューム障害 |
発生したボリューム障害の総数 |
ブロック読み取り操作数 |
読み取り操作の総数 |
ブロック読み取り操作平均時間 |
読み取り操作の平均時間(ミリ秒) |
ブロック書き込み操作数 |
書き込み操作の総数 |
ブロック書き込み操作平均時間 |
書き込み操作の平均時間(ミリ秒) |
ブロックチェックサム操作数 |
ブロックチェックサム操作の総数 |
ブロックチェックサム操作平均時間 |
ブロックチェックサム操作の平均時間(ミリ秒) |
ブロックコピー操作数 |
ブロックコピー操作の総数 |
ブロックコピー操作平均時間 |
ブロックコピー操作の平均時間(ミリ秒) |
ブロック置換操作数 |
ブロック置換操作の総数 |
ブロック置換操作平均時間 |
ブロック置換操作の平均時間(ミリ秒) |
ハートビート操作数 |
ハートビートの総数 |
ハートビート平均時間 |
ハートビートの平均時間(ミリ秒) |
HeartbeatsFor ServiceId- NNIdNumOps |
特定のサービスIDおよびNNIDへのハートビートの総数 |
HeartbeatsFor ServiceId- NNIdAvgTime |
特定のサービスIDおよびNNIDへのハートビートの平均時間(ミリ秒) |
ハートビート合計操作数 |
ハートビートの総数(HeartbeatsNumOpsの複製) |
ハートビート合計平均時間 |
ハートビートの合計平均時間(ミリ秒) |
HeartbeatsTotalFor ServiceId- NNIdNumOps |
特定のサービスIDおよびNNIDへのハートビートの総数(HeartbeatsFor ServiceId- NNIdNumOps の複製) |
HeartbeatsTotalFor ServiceId- NNIdAvgTime |
特定のサービスIDおよびNNIDへのハートビートの合計平均時間(ミリ秒) |
ライフライン操作数 |
ライフラインメッセージの総数 |
ライフライン平均時間 |
ライフラインメッセージ処理の平均時間(ミリ秒) |
LifelinesFor ServiceId- NNIdNumOps |
特定のサービスIDおよびNNIDへのライフラインメッセージの総数 |
LifelinesFor ServiceId- NNIdAvgTime |
特定のサービスIDおよびNNIDへのライフラインメッセージ処理の平均時間(ミリ秒) |
ブロックレポート操作数 |
ブロックレポート操作の総数 |
ブロックレポート平均時間 |
ブロックレポート操作の平均時間(ミリ秒) |
BlockReports ServiceId- NNIdNumOps |
特定のサービスIDおよびNNIDへのブロックレポート操作の総数 |
BlockReports ServiceId- NNIdAvgTime |
特定のサービスIDおよびNNIDへのブロックレポート操作の平均時間(ミリ秒) |
インクリメンタルブロックレポート操作数 |
インクリメンタルブロックレポート操作の総数 |
インクリメンタルブロックレポート平均時間 |
インクリメンタルブロックレポート操作の平均時間(ミリ秒) |
IncrementalBlockReports ServiceId- NNIdNumOps |
特定のサービスIDおよびNNIDへのインクリメンタルブロックレポート操作の総数 |
IncrementalBlockReports ServiceId- NNIdAvgTime |
特定のサービスIDおよびNNIDへのインクリメンタルブロックレポート操作の平均時間(ミリ秒) |
キャッシュレポート操作数 |
キャッシュレポート操作の総数 |
キャッシュレポート平均時間 |
キャッシュレポート操作の平均時間(ミリ秒) |
パケットACKラウンドトリップ時間ナノ秒操作数 |
ACKラウンドトリップの総数 |
パケットACKラウンドトリップ時間ナノ秒平均時間 |
ACK送信から受信までの平均時間(ダウンストリームACK時間を引いたもの)(ナノ秒) |
PacketAckRoundTripTimeNanos nums(50/75/90/95/99)thPercentileLatency |
ACK送信から受信までのレイテンシの50/75/90/95/99パーセンタイル(ダウンストリームACK時間を引いたもの)(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
フラッシュナノ秒操作数 |
フラッシュの総数 |
フラッシュナノ秒平均時間 |
フラッシュの平均時間(ナノ秒) |
FlushNanos nums(50/75/90/95/99)thPercentileLatency |
フラッシュ時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
Fsyncナノ秒操作数 |
fsyncの総数 |
Fsyncナノ秒平均時間 |
fsyncの平均時間(ナノ秒) |
FsyncNanos nums(50/75/90/95/99)thPercentileLatency |
fsync時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
ネットワークでブロックされた送信データパケット時間ナノ秒操作数 |
送信パケットの総数 |
ネットワークでブロックされた送信データパケット時間ナノ秒平均時間 |
送信パケットの平均待ち時間(ナノ秒) |
SendDataPacketBlockedOnNetworkNanos nums(50/75/90/95/99)thPercentileLatency |
送信パケットの待ち時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
送信データパケット転送時間ナノ秒操作数 |
送信パケットの総数 |
送信データパケット転送時間ナノ秒平均時間 |
送信パケットの平均転送時間(ナノ秒) |
SendDataPacketTransferNanos nums(50/75/90/95/99)thPercentileLatency |
送信パケットの転送時間の50/75/90/95/99パーセンタイル(ナノ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
合計書き込み時間 |
書き込み操作に費やされた合計時間(ミリ秒) |
合計読み取り時間 |
読み取り操作に費やされた合計時間(ミリ秒) |
リモートから読み取られたバイト数 |
リモートクライアントによって読み取られたバイト数 |
リモートから書き込まれたバイト数 |
リモートクライアントによって書き込まれたバイト数 |
BPサービスアクター情報 |
ブロックプールサービスアクターに関する情報 |
保留中のIBRのブロック数 |
保留中のインクリメンタルブロックレポート(IBR)内のブロック数 |
保留中のIBRで受信中のブロック数 |
保留中のインクリメンタルブロックレポート(IBR)内の受信ステータスのブロック数 |
保留中のIBRで受信済みのブロック数 |
保留中のインクリメンタルブロックレポート(IBR)内の受信済みステータスのブロック数 |
保留中のIBRで削除されたブロック数 |
保留中のインクリメンタルブロックレポート(IBR)内の削除済みステータスのブロック数 |
EC復元タスク |
イレージャーコーディング復元タスクの総数 |
EC失敗した復元タスク |
イレージャーコーディング失敗した復元タスクの総数 |
EC無効な復元タスク |
イレージャーコーディング無効な復元タスクの総数 |
ECデコード時間ナノ秒 |
デコードタスクで費やされたナノ秒の合計 |
EC復元読み取りバイト数 |
イレージャーコーディングワーカーによって読み取られたバイトの総数 |
EC復元書き込みバイト数 |
イレージャーコーディングワーカーによって書き込まれたバイトの総数 |
EC復元リモート読み取りバイト数 |
イレージャーコーディングワーカーによってリモート読み取りされたバイトの総数 |
ボリュームごとのメトリクスには、DatanodeボリュームIO関連の統計が含まれています。ボリュームごとのメトリクスはデフォルトでオフになっています。dfs.datanode.fileio.profiling.percentage.fraction
を1〜100の整数値に設定することで有効にできます。この値を0に設定すると、プロファイリングが無効になることを意味します。ただし、ボリュームごとのメトリクスを有効にすると、パフォーマンスに影響を与える可能性があります。各メトリクスレコードには、メトリクスに加えて、ホスト名などの追加情報を示すタグが含まれています。
名前 | 説明 |
---|---|
合計メタデータ操作数 |
メタデータ操作の総数(単調増加)。メタデータ操作には、stat、list、mkdir、delete、move、open、およびposix_fadviseが含まれます。 |
メタデータ操作レート操作数 |
メトリクスの間隔時間内のメタデータ操作の数 |
メタデータ操作レート平均時間 |
メタデータ操作の平均時間(ミリ秒) |
MetadataOperationLatency nums(50/75/90/95/99)thPercentileLatency |
メタデータ操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
合計データファイルIO数 |
データファイルIO操作の総数(単調増加) |
データファイルIOレート操作数 |
メトリクスの間隔時間内のデータファイルIO操作の数 |
データファイルIOレート平均時間 |
データファイルIO操作の平均時間(ミリ秒) |
DataFileIoLatency nums(50/75/90/95/99)thPercentileLatency |
データファイルIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
フラッシュIOレート操作数 |
メトリクスの間隔時間内のファイルフラッシュIO操作の数 |
フラッシュIOレート平均時間 |
ファイルフラッシュIO操作の平均時間(ミリ秒) |
FlushIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイルフラッシュIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
同期IOレート操作数 |
メトリクスの間隔時間内のファイル同期IO操作の数 |
同期IOレート平均時間 |
ファイル同期IO操作の平均時間(ミリ秒) |
SyncIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイル同期IO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
読み取りIOレート操作数 |
メトリクスの間隔時間内のファイル読み取りIO操作の数 |
読み取りIOレート平均時間 |
ファイル読み取りIO操作の平均時間(ミリ秒) |
ReadIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイル読み取りIO操作レイテンシの50/75/90/95/99パーセンタイル(ミリ秒)(num秒単位)。パーセンタイル測定はデフォルトでオフになっており、間隔を監視しません。間隔はdfs.metrics.percentiles.intervals で指定します。 |
書き込みIOレート操作数 |
メトリクスの間隔時間内のファイル書き込みIO操作の数 |
書き込みIOレート平均時間 |
ファイル書き込みIO操作の平均時間(ミリ秒) |
WriteIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイル書き込み IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。 |
TransferIoRateNumOps |
メトリクスの間隔時間内のファイル転送 IO 操作の回数 |
TransferIoRateAvgTime |
ファイル転送 IO 操作の平均時間(ミリ秒単位) |
TransferIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイル転送 IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。 |
NativeCopyIoRateNumOps |
メトリクスの間隔時間内のファイルネイティブコピー IO 操作の回数 |
NativeCopyIoRateAvgTime |
ファイルネイティブコピー IO 操作の平均時間(ミリ秒単位) |
NativeCopyIoLatency nums(50/75/90/95/99)thPercentileLatency |
ファイルネイティブコピー IO 操作のレイテンシーの 50/75/90/95/99 パーセンタイル値(ミリ秒単位)。 (num 秒の粒度)。パーセンタイル測定は、デフォルトでは間隔を監視しないためオフになっています。間隔は dfs.metrics.percentiles.intervals で指定します。 |
TotalFileIoErrors |
ファイル IO エラー操作の合計数(単調増加) |
FileIoErrorRateNumOps |
メトリクスの間隔時間内のファイル IO エラー操作の回数 |
FileIoErrorRateAvgTime |
操作の開始から失敗までの平均時間(ミリ秒単位) |
RBFMetrics は、ルーターベースのフェデレーションにおけるサブクラスターの情報を集計したメトリクスを示します。
名前 | 説明 |
---|---|
NumFiles |
ファイルとディレクトリの現在の数 |
NumBlocks |
現在割り当てられているブロック数 |
NumOfBlocksPendingReplication |
レプリケートが保留中のブロックの現在の数 |
レプリケーションが保留中のブロック数 |
レプリケートが不足しているブロックの現在の数 |
NumOfBlocksPendingDeletion |
削除が保留中のブロックの現在の数 |
削除が保留中のブロック数 |
ProvidedSpace |
NumInMaintenanceLiveDataNodes |
メンテナンス状態のライブデータノードの数 |
NumInMaintenanceDeadDataNodes |
メンテナンス状態のデッドデータノードの数 |
NumEnteringMaintenanceDataNodes |
メンテナンス状態に入ろうとしているデータノードの数 |
フェデレーションクラスターにマウントされたリモートストレージの総容量 |
TotalCapacity |
DataNode の現在の生の容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) |
UsedCapacity |
すべての DataNode で現在使用されている容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) |
RemainingCapacity |
現在の残りの容量(バイト単位)(long プリミティブ、オーバーフローの可能性あり) |
TotalCapacityBigInt |
DataNode の現在の生の容量(バイト単位)(BigInteger を使用) |
UsedCapacityBigInt |
すべての DataNode で現在使用されている容量(バイト単位)(BigInteger を使用) |
RemainingCapacityBigInt |
現在の残りの容量(バイト単位)(BigInteger を使用) |
欠落しているブロックの現在の数 |
NumOfMissingBlocks |
現在ライブ状態のデータノードの数 |
NumLiveNodes |
現在デッド状態のデータノードの数 |
NumDeadNodes |
遅延したハートビートが原因で古いとマークされた DataNode の現在の数 |
NumStaleNodes |
廃止され、現在ライブ状態のデータノードの数 |
NumDecomLiveNodes |
廃止され、現在デッド状態のデータノードの数 |
NumDecomDeadNodes |
廃止状態のデータノードの数 |
NumDecommissioningNodes |
Namenodes |
すべてのネームノードに関する現在の情報 |
Nameservices |
登録されている各ネームサービスに関する現在の情報 |
MountTable |
フェデレーションファイルシステムの接続テーブル |
Routers |
すべてのルーターに関する現在の情報 |
NumNameservices |
ネームサービスの数 |
NumNamenodes |
ネームノードの数 |
NumExpiredNamenodes |
期限切れのネームノードの数 |
NodeUsage |
名前 | 説明 |
---|---|
RouterRPCMetrics は、ルーターベースのフェデレーションにおけるルーターコンポーネントの統計を示します。 |
ProcessingOp |
ルーターが内部的に処理した操作の数 |
ProxyOp |
ルーターがネームノードにプロキシした操作の数 |
ProxyOpFailureStandby |
NN への到達に失敗した操作の数 |
ProxyOpFailureCommunicate |
スタンバイ NN に到達した操作の数 |
ProxyOpNotImplemented |
実装されていない操作の数 |
RouterFailureStateStore |
ステートストアが利用できないために失敗したリクエストの数 |
RouterFailureReadOnly |
読み取り専用のマウントポイントのために失敗したリクエストの数 |
RouterFailureLocked |
ロックされたパスのために失敗したリクエストの数 |
RouterFailureSafemode |
セーフモードのために失敗したリクエストの数 |
ProcessingNumOps |
メトリクスの間隔時間内にルーターが内部的に処理した操作の数 |
ProcessingAvgTime |
ルーターが操作を処理する平均時間(ナノ秒単位) |
ProxyNumOps |
メトリクスの間隔時間内にルーターがネームノードに操作をプロキシした回数 |
ProxyAvgTime |
名前 | 説明 |
---|---|
StateStoreMetrics は、ルーターベースのフェデレーションにおけるステートストアコンポーネントの統計を示します。 |
ReadsNumOps |
メトリクスの間隔時間内のステートストアの GET トランザクションの数 |
ReadsAvgTime |
ステートストアの GET トランザクションの平均時間(ミリ秒単位) |
WritesNumOps |
メトリクスの間隔時間内のステートストアの PUT トランザクションの数 |
WritesAvgTime |
ステートストアの PUT トランザクションの平均時間(ミリ秒単位) |
RemovesNumOps |
メトリクスの間隔時間内のステートストアの REMOVE トランザクションの数 |
RemovesAvgTime |
ステートストアの REMOVE トランザクションの平均時間(ミリ秒単位) |
FailuresNumOps |
メトリクスの間隔時間内のステートストアの失敗したトランザクションの数 |
FailuresAvgTime |
ステートストアの失敗したトランザクションの平均時間(ミリ秒単位) | Cache BaseRecordSize |
名前 | 説明 |
---|---|
ClusterMetrics は、ResourceManager の観点から見た YARN クラスターのメトリクスを示します。各メトリクスレコードには、メトリクスに加えて追加情報として Hostname タグが含まれています。 |
NumActiveNMs |
現在のアクティブな NodeManager の数 |
numDecommissioningNMs |
現在、廃止中の NodeManager の数 |
NumDecommissionedNMs |
現在、廃止された NodeManager の数 |
NumShutdownNMs |
現在、正常にシャットダウンされた NodeManager の数。強制的に終了された NodeManager はカウントされません。 |
NumLostNMs |
ハートビートを送信しないため、失われた NodeManager の現在の数。 |
NumUnhealthyNMs |
現在、異常な NodeManager の数 |
NumRebootedNMs |
現在、再起動された NodeManager の数 |
AMLaunchDelayNumOps |
起動された AM の合計数 |
AMLaunchDelayAvgTime |
AM コンテナーが割り当てられた後、RM が AM コンテナーを起動するのに費やす平均時間(ミリ秒単位) |
AMRegisterDelayNumOps |
登録された AM の合計数 |
AMRegisterDelayAvgTime |
QueueMetrics は、ResourceManager の観点から見たアプリケーションキューを示します。各メトリクスレコードは、各キューの統計を示し、メトリクスに加えて、キュー名やホスト名などのタグを追加情報として含みます。
名前 | 説明 |
---|---|
|
running_0 |
経過時間が 60 分未満の実行中のアプリケーションの現在の数 |
running_60 |
経過時間が 60 分から 300 分の間の実行中のアプリケーションの現在の数 |
running_300 |
経過時間が 300 分から 1440 分の間の実行中のアプリケーションの現在の数 |
running_1440 |
経過時間が 1440 分を超える実行中のアプリケーションの現在の数 |
AppsSubmitted |
送信されたアプリケーションの合計数 |
AppsRunning |
実行中のアプリケーションの現在の数 |
AppsPending |
まだコンテナーが割り当てられていないアプリケーションの現在の数 |
AppsCompleted |
完了したアプリケーションの合計数 |
AppsKilled |
強制終了されたアプリケーションの合計数 |
AppsFailed |
失敗したアプリケーションの合計数 |
AllocatedMB |
現在割り当てられているメモリ(MB単位) |
AllocatedVCores |
現在割り当てられている CPU(仮想コア数) |
AllocatedContainers |
現在割り当てられているコンテナーの数 |
AggregateContainersAllocated |
割り当てられたコンテナーの合計数 |
aggregateNodeLocalContainersAllocated |
割り当てられたノードローカルコンテナーの合計数 |
aggregateRackLocalContainersAllocated |
割り当てられたラックローカルコンテナーの合計数 |
aggregateOffSwitchContainersAllocated |
割り当てられたオフスイッチコンテナーの合計数 |
AggregateContainersReleased |
解放されたコンテナーの合計数 |
AvailableMB |
現在利用可能なメモリ(MB単位) |
AvailableVCores |
現在利用可能な CPU(仮想コア数) |
PendingMB |
スケジューラによって満たされるのが保留されている現在のメモリリクエスト(MB単位) |
PendingVCores |
スケジューラによって満たされるのが保留されている現在の CPU リクエスト(仮想コア数) |
PendingContainers |
スケジューラによって満たされるのが保留されているコンテナーの現在の数 |
ReservedMB |
現在予約されているメモリ(MB単位) |
ReservedVCores |
現在予約されている CPU(仮想コア数) |
ReservedContainers |
現在予約されているコンテナーの数 |
ActiveUsers |
現在のアクティブなユーザー数 |
ActiveApplications |
現在のアクティブなアプリケーション数 |
AppAttemptFirstContainerAllocationDelayNumOps |
すべてのアテンプトで割り当てられた最初のコンテナーの合計数 |
AppAttemptFirstContainerAllocationDelayAvgTime |
RM がすべてのアテンプトで最初のコンテナーを割り当てるのに費やす平均時間。マネージド AM の場合、最初のコンテナーは AM コンテナーです。したがって、これは AM コンテナーを割り当てるまでの時間を示します。アンマネージド AM の場合、これはアンマネージド AM が要求した最初のコンテナーを割り当てるまでの時間です。 |
FairShareMB |
(FairScheduler のみ)現在のメモリのフェアシェア(MB単位) |
FairShareVCores |
(FairScheduler のみ)現在の CPU のフェアシェア(仮想コア数) |
MinShareMB |
(FairScheduler のみ)メモリの最小シェア(MB単位) |
MinShareVCores |
(FairScheduler のみ)CPU の最小シェア(仮想コア数) |
MaxShareMB |
(FairScheduler のみ)メモリの最大シェア(MB単位) |
MaxShareVCores |
名前 | 説明 |
---|---|
NodeManagerMetrics は、ノード内のコンテナーの統計を示します。各メトリクスレコードには、メトリクスに加えて追加情報として Hostname タグが含まれています。 |
containersLaunched |
起動されたコンテナーの合計数 |
containersCompleted |
正常に完了したコンテナーの合計数 |
containersFailed |
失敗したコンテナーの合計数 |
containersKilled |
強制終了されたコンテナーの合計数 |
containersIniting |
現在初期化中のコンテナーの数 |
containersRunning |
現在実行中のコンテナーの数 |
AllocatedContainers |
allocatedContainers |
allocatedGB |
現在割り当てられているメモリ(GB単位) |
availableGB |
現在利用可能なメモリ(GB単位) |
allocatedVcores |
現在使用されている vcore |
availableVcores |
現在利用可能な vcore |
containerLaunchDuration |
NM がコンテナーを起動するのにかかる平均時間(ミリ秒単位) |
badLocalDirs |
現在、不良なローカルディレクトリの数。現在、NM プロセスで読み取り/書き込み/実行できないディスク、またはディスクがいっぱいの場合は不良と見なされます。 |
badLogDirs |
現在、不良なログディレクトリの数。現在、NM プロセスで読み取り/書き込み/実行できないディスク、またはディスクがいっぱいの場合は不良と見なされます。 |
goodLocalDirsDiskUtilizationPerc |
すべての良好なローカルディレクトリにおける現在のディスク使用率(パーセント) |
goodLogDirsDiskUtilizationPerc |
ContainerMetrics は、コンテナのリソース使用状況の統計情報を表示します。各メトリクスレコードには、メトリクスに加えて、ContainerPid や Hostname などの追加情報を示すタグが含まれます。
名前 | 説明 |
---|---|
pMemLimitMBs |
コンテナの物理メモリ制限 (MB 単位) |
vMemLimitMBs |
コンテナの仮想メモリ制限 (MB 単位) |
vCoreLimit |
コンテナの CPU 制限 (vコア数) |
launchDurationMs |
コンテナの起動時間 (ミリ秒) |
localizationDurationMs |
コンテナのローカライゼーション時間 (ミリ秒) |
StartTime |
コンテナの開始時刻 (ミリ秒) |
FinishTime |
コンテナの終了時刻 (ミリ秒) |
ExitCode |
コンテナの終了コード |
PMemUsageMBsNumUsage |
物理メモリ使用量メトリクスの総数 |
PMemUsageMBsAvgMBs |
平均物理メモリ使用量 (MB) |
PMemUsageMBsStdevMBs |
物理メモリ使用量の標準偏差 (MB) |
PMemUsageMBsMinMBs |
最小物理メモリ使用量 (MB) |
PMemUsageMBsMaxMBs |
最大物理メモリ使用量 (MB) |
PMemUsageMBsIMinMBs |
現在の間隔における最小物理メモリ使用量 (MB) (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PMemUsageMBsIMaxMBs |
現在の間隔における最大物理メモリ使用量 (MB) (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PMemUsageMBsINumUsage |
現在の間隔における物理メモリ使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PCpuUsagePercentNumUsage |
物理 CPU コア使用率メトリクスの総数 |
PCpuUsagePercentAvgPercents |
平均物理 CPU コア使用率 |
PCpuUsagePercentStdevPercents |
物理 CPU コア使用率の標準偏差 |
PCpuUsagePercentMinPercents |
最小物理 CPU コア使用率 |
PCpuUsagePercentMaxPercents |
最大物理 CPU コア使用率 |
PCpuUsagePercentIMinPercents |
現在の間隔における最小物理 CPU コア使用率 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PCpuUsagePercentIMaxPercents |
現在の間隔における最大物理 CPU コア使用率 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PCpuUsagePercentINumUsage |
現在の間隔における物理 CPU コア使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
MilliVcoreUsageNumUsage |
vコア使用量メトリクスの総数 |
MilliVcoreUsageAvgMilliVcores |
平均 vコア使用量の 1000 倍 |
MilliVcoreUsageStdevMilliVcores |
vコア使用量の標準偏差の 1000 倍 |
MilliVcoreUsageMinMilliVcores |
最小 vコア使用量の 1000 倍 |
MilliVcoreUsageMaxMilliVcores |
最大 vコア使用量の 1000 倍 |
MilliVcoreUsageIMinMilliVcores |
現在の間隔における平均 vコア使用量の 1000 倍 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
MilliVcoreUsageIMaxMilliVcores |
現在の間隔における最大 vコア使用量の 1000 倍 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
MilliVcoreUsageINumUsage |
現在の間隔における vコア使用量メトリクスの総数 (間隔の時間は yarn.nodemanager.container-metrics.period-ms で指定) |
PMemUsageMBHistogramNumUsage |
物理メモリ使用量メトリクスの総数 (1 秒間隔) |
PMemUsageMBHistogram50thPercentileMBs |
物理メモリ使用量の 50 パーセンタイル値 (MB、1 秒間隔) |
PMemUsageMBHistogram75thPercentileMBs |
物理メモリ使用量の 75 パーセンタイル値 (MB、1 秒間隔) |
PMemUsageMBHistogram90thPercentileMBs |
物理メモリ使用量の 90 パーセンタイル値 (MB、1 秒間隔) |
PMemUsageMBHistogram95thPercentileMBs |
物理メモリ使用量の 95 パーセンタイル値 (MB、1 秒間隔) |
PMemUsageMBHistogram99thPercentileMBs |
物理メモリ使用量の 99 パーセンタイル値 (MB、1 秒間隔) |
PCpuUsagePercentHistogramNumUsage |
物理 CPU コア使用量メトリクスの総数 (1 秒間隔) |
PCpuUsagePercentHistogram50thPercentilePercents |
物理 CPU コア使用率の 50 パーセンタイル値 (1 秒間隔) |
PCpuUsagePercentHistogram75thPercentilePercents |
物理 CPU コア使用率の 75 パーセンタイル値 (1 秒間隔) |
PCpuUsagePercentHistogram90thPercentilePercents |
物理 CPU コア使用率の 90 パーセンタイル値 (1 秒間隔) |
PCpuUsagePercentHistogram95thPercentilePercents |
物理 CPU コア使用率の 95 パーセンタイル値 (1 秒間隔) |
PCpuUsagePercentHistogram99thPercentilePercents |
物理 CPU コア使用率の 99 パーセンタイル値 (1 秒間隔) |
UgiMetrics は、ユーザーおよびグループ情報に関連します。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。
名前 | 説明 |
---|---|
LoginSuccessNumOps |
成功した Kerberos ログインの総数 |
LoginSuccessAvgTime |
成功した Kerberos ログインの平均時間 (ミリ秒) |
LoginFailureNumOps |
失敗した Kerberos ログインの総数 |
LoginFailureAvgTime |
失敗した Kerberos ログインの平均時間 (ミリ秒) |
getGroupsNumOps |
グループ解決の総数 |
getGroupsAvgTime |
グループ解決の平均時間 (ミリ秒) |
getGroups numsNumOps |
グループ解決の総数 (num 秒間隔)。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
getGroups nums50thPercentileLatency |
グループ解決時間の 50 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
getGroups nums75thPercentileLatency |
グループ解決時間の 75 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
getGroups nums90thPercentileLatency |
グループ解決時間の 90 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
getGroups nums95thPercentileLatency |
グループ解決時間の 95 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
getGroups nums99thPercentileLatency |
グループ解決時間の 99 パーセンタイル値 (ミリ秒、num 秒間隔) を表示。num は hadoop.user.group.metrics.percentiles.intervals で指定。 |
MetricsSystem は、メトリクスのスナップショットと公開に関する統計情報を表示します。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。
名前 | 説明 |
---|---|
NumActiveSources |
現在のアクティブなメトリクスソースの数 |
NumAllSources |
メトリクスソースの総数 |
NumActiveSinks |
現在のアクティブなシンクの数 |
NumAllSinks |
シンクの総数 (ただし、通常は NumActiveSinks より少ない。詳細については、HADOOP-9946 を参照してください) |
SnapshotNumOps |
メトリクスソースから統計情報をスナップショットするための操作の総数 |
SnapshotAvgTime |
メトリクスソースから統計情報をスナップショットするための平均時間 (ミリ秒) |
PublishNumOps |
シンクに統計情報を公開するための操作の総数 |
PublishAvgTime |
シンクに統計情報を公開するための平均時間 (ミリ秒) |
DroppedPubAll |
破棄された公開の総数 |
Sink_ instanceNumOps |
instance のシンク操作の総数 |
Sink_ instanceAvgTime |
instance のシンク操作の平均時間 (ミリ秒) |
Sink_ instanceDropped |
instance の破棄されたシンク操作の総数 |
Sink_ instanceQsize |
シンク操作の現在のキュー長 |
StartupProgress メトリクスは、NameNode の起動に関する統計情報を表示します。起動フェーズごとに、その名前に基づいて 4 つのメトリクスが公開されます。起動のフェーズは、LoadingFsImage
、LoadingEdits
、SavingCheckpoint
、および SafeMode
です。各メトリクスレコードには、メトリクスに加えて、Hostname タグが追加情報として含まれます。
名前 | 説明 |
---|---|
ElapsedTime |
合計経過時間 (ミリ秒) |
PercentComplete |
NameNode の起動進捗における現在の完了率 (最大値は 100 ではなく 1.0) |
phaseCount |
フェーズで完了したステップの総数 |
phaseElapsedTime |
フェーズにおける合計経過時間 (ミリ秒) |
phaseTotal |
フェーズにおけるステップの総数 |
phasePercentComplete |
フェーズにおける現在の完了率 (最大値は 100 ではなく 1.0) |