pg トラブルシューティング

ceph でエラーが出たときの原因を詳しく調べてみる。

root@h470:~# rados list-inconsistent-obj 6.1b --format=json-pretty


{
"epoch": 1770,
"inconsistents": [
{
"object": {
"name": "rbd_data.1133150f8b5cc.0000000000000fbc",
"nspace": "",
"locator": "",
"snap": "head",
"version": 182362
},
"errors": [],
"union_shard_errors": [
"read_error"
],
"selected_object_info": {
"oid": {
"oid": "rbd_data.1133150f8b5cc.0000000000000fbc",
"key": "",
"snapid": -2,
"hash": 386489435,
"max": 0,
"pool": 6,
"namespace": ""
},
"version": "1819'182362",
"prior_version": "1819'182361",
"last_reqid": "client.70452.0:363168",
"user_version": 182362,
"size": 4194304,
"mtime": "2021-05-22T13:28:53.796536+0900",
"local_mtime": "2021-05-22T13:28:53.806278+0900",
"lost": 0,
"flags": [
"dirty",
"omap_digest"
],
"truncate_seq": 0,
"truncate_size": 0,
"data_digest": "0xffffffff",
"omap_digest": "0xffffffff",
"expected_object_size": 4194304,
"expected_write_size": 4194304,
"alloc_hint_flags": 0,
"manifest": {
"type": 0
},
"watchers": {}
},
"shards": [
{
"osd": 0,
"primary": false,
"errors": [],
"size": 4194304,
"omap_digest": "0xffffffff",
"data_digest": "0x0840977a"
},
{
"osd": 1,
"primary": false,
"errors": [],
"size": 4194304,
"omap_digest": "0xffffffff",
"data_digest": "0x0840977a"
},
{
"osd": 2,
"primary": true,
"errors": [
"read_error"
],
"size": 4194304
}
]
}
]
}

OSD 2 で read_error 。実は同じようなエラーが何故か、OSD 2 だけに集中していた。
結果から書くと、OSD として使用している Western Digital の SATA 2.5 インチ SSD と DeskMini H470 との相性がイマイチみたい。

購入したばかりだし、先の Western Digital の NVMe M.2 SSD が調子が悪かった(実は問題なかったことが後で判明)こともあり、そんなに初期不良ばかり続くわけがないと勝手に解釈してパーツ構成を見直した。

パーツを取り替えるため PC をシャットダウンして Proxmox を再インストールすることにして、またまた次のサイトを参考に Ceph を削除しつつ、併せてノード h470 も一端削除することにした。

これで error はパッタリ出なくなった。
最終的な構成は次の記事に書こう。

コメント

コメントする

目次
閉じる