Ryzenを積んだマシンで発生した新たな問題とその解決

Ryzenを積んだマシンでgccのビルド負荷をかけるとランダムにSIGSEGVが発生して失敗するという問題に去年ハマりました。これについては問題ない石に取り替えてもらって、解決しました。

satoru-takeuchi.hatenablog.com

ところがその後、マシンが2,3日に一度ハングするという事象が新たに発生して、悩まされておりました。不思議なことに、この事象はSEGVが発生していた石では起きていませんでした。

実はこの事象は上記の記事においては言及していなかったのですが、そこかしこで似たような報告がされていました。報告されている対策はいろいろあって、詳細は下記meihongさんの調査結果が詳しいです。

damelog.com

私の場合は、ここで紹介されていたスクリプトを使ってC6 stateをdisableにしたところ、問題が発生しなくなりました。カーネルのRCUの設定は変更していません。

github.com

これについてはハードウェアが悪いのかLinuxが悪いのか全然わかりませんが、あまり気にしないことにします。理由は次の通り。

  • 大きな影響なしに回避できる
  • SEGV現象に比べると調査しづらい。発生確率が低い上に発生するとマシンがハングする
  • 去年ほど時間に余裕が無いし、もう疲れた

色々とトラブルが耐えない石ですが*1、安価でビルドが速いので、これからも数年は頑張ってもらう予定です。

*1:また、今回発生した問題においては犯人が全く不明ですが