定期メンテナンスの連絡不十分で重要な試験で宇宙向けのサンプルが失われた事例
定期メンテナンスは、設備の寿命を効果的に伸ばすことに役立つ。
定期メンテナンスをしないと、設備が突然壊れた時に、最初から致命的になりかねない。
私たちの知らないところで、ビルの管理で定期メンテナンスをしていますし、日本では5月の大型連休、8月のお盆時期、12月の年末年始の人が比較的少ない時期に大規模なメンテナンスを行います。
計画停電やサーバーのシャットダウンなども行われます。
かなり余裕のあるインフラ設備の場合、2系統以上あり、片方を落としてメンテナンスを行っている最中は、もう片方を稼働させるという手法が取られます。
最近はデジタルデータが増えたことで、サーバーに保存されるデータが増え続けることで、2系統運用していたのに、データ保存領域を増やすために1系統運用に変更したというところも多いのではないでしょうか。
今回は、定期メンテナンスで陥りやすい事例がありましたので紹介します。
概要
試験施設の保守作業者による日常メンテナンスを実施していたのですが、事故が発生し、サンプルの寿命試験が予定より早く終了、すべての試験サンプルが失われた。
施設を使用するユーザーと、施設の保守作業者の組織間のコミュニケーションを行うこと。
試験サンプルや人員が危険な状態となる状況を認識できるようにユーザーに対して情報を共有すること。
試験設備が適切に運用されるようなレベルを設定すること。
技術情報
NASA /カリフォルニア工科大学のジェット推進研究所(JPL)によって設計されたほとんどの宇宙機は、太陽光を電気に変換する太陽電池のパネルを動力源としています。
ただし、深宇宙ミッションでは、放射性同位元素発電機を使用する場合があります。
太陽光を必要とせず、放射性崩壊により発生する熱を電気に変換することができますが、太陽電池よりも複雑な技術です。
発生タイミング
事故が発生したのは、その特性評価のための施設でした。
2014年2月1日に毎年実施している予防保全(定期メンテナンス)が実施されました。
この定期メンテナンスには、落ち葉の除去やその他の日常的なメンテナンスも実施していました。
土曜日は、ほとんどのスタッフが不在になるため、施設の保守業者が、特性評価を行う試験設備の冷却システムを停止するには都合のよい期間でした。
問題は、この作業がJPLのエンジニアと調整されていなかったことです。
重要な試験機器が保護されず、冷水が不足したことで、試験チャンバー内の温度が上昇し、水冷システムのろう付け継手が故障しました。
土曜日の午後には定期メンテナンスが完了し、冷却システムを稼働し始めたのですが、ろう付け継手が高温で割れたため。冷水が漏れ、試験室内の試験サンプルエリア内に侵入しました。
結果、試験チャンバーの圧力が失われ、水が試験チャンバーの施設の床に漏れ出てしまった。
翌朝、エンジニアが試験施設内に入ったところ、試験室室の床が0.5インチも使っていることに気づきました。
エンジニアは水漏れをチェックするために試験室内に入ったが、リークの原因を特定できなかったので、検査技師に電話をかけました。
エンジニアが到着すると、試験チャンバーから水が出ているのを発見しました。
2人のJPLのエンジニアは、掃除機で水を取り除き、天井に取り付けられたクレーンを使用して、試験チャンバーを開き、チャンバーで封じられていた約190リットルの水を排出しました。
※この時、2人のエンジニアは、実験室の床に多数の活線の電気ケーブルがあるため、水が通電される可能性があることに気づいていませんでした。
アンチモン、ゲルマニウム、銀などの18種類の試験サンプルの寿命試験は、2012年6月から試験チャンバー内で継続的に実施され、合計16,000時間も試験していました。
寿命試験の目的は、放射性同位元素熱電発電機(MMRTG)の出力の劣化を予測するために、高温時の熱電特性をより正確に定量化することでした。
試験サンプルは6つのチャンバーで試験していたのですが、水に浸されたことで試験サンプルが急冷され、想定より早く試験を終わらせることになり、すべての試験サンプルが失われ。
また、メンテナンス後に冷却システムが稼働しなかった場合、施設内の試験チャンバーと試験サンプルだけでなく、バッテリーラボで試験中のバッテリーセルが危険にさらされた可能性がありました。
また、この事故で試験機に大きな損傷があり、施設のクリーンアップには50時間かかりました。
この事故は「NASAの事故タイプC」に分類され、事故の直接費用の合計は5万ドルから50万ドルほどかかりました。
保守業者に対して作業許可を得ていたのか不明ですが、作業前に試験施設の担当者に連絡することをしなかった。
保守メンテナンスにより、施設内の設備が停止されること、稼働しないことを即座に伝達するべきです。
漏水は翌日の日曜日の朝に発見されましたが、JPL警備サービス、研究所の所有者、JPL施設組織のいずれも日曜日に事件について知らされていませんでした。
また、試験施設がバッテリーラボの地下にあるにもかかわらず、「クリティカル施設」として登録されていませんでした。
しかし、保守業者またはJPL施設の担当者が、シャットダウンの影響を理解していたかどうかは不明です。
事故の原因は、アラームや機器の自動シャットダウンに対して、十分に試験に対する保護がされなかったことです。
Lessons Learned
Lessons Learnedを受けての推奨事項としては次の通りです。
施設内の操作で、利用する試験設備に影響を与えるすべてのイベントについて、施設を利用するユーザーと他の組織(緊急対応、施設のメンテナンス、安全性など)との間で十分な情報共有ができる体制を構築することです。
施設内で重要な設備リストを定期的に確認し、重要な設備リストに対して行われるサービス(電力、水、暖房、空調、バッジの読み取りなど)の潜在的なリスクが反映されているか確認することです。また、警備サービスや施設管理部門とも共有したリストを作成することです。
実験室および試験施設を利用するユーザーは、緊急対応の引き金となる危険な状態であることを認識できるように、情報を共有し、トレーニングしてください。
また、重要な運用のために、緊急時の対応マニュアルを作成し、トレーニングを実施してください。
また、重要なハードウェアの冷却システムに対してアラームを追加し、シャットダウンによって主要な担当者への通知されるようにしてください。
終わりに
事故が起きた時は、事象を分析して、個人や個々の事象に対応するのではなく、根源の事象に対してシステムとして防ぐ仕組みを作る必要があります。
恐らく保守業者は、毎年実施していることから、施設管理者が施設利用者に、通例として通告していないとは思っていなかった可能性があります。
ただ、施設管理者は通例ではあるものの、実は今までこの時期に定期メンテナンスを実施しているとは知らずに、年間の報告書で初めて知ることもあったのかもしれません。
あるいは、どこまで設備を停止させて定期メンテナンスをしているのか知らないので、影響度合いを知らなかった可能性があります。
影響の度合いを考え、事前に連絡すること、調整することが必ずしも当たり前とは思ってはいけません。
当たり前が続くと、通例や慣例となり、本来するべき作業が抜け落ちてしまう可能性があります。
今回の教訓にあるように、連絡体制をシステム化したり、重要度の高い作業を共有することで、定期メンテナンスの時期に連絡を忘れないようにすることは大事です。
立上げ当初は、各人員が十分に気を配っているため、抜け落ちるということは少ないのですが、担当が変わったり、業者が変わったりすることで、気を配るところが変わっていったときに、今回のような事例が発生しやすくなります。
気を付けましょう。
参考サイト
NASA Lessons Learned
https://www.nasa.gov/offices/oce/functions/lessons/index.html
NASA Lessons Learned Steering Committee(LLSC)
Poor Coordination of Routine Maintenance Spoiled an Important Test
https://llis.nasa.gov/lesson/10401