banner
ホームページ / ブログ / Gremlin は一般的な信頼性の問題を自動的に検出できるようになりました
ブログ

Gremlin は一般的な信頼性の問題を自動的に検出できるようになりました

Apr 25, 2024Apr 25, 2024

カオス エンジニアリング ツールで最もよく知られる信頼性テストのスタートアップ、Gremlin は本日、検出されたリスク機能の開始を発表しました。 これにより、Gremlin は、Kubernetes ベースのサービスの構成ミスや不適切なデフォルト値など、優先度の高い信頼性の問題を自動的に特定し、それらがもたらすリスクの重大度に応じて分類できるようになりました。 このサービスは、潜在的な修正も提案します。

「信頼性の重要性はますます高まっています」と、Gremlin の CTO 兼創設者である Kolton Andrus 氏は述べています。 「私たちのデジタル インフラストラクチャは、物理的なインフラストラクチャと同じくらい重要です。 政府、医療、運輸、通信、金融はすべてこのデジタル基盤に依存しており、リスクを伴います。 幸いなことに、これらのリスクの多くは、知られていれば簡単に軽減できます。 だからこそ、私たちは新しい検出されたリスクを発表できることに興奮しています。 私たちは、お客様のシステム内の深刻な問題、つまりリスクを迅速に明らかにし、システムの状態を質的に改善するために軽減できるよう、懸命に取り組んできました。」

画像クレジット:グレムリン

Gremlin のカオス エンジニアリング ツールが企業のインフラストラクチャを限界まで押し上げる可能性のある異常な状況を探すのに対し、Detected Risks は事前に構成された一連のテストを使用しており、今年後半にはさらに 20 のテストが予定されています。 これらのテストでは、企業のインフラストラクチャが実際にどの程度信頼性と回復力があるかに影響を与える可能性のある一般的な問題がチェックされます。 Detected Risks は、カオス エンジニアリング実験や信頼性テストを実行することなく機能します。

ほとんどの場合、これらのテストは非常に単純で、冗長性を確保するために展開が複数の可用性ゾーンで実行されるように構成されていることを確認するなど、ベスト プラクティスがカプセル化されています。 それは常識のように思えるかもしれませんが、Gremlin は、顧客が実行している何千ものデプロイメントを調べたところ、26% には冗長性がなく、80% のデプロイメントには 2 つの冗長性がないことがわかりました。 同社は、このシステムは自動スケーリングなどに影響を与える可能性のある一般的な Kubernetes の構成ミスも検出すると指摘しています。

「私たちの業界には、これらの問題を個人的に軽減するために熱心に取り組んでいる多くの優秀な SRE がいますが、そのアプローチはスケールしません」と Andrus 氏は言います。 「私たちは、何千もの現実世界のアプリケーションにわたって貴重な洞察を提供する使いやすいものを構築することで、この問題を解決しています。 エンジニアリングのリーダーに既存のリスクを可視化することで、この重要な作業に優先順位を付けて実行できるようになり、顧客エクスペリエンスを保護し、高品質のソフトウェアを構築し続けることができます。」

画像クレジット: