Netflixのサービス指向アーキテクチャでは、障害はオプションではありません

Netflixは、サービス指向アーキテクチャーとクラウドの理想的なポスターの子供として今後も引き続きご利用いただけます。私のウェブサイトの同僚Steven J Vaughan-Nichols氏は最近次のように指摘しています。「Netflixは、疑いもなく最大の純粋なクラウドサービスです。

つまり、弾力性に特別な注意を払う必要があります。 NetflixのAPIプラットフォームの上級ソフトウェアエンジニア、ベン・クリステンセン氏は、「システムの不備は、ユーザーエクスペリエンス、製品のイメージ、企業のブランド、潜在的な収益に影響を与える可能性がある」と指摘しています。

O’Reilly Programmingの新しい記事でChristensen氏は、NetflixのSOAベースのインフラストラクチャでは、障害はオプションではないと述べています。彼は、アプリケーションインスタンス内の障害や異常を切り分けることをキーとしています。同社がこれを達成するために構築したツールは、故障分離と優雅な劣化に重点を置くHystrixです。 「飽和接続やスレッドプール、カスケード障害、プールやキュー、タイムアウトなどの誤った設定など、ユーザーの大きな影響を招いた一連の製造事件から進化しました。

Histrixサイトの問題文はそれを鈍く

複雑な分散アーキテクチャーのアプリケーションには、数十の依存関係があり、それぞれが必然的にある時点で失敗することになります。これらの外部障害から隔離されていなければ、ホストアプリケーションはそれらと一緒に立ち去る危険性があります。たとえば、99.99%の稼働率を持つ30のサービスに依存するアプリケーションを実行すると、すべての依存関係に優れた稼働時間があるとしても、10億回の要求のうち3百万回の障害、または1か月あたり2時間以上のダウンタイムが発生します。現実は一般的に悪いです。

Christensen氏は、すべてのサービスの稼働時間の要件に対応するため、Histrixを採用して次の

バルクヘッドとサーキットブレーカーのパターンを使用してクライアントネットワークの相互作用を分離する。

可能であれば、落ち着いて正常に劣化します。

バルクヘッドと回路ブレーカのパターンを使用してクライアントネットワークの相互作用を隔離する可能性がある場合はフォールバックして正常に低下する;フォールバックが利用できずに急速に復旧する場合はフェールオーバー;待ち時間の短い構成変更を監視、アラート、プッシュする。

フォールバックが利用できず、急速に回復した場合、速やかに失敗します。

低遅延(秒)で構成の変更を監視、アラート、およびプッシュします。

Netflixの回復力の課題は、クライアントの種類と相互作用の範囲を監視しサポートする必要があることにあります。

サービス指向アーキテクチャーの美しさの1つは、うまく設計されていれば、疎結合です.ITインフラストラクチャーとアプリケーションは、独立したコンポーネントとして配備されています。 1つの要素またはサービスが失敗または変更された場合、サービスチェーン内の他のコンポーネントは影響を受けません。

IBMは、Linux、Power8、OpenPowerの新システム、Cloud、マイケル・デル、EMCの契約を締結した:「データセンター、デルタはシステムの稼働停止に$ 1億5000万ドル、データセンター、デルテクノロジーは持ちこたえます:ここでは、エンタープライズビジネスの群れであるDell、EMC

IBM、新しいLinux、Power8、OpenPowerシステムを発表

マイケル・デルがEMCとの契約を締結した。「数十年後には、

デルタはシステム停止に価格タグを付ける:税引前利益150百万ドル

Dell Technologiesがリフトオフする:ここでは、Dell、EMC、エンタープライズビジネスの群れが結合