日本
データ管理効率化

データの長期保管・活用の費用対効果を左右する
「ホットデータ」「コールドデータ」の観点とは?

近年、企業が扱うデジタルデータは膨大なものになり、データ保管やストレージの運用でさまざまな問題を引き起こしてきます。ここでは、費用対効果の面で今後非常に重要になる観点である「ホットデータ」「コールドデータ」という保管データの種類から、企業が取り組むべきストレージ運用のあり方を考えてみます。

あらゆる企業が悩むデータ肥大化の問題

業務やビジネスのデジタル化、そしてそれらのデータの活用が進む中、企業が扱うデータ量は増加の一途をたどっています。高精細化で大容量化が進む画像や動画など、その種類も多彩になり、数メガバイト近いファイルのやりとりも珍しくなくなりました。
もちろん、ITインフラも進化を続け、ストレージの容量単価は年々低下し、PCクライアントの容量はもちろん、ファイルサーバーなどの全社的なストレージ基盤も格段に大容量化しています。

とはいえ、そうした進化が追いつかないほど、企業でのデータの肥大化は進んでおり、決して放置できない課題となっています。容量の増大で既存のファイルサーバーが圧迫されれば、都度新しく増設を行い、その分だけコストもかかります。エンタープライズクラスのストレージやサーバーは決して安いものではなく、管理対象が増えればその導入・運用コストはもちろん、数年おきのリプレースも考慮しなければなりません。

もはや75%にまで?容量の大半を占める「コールドデータ」とは?

肥大化するデータとその保管の問題をどう解消すればよいでしょうか。かけられるコストに限りがある中で、必要以上に高性能なストレージ製品を導入するのは費用対効果の点から得策ではなく、あくまで自社の要求にジャストフィットする製品選びが必要です。つまり、すべての企業のあらゆる業務に、必ずしも高性能なストレージ基盤が必要なわけではありません。高パフォーマンスなストレージは頻繁に使用し迅速性が求められるデータには適切である一方、ほとんど読み書きを行わないデータには、逆にデメリットになります。

そこで着目するべきは「ホットデータ」と「コールドデータ」という観点です。ホットデータとは、アクセス頻度が高く、よく使われるデータのことを指し、コールドデータは、逆にアクセス頻度が低くあまり使われないデータのことを指します。両者の中間に当たるデータはウォームデータと呼ばれることもあります。

では、実際に企業の中にはどれだけホットデータがあり、コールドデータがあるのでしょうか。とあるサーバーベンダーが企業・組織50社に実施した調査によると、全データのうち、1年以上更新がないファイルは75%以上にも及ぶという数値も出ています。もし古いファイルが削除されずに残り続ければ、コールドデータの割合は年を追うごとにさらに増えていきます。多くの企業では、一度ファイルを保存して触らなくなると、往々にして放置されがちであり、それが容量圧迫の大きな原因となるのです。したがって、手つかずになりやすいコールドデータの対処方法が一つのカギとなります。

保管場所をホットとコールドで分けてコストを最適化

増大し続けるデータの保管コスト最適化には、まずファイルサーバーの「ダイエット」が必要です。使用しなくなった、また時間が経過したコールドデータのうち、不要なもの、似たようなものを調べ削除するのです。前述した調査によると、ファイルサーバー内のデータのうち、重複するファイルは20%以上になるという結果が出ています。

しかし、実際のところ、いくら情報システム部門が従業員に通達しても、古いデータの削除・整理はなかなか進まないのが実情であり、実際に人手の作業で行うのも困難です。この対策として、ファイルサーバー内のデータの種類や使用状況を詳細に可視化できる製品が多く出ており、単純にファイル数が多く煩雑な状態に陥っている企業は、一度試してみる価値があるでしょう。

しかし、それでも削減できる容量には限界があります。重複ファイルや削除可能なファイルが少なく、扱うファイル一つひとつが巨大という企業では効果を発揮できません。そこで次に考えるべきは、先に指摘したコールドデータの保管場所を最適化する、という観点です。ここで重要な考え方が「階層化」、つまりファイルの用途に応じて複数の保管場所を設けることです。

階層型ストレージモデル例

階層型ストレージモデル例の図

※NVM:不揮発性メモリー

例えば、多くの人がアクセスし、高速性を要求されるホットデータは高性能なストレージに、一方でしばらく使われなくなったコールドデータは、パフォーマンスや機能を求められない容量単価の低いストレージに保管する、という運用により、ストレージのコストを最適化するのです。

データの保管場所は、フラッシュストレージ、HDDストレージ、クラウドストレージなどさまざまな種類があります。クラウドストレージのコールドデータ向けとしては「Amazon S3 Glacier」などがあります。しかし、自社の競争力に関わる機密情報や個人情報は社外に出せないというケースや、最近ではクラウドに大量のデータを一度保管すると、いざ使う際のダウンロード費用がかさみデータを簡単に移動できなくなる「クラウドロックイン」のリスクを懸念する企業も増えています。

こうした場合など、オンプレミスでのコールドデータ保管を考えるならば、容量単価の観点で最も優れているのはテープストレージです。扱うデータが大きければ多いほどHDDストレージと比較したコストメリットは高くなります。容量を増加させながらの5年間の運用コストは、HDDと比較して、192TBから960TBへの大容量化でも約5分の1、960TB から4,800TBへの大容量化では約10分の1までに圧縮できます。これはテープの容量単価の安さに加え、オフラインで保管できて保存時の電気代が抑えられる利点による部分も大きいのです。
 

テープストレージとHDDストレージのコスト比較

このように、大容量のデータに悩む企業では、アクセス頻度に応じてデータ保管の最適な場所やルールを考えることが重要になります。また、データが大容量になるほど、コールドデータがファイルサーバーのどこにあるのかをすぐに把握するのは難しく、さらに、そのデータを手作業で別の保管領域に移動するにも、非常に手間がかかります。自動階層化機能のように、データ保管の運用を確実にまわし、同時に効率化するための仕組みを検討することが得策といえるでしょう。

そこで現在、コールドデータをTCOに優れたLTOテープに移動させ、データの自動階層化を行えるストレージシステムが注目されています。テープに移動したデータもHDDと同感覚の操作性で簡単に利用できるので、アクセス頻度は少なくても必要なときには即座にデータを利用できる「アクティブアーカイブ(オンラインアーカイブ)」のニーズにも応えます。
大容量データ保管の費用対効果に関する課題をお持ちのお客さまは、富士フイルムのLTOテープストレージシステムの紹介ページをぜひご覧ください。
 

コールドデータの保管に最適なLTOテープストレージソリューション