Shin wo nomitai: データの重複排除のためのあなたのビジネスニーズをどのように評価するか。

今日は会社によって生成されるデータの量は爆発的に成長しています。より強力なコンピューティング技術と情報ベースの経済への進化は、企業はこれまで以上に多くのデータを生成する原因となっている。この圧倒的なデータの増加と関連するストレージ要件に対処するために、多くの企業は、データの重複排除技術の使用を検討しています。

単純な定義によれば、データ重複排除技術は、既に重複を識別し、削除するために格納されたデータに、新しいバックアップストリーム内のデータを比較するソフトウェアです。今日では、重複排除はバックアップ環境の急激なデータの増加を制御するためのデータ管理をするうえで不可欠なツールとなっています。ただし、データの重複排除を達成するために使用される方法は広く、それらが提供できるキャパシティの最適化のレベルをやる異なります。たとえば、仮想テープ·ライブラリーは、従来の物理的なテープシステムは近似できないことを、パフォーマンスと信頼性のレベルを提供します。 VTLは、企業が、何倍も高速のテープよりもデータのバックアップを迅速にデータを復元して、時間のかかる手作業のさまざまなタスクを排除することができます。しかし、データの重複排除せずに、ディスクのコストは、企業がテープアーカイブへのオンラインリテンションタイム短いと移動データを保持可能な限り迅速で丁寧にディスクスペースを使用して強制的に、テープのそれよりも高くなっています。

本当にデータの重複排除を理解するには、データの重複排除への異なるアプローチを理解することが不可欠です。重複排除技術は、比較とContentAware-ハッシュベースを操作することの2つの一般的な方法™SEPATON DeltaStorで使用される比較方法®®S2100-ES2仮想テープライブラリ（VTL）の重複除外ソフトウェアがあります。

ハッシュベースのアプローチは、データの各チャンクに一意の番号を（ハッシュと呼ばれる）を割り当てアルゴリズムを介して受信したデータを実行します。そして、それは既にルックアップテーブルに格納されているものに新しいハッシュを比較します。新しいハッシュが一致しない場合、それはデータの対応するチャンクを格納し、ルックアップテーブルに新しいハッシュを追加します。新しいハッシュがルックアップテーブル内の1つに一致しない場合は、ディスクに対応するデータを書き込み、データがリストア用に再構成することができるように、ハッシュテーブルに重複するレコードはありません。

一方、ContentAwareアプローチはバックアップにあり、重複の検索を絞り込むことが共通点とオブジェクト/ドキュメント間の関係（例えば、Word文書またはOracle®データベースをOracleデータベースには、Microsoft®Word文書）を識別するデータを読み込みます。次に、最大容量削減のためにバイトレベルでこれらのオブジェクト内のデータを比較します。

上述したように、ハッシュベースの技術は、ハッシュと呼ばれる塊にデータを分割し、各チャンク番号を割り当てることによって開始します。新しいデータが格納され、重複したデータを、単に "使用回数"タリーに記録されます。それぞれの新しいバックアップは、特定されコンパイルされ、復元する組み立て直さなければならない多くの断片に分割されます。結果として、システムに格納されている多くのデータは、生成するより多くの部分。これとは対照的に、ContentAwareアプローチは参照データセットとして最新の（最新の）バックアップを使用しています。これは、重複部分を識別するために設定されたこの参考データを以前に保存したデータを比較します。

重複排除技術の間のもう1つの違いは、彼らはバックアッププロセスの一部として、または並行してバックアッププロセスで指定されたバックアップセットをインラインで重複除外かどうかということです。インライン重複排除機能は、ハッシュベースの比較技術とうまく整列し、データセンターの容量のニーズを減らすために、中小規模の組織のための費用対効果の高い方法を提供します。最初のバックアップジョブが完了すると同時方法は、重複排除プロセスを開始します。それは、より大きいバックアップボリュームには、いくつかの明確な利点があります。それに伴い、VTLはそれが速くインラインシステムよりも、両方のプロセスを完了できるように、複数のノード間でのバックアップと重複除外プロセスをロード·バランシングできます。また、任意の重複したデータがポインタに置き換えられる前に、データの整合性チェックを行うことができるように、その完全な形で最新のバックアップが格納されています。

多くの重複排除技術は、複数の処理ノード間のバックアップ·パフォーマンスや重複排除処理を拡張することはできません。結果として、（上記の容量のスケーラビリティを参照）、複数の個別管理ボックスを追加し、または著しく遅くバックアップ時間を許容しなければなりません。スケールアウトの重複排除™DeltaStorソフトウェアとSEPATON社VTLの機能を使用すると、単一のシステム内のデータのペタバイトのバックアップと重複排除する能力や性能を追加することができます。

それは、ほとんどの重複排除技術は、バックアップデータのすべてを重複排除し、同じアルゴリズムでそうするように要求する "オール·オア·ナッシング"であり、注意することが重要です。この方法は、小規模なバックアップ環境に適しています。しかし、企業では、微調整のニーズに重複排除、データ·タイプとビジネス目標にできることが不可欠です。重複排除を通じて得られる効率は、（これに限定されない）を含む多くの要因に依存します。

•バックアップ·ストリーム内の重複するデータの量

•データ·アプリケーションの種類（取引所、オラクル、Wordなど）

大きい重複排除の効率•必要なオンラインデータ保持期間より長い保持時間の結果

数•フルバックアップが実行されることを週に回

あなたのビジネスのためのデータ重複排除ソリューションを検討する際には、各々の潜在的なソリューションが含まれることがあなたのニーズを満たしているかを評価してください：

•バックアップのパフォーマンスと保護への時間 - データ重複排除技術は、バックアップとどのように迅速にあなたのデータはVTLの保護に移動されますどのように影響するかを理解してください。あなたは10以上のTBのフルバックアップを持っている場合は、DeltaStor®ソフトウェアのような企業に最適化された重複排除技術を考慮する必要があります。

あなたは一般的に復元するファイル（例えば、どのくらいの頻度で、30日以上古いファイルです）の年齢やどのように迅速に、あなたがファイルをリストアする必要がどのくらいの頻度： - •パフォーマンスを復元し、ファイルの3つの重要な特性のニーズを復元に基づいた技術を選択してくださいあなたは、ファイルのリストア完了する必要があります。リストア時間はあなたのための優先順位である場合、リストアは "再構成"することなく、瞬時に実行できることを確認するために前方差分を使用するシステムを選択します。

•重複排除の効率性 - それはあなたのバックアップストリームに持っているより多くの重複データが、より有益な重複排除技術は、環境に存在することが理にかなっている。重複排除の効率のレベルはお使いの環境で現実とは何か、あなたのデータの増加を相殺するのに十分であるかどうかを理解する。

データへ•リスクあなたの最新のバックアップの完全なコピーを保持し、第二レベルのデータの整合性チェックを実行するソリューションを整合性を検討してください。

•キャパシティとパフォーマンスのスケーラビリティ - テクノロジーを選択する前に、あなたの能力とパフォーマンスをoutgrowingの意味を理解しています。容量とパフォーマンスを追加すると、多数の "ストレージのサイロ"を維持することを意味するか、新しいシステムへのフォークリフトアップグレードを必要とするのだろうか？

Shin wo nomitai

2013年3月14日木曜日

データの重複排除のためのあなたのビジネスニーズをどのように評価するか。

0 件のコメント:

コメントを投稿