データが増えると問題も増える? 生成される AI データを管理するための 10 のヒント

データメーションのコンテンツと製品の推奨事項は編集上独立しています。あなたが当社のパートナーへのリンクをクリックすると、当社は収益を得る可能性があります。もっと詳しく知る。

ほとんどの IT リーダーと多くの経営幹部は、計画を立ててすでに実行しているわけではないにしても、AI 主導の取り組みを検討しています。 2022 年秋の ChatGPT の発表以来登場した多くのオープンソーステクノロジーを超えて、AI と機械学習のためのツールは、トップ 3 のパブリッククラウドプロバイダーだけでも数十種類あります。

ブルームバーグインテリジェンスの新しいレポートによると、生成 AI 市場は 2022 年のわずか 400 億ドルの市場規模から、今後 10 年間で 1 兆 3000 億ドルに成長する見込みです。

AI を適切に活用するには、高品質のデータ、特に非構造化データが必要です。 AI の成功は、世界の全データの少なくとも 80% を占めるこのファイルとオブジェクトデータの適切なキュレーションと管理にかかっています。この記事では、これらの取り組みの課題を特定し、それらに対処するための 10 のヒントを提供します。

非構造化データは、その量と、ドキュメントや画像からセンサーや機器のデータ、ビデオなどに至るまで、さまざまな種類のファイルや形式が含まれるため、管理が面倒です。ハイブリッド化が進むマルチクラウド企業では、複数のストレージシステムに分散されることが多く、必要に応じて検索、セグメント化、移動することが困難です。

非構造化データは増大するため、保存とバックアップにコストがかかります。実際、2022 年に調査対象となった企業組織の大多数 (68%) は、IT 予算の 30% 以上をストレージに費やしています。データ集約型の業界では、プロジェクトの完了時に、冗長、時代遅れ、重要（ROT）データのコピーが研究者や他のチームによってほとんど削除されないため、これらの問題はさらに悪化します。

AI の非構造化データを管理するには、ベンダーやクラウド全体でコスト効率の高いストレージとデータモビリティの意思決定を導くデータ中心のアプローチを含む、新しいソリューションと戦術が必要です。

また、適切なデータセットを確実に活用する必要性も高まっています。スタンフォード大学の新しい研究では、大規模言語モデル (LLM) のパフォーマンスが「明示的に長いコンテキストモデルであっても、入力コンテキストが長くなると大幅に低下する」ことがわかりました。言い換えれば、プロジェクトによっては、適切なデータセットを厳選することが、大規模なデータセットよりも重要になる場合があります。

生成 AI ソリューション、ガイドライン、実践方法は日々変化しています。しかし、インテリジェントな非構造化データ管理の基盤を確立することは、組織がこの変革の時代を柔軟に乗り切るのに役立ちます。ここでは考慮すべき戦術をいくつか紹介します。

データのインデックス作成は、企業全体のすべての非構造化データを分類し、ファイルサイズ、ファイル拡張子、ファイル作成日、最終アクセス日などの主要なメタデータ (データ上のデータ) によって検索できるようにする強力な方法です。可視性は、アーカイブ、分析、コンプライアンスなどの変化するビジネスニーズに対応するためにデータを適切に配置するための基礎です。

AI の基盤を築く場合、情報は多いほど良いです。データに関する情報が多ければ多いほど、適切なタイミングでデータを AI および ML ツールに配信するための準備が整い、これらの新しいユースケースに適切なストレージインフラストラクチャを確保するための準備が整います。。少なくとも、データのボリュームと増加率、ストレージコスト、上位のデータの種類とサイズ、部門別のデータ使用統計、および「ホット」またはアクティブなデータと「コールド」またはほとんどアクセスされないデータを理解する必要があります。

データ資産について基本レベルの理解を深めたら、メタデータでデータ資産を強化し、検索機能を追加できます。たとえば、個人を特定できる情報 (PII) や顧客データ、知的財産 (IP) データ、実験名、または機器 ID を含むファイルを検索したい場合があります。これらのファイルは、準拠ストレージ用にセグメント化することも、分析プラットフォームにフィードすることもできます。

今日、組織全体で AI やその他の研究のユースケースが非常に多くなっているため、中央の IT 担当者と部門の IT 担当者が協力してデータ管理戦略を設計する必要があります。これにより、ユーザーは最も重要なデータに迅速にアクセスできるだけでなく、必要なときに低コストのストレージにアーカイブされた古いデータにもアクセスできるようになります。