データが増えると問題も増える? 生成される AI データを管理するための 10 のヒント
データメーションのコンテンツと製品の推奨事項は編集上独立しています。 あなたが当社のパートナーへのリンクをクリックすると、当社は収益を得る可能性があります。 もっと詳しく知る。
ほとんどの IT リーダーと多くの経営幹部は、計画を立ててすでに実行しているわけではないにしても、AI 主導の取り組みを検討しています。 2022 年秋の ChatGPT の発表以来登場した多くのオープンソース テクノロジーを超えて、AI と機械学習のためのツールは、トップ 3 のパブリック クラウド プロバイダーだけでも数十種類あります。
ブルームバーグ インテリジェンスの新しいレポートによると、生成 AI 市場は 2022 年のわずか 400 億ドルの市場規模から、今後 10 年間で 1 兆 3000 億ドルに成長する見込みです。
AI を適切に活用するには、高品質のデータ、特に非構造化データが必要です。 AI の成功は、世界の全データの少なくとも 80% を占めるこのファイルとオブジェクト データの適切なキュレーションと管理にかかっています。 この記事では、これらの取り組みの課題を特定し、それらに対処するための 10 のヒントを提供します。
非構造化データは、その量と、ドキュメントや画像からセンサーや機器のデータ、ビデオなどに至るまで、さまざまな種類のファイルや形式が含まれるため、管理が面倒です。 ハイブリッド化が進むマルチクラウド企業では、複数のストレージ システムに分散されることが多く、必要に応じて検索、セグメント化、移動することが困難です。
非構造化データは増大するため、保存とバックアップにコストがかかります。 実際、2022 年に調査対象となった企業組織の大多数 (68%) は、IT 予算の 30% 以上をストレージに費やしています。 データ集約型の業界では、プロジェクトの完了時に、冗長、時代遅れ、重要(ROT)データのコピーが研究者や他のチームによってほとんど削除されないため、これらの問題はさらに悪化します。
AI の非構造化データを管理するには、ベンダーやクラウド全体でコスト効率の高いストレージとデータ モビリティの意思決定を導くデータ中心のアプローチを含む、新しいソリューションと戦術が必要です。
また、適切なデータセットを確実に活用する必要性も高まっています。 スタンフォード大学の新しい研究では、大規模言語モデル (LLM) のパフォーマンスが「明示的に長いコンテキスト モデルであっても、入力コンテキストが長くなると大幅に低下する」ことがわかりました。 言い換えれば、プロジェクトによっては、適切なデータセットを厳選することが、大規模なデータセットよりも重要になる場合があります。
生成 AI ソリューション、ガイドライン、実践方法は日々変化しています。 しかし、インテリジェントな非構造化データ管理の基盤を確立することは、組織がこの変革の時代を柔軟に乗り切るのに役立ちます。 ここでは考慮すべき戦術をいくつか紹介します。
データのインデックス作成は、企業全体のすべての非構造化データを分類し、ファイル サイズ、ファイル拡張子、ファイル作成日、最終アクセス日などの主要なメタデータ (データ上のデータ) によって検索できるようにする強力な方法です。 可視性は、アーカイブ、分析、コンプライアンスなどの変化するビジネス ニーズに対応するためにデータを適切に配置するための基礎です。
AI の基盤を築く場合、情報は多いほど良いです。 データに関する情報が多ければ多いほど、適切なタイミングでデータを AI および ML ツールに配信するための準備が整い、これらの新しいユースケースに適切なストレージ インフラストラクチャを確保するための準備が整います。 。 少なくとも、データのボリュームと増加率、ストレージ コスト、上位のデータの種類とサイズ、部門別のデータ使用統計、および「ホット」またはアクティブなデータと「コールド」またはほとんどアクセスされないデータを理解する必要があります。
データ資産について基本レベルの理解を深めたら、メタデータでデータ資産を強化し、検索機能を追加できます。 たとえば、個人を特定できる情報 (PII) や顧客データ、知的財産 (IP) データ、実験名、または機器 ID を含むファイルを検索したい場合があります。 これらのファイルは、準拠ストレージ用にセグメント化することも、分析プラットフォームにフィードすることもできます。
今日、組織全体で AI やその他の研究のユースケースが非常に多くなっているため、中央の IT 担当者と部門の IT 担当者が協力してデータ管理戦略を設計する必要があります。 これにより、ユーザーは最も重要なデータに迅速にアクセスできるだけでなく、必要なときに低コストのストレージにアーカイブされた古いデータにもアクセスできるようになります。