複雑化するインフラで発生するAI活用の課題……解決のためにまずは、ストレージの機能を使い倒す

 前編では、データの運用という観点からAI活用を加速させるデータパイプラインやDataOpsについて解説しました。後編では、AIモデルが本番環境にデプロイされるまでの時間を短縮するための手法である「MLOps」と、エンタープライズストレージの運用機能について解説します。ストレージインフラからの支援により、データパイプラインやDataOps、MLOpsの実践を進め、自社のAI活用を加速させましょう。

AI稼働までの時間を短縮

データパイプラインやDataOpsを活用することで、データを中心とした運用が上手く回せるようになり、データサイエンティストはAI活用に集中できるようになったとしましょう。次に現れる課題は、データサイエンティストが生み出したAIが本番環境にデプロイされるまでに時間がかかっているということです。

ある調査によると、40%以上の組織がAIを本番稼動させるのに2ヵ月以上かかり、半数近くの組織は6ヵ月から1年を要しているという結果が得られています(AI Infrastructure Alliance, AI INFRASTRUCTURE ECOSYSTEM OF 2022)。最近のAI技術の発展を見ていると、どんどんと新たな技術やサービスが生み出されており、数ヵ月後の状況ですら見通すのが難しいほどです。自社のAI活用の仮説検証のループを数ヵ月~1年といった期間からなるべく短くしていきたいというのは、ビジネスへの価値を考えると自然なことでしょう。AI活用から本番環境へのデプロイといった以下のようなワークフローを、効率的に実行するための考え方として役に立つのが、「MLOps」という手法です。

画像を説明するテキストなくても可

名前から分かるかもしれませんが、DataOpsと同じく、アプリケーション開発のプラクティスであるDevOpsの考え方をAI活用に応用したものです。基本的な進め方としては、DevOps/DataOpsのプラクティスと同様、AI活用からモデルデプロイまでの様々なプロセスを自動化し、状況をモニタリングしつつ継続的に改善を行うものです。前編で説明したDataOpsはデータ中心で、MLOpsはAI中心の運用手法となります。そのため、一部では重複している領域もあり、互いに補完する手法となります。

もともと、Googleによって提唱された手法であり、主要なクラウドベンダーからはMLOpsを支援するためのサービスが提供されています。現在では、Googleのエンジニアによってオープンソースで利用できる「Kubeflow」といったソフトウェアも公開されており、オンプレミス環境でも利用が可能です。

エンタープライズストレージの機能をフル活用

さて、ここまででLLMや生成AIを念頭に、一歩踏み込んだ活用を考えた際に、データパイプラインやDataOpsといったデータ運用の視点や、MLOpsのようなAI運用の視点が重要となることを解説しました。

こうした考え方や手法に基づいて実際に運用を行うためには、ベンダーが提供するクラウドサービスやソフトウェアを利用する方法や、OSSまたはスクラッチで独自の基盤を開発するなどの方法が基本となります。一つのクラウドだけ、または一つのデータセンターだけといった単一の環境の場合はそうした進め方でも大きな問題は起きないでしょう。しかし、複数データセンターを組み合わせた環境や、ハイブリッド、さらにはマルチクラウドといった環境にスケールをさせていくことを考えると、各ベンダーの仕様の違いやネットワーク、運用性など、いろいろな課題や困難が存在します。

そうしたときに思い出してほしいのが、自社が導入しているストレージインフラの機能を上手く利用することです。AI活用におけるストレージインフラというと、パフォーマンスや容量が重視されますが、企業で使われるようなエンタープライズストレージには様々な機能やサポートが備わっています。ここからは、データパイプラインやDataOps、MLOpsを実現する際にも活用できる一般的なエンタープライズストレージの機能やサポートについて解説をします。

マルチプロトコルサポートによるデータアクセス

Bestseller No. 1
Mybaby Automatic Soap Dispenser, 1.1 Pound
  • Works With All Liquid Hand Soaps
  • Plays 20 Second Song That Teaches Children How To...
  • Motion Sensor Technology Provides Sanitary,...
  • Magnetically Attached Drip Tray Removes Easily For...
  • Self-cleaning Function Prevents Clogs And Mess
SaleBestseller No. 2
Asterom Walking Cane - Handmade Wolf Cane - Cool Walking Canes for Men and Women - Wooden, Carved, Unique - Walking Sticks for Men & Seniors (36 Inch)
  • STYLISH CANE FROM THE RED CARPET TO YOUR HOME! Our...
  • 100% SATISFACTION GUARANTEED! Buy with confidence,...
  • EXCEPTIONAL COMFORT DUE TO ERGONOMIC HANDLE. The...
  • CHOOSE THE CORRECT LENGTH TO AVOID SPINE PAIN....
  • WIDE QUAD CANE TIP COMPATIBLE. Need extra...

企業で利用されるエンタープライズストレージの中には、一つの筐体やボリュームでNFSやCIFSといった複数のプロトコルを利用できるものがあります。複数のデータソースからデータを収集するパイプラインを考えた際、収集する側で複数のプロトコルをサポートしていることはパイプライン全体を簡素化することにつながります。また、クラウド上などでは一般的になっているオブジェクトストレージのAmazon S3プロトコルにも対応している場合、クラウドと同様のパイプラインをそのままオンプレミスで利用することが可能です。

基本的な運用に必要な管理機能

エンタープライズストレージは、もともとデータベースやファイルサーバーのような用途で利用されているため、基本的な運用に必要となる管理機能が充実しています。AI活用の用途においても、データ保護やバージョニング、セキュリティといった基本的な管理機能は必要となります。もちろん、アプリ側で同様の機能を実現することは可能ですが、シンプルさやパフォーマンスといった観点でストレージの機能を利用した方が良い場合が多いです。たとえば、複数のデータサイエンティストが利用する実験データをそれぞれの環境にコピーする必要がある場合、単純にデータをコピーして複製をするとその容量分の時間がかかってしまいますが、ストレージ機能によるスナップショットからボリューム作成を行えば瞬時に複製が完了します。

コンテナ対応

DataOpsやMLOpsを実現することで、データサイエンティストがAIモデル開発に集中することができます。先進的な企業では、Kubernetesのようなコンテナ基盤を使い、データサイエンティストが使いたいリソースを払い出すような仕組みによって、環境払い出しの依頼を自動化しています。コンテナからストレージ利用するCSIドライバーがベンダーから提供されている場合、コンピュートリソースだけでなくストレージに関しても自動的なリソース払い出しが実現できます。

またベンダーによってはストレージの管理APIのSDKを公開している場合もあります。その場合、データセットを実験ごとにバックアップしてバージョン管理するといったワークフローを、データサイエンティストが開発する機械学習のコード上から実行するようなシームレスな活用も実現できます。

クラウド連携機能によるハイブリット・マルチクラウドの実現

特に生成AIやLLMの活用を考えた際、どうしてもクラウド上でしか利用できないベンダーのサービスや機能が存在しています。独自のLLMモデルをスクラッチで開発するようなユースケースではない場合、オンプレミス環境で保存されているデータをクラウドに連携するデータパイプラインの検討は必須となるでしょう。エンタープライズストレージの場合、クラウドベンダーのオブジェクトストレージと連携するような機能や、クラウド上に同様のストレージを用意してミラーリングやキャッシュを行える機能を持つものがあり、シンプルなハイブリッド・マルチクラウド環境のデータパイプラインが実現できます。

これからAI活用に取り組む方々へ

ここまで、生成AIやLLMといったAI技術を念頭に、さらに一歩踏み込んだ活用をする際に重要となるデータとAIモデルの運用面の考え方とそのインフラについて解説しました。2024年も様々なAI技術が発表されていくことが予想されますが、そうした不透明な状況でも自社のAI活用を進めていく必要があります。

New
Rose Quartz Agate | Serving Tray with Brass Handles | Circular (Gold - Finish), Diameter(12 inch)
  • The natural look of agate stone creates a unique...
  • The edges of each piece are electroplated (NOT...
  • Handles are solid brass.
  • Available in 12", 14" and 16" diameter
  • Can do silver, rose gold, or gold plating for...
New
AANTHROPOLOGY By Rhea White Crystal Agate Cheese Platter/Tray | Circular (Gold - Finish), Diameter(12 inches)
  • The natural look of agate stone creates a unique...
  • The edges of each piece are electroplated (NOT...
  • Handles are solid brass.
  • Available in 12", 14" and 16" diameter
  • Can do silver, rose gold, or gold plating for...
New
Magenta Agate Aventurine Set of 4 Large Coasters/Sign Boards (Rose Gold - Finish)
  • Sold as a set of 4 pieces
  • 4" x 4"
  • 10 - 12 mm thick
  • Natural stone will vary in size, color, and...
  • Each piece has 4 rubber pads to avoid scratching...

ここまでのおさらいをしましょう。まず重要なのが、自社で活用したいデータ自体の性質を理解することです。多種多様に分散したデータがある場合、そうしたデータを活用するために収集する仕組みはそれらに応じて複雑化してしまいます。そうした際に手助けになるのが、データ中心の運用観点ではデータパイプラインやDataOps、AI中心の運用観点ではMLOpsといった考え方や手法です。

一つのデータセンターやクラウド上にデータが存在している場合、ベンダーのサービスやソフトウェアを利用や、OSSやスクラッチを組み合わせることでデータパイプラインが構築できるでしょう。しかし、複数拠点やマルチ・ハイブリッドクラウドといった環境にスケールしていく場合は、各ベンダーの仕様の違いやネットワーク、運用性などの課題や困難がつきものです。そうした時は、自社に導入されているストレージの機能を思い出してください。サービスやアプリケーションで実現するよりもシンプルなデータパイプラインを、新しい仕組みなしで実現できる可能性があります。素早くデータパイプラインが整備できれば、AI活用の試行錯誤の回数を増やし、価値創造に集中できることでしょう。

Original Post>

Leave a Reply