連合学習(Federated Learning)とは?──AWSに聞く「プライバシーと機械学習モデルの精度」の両立方法

 データが足りない。データの機密性が高い。データの多様性に問題がある。このような問題の処方箋として、データを分散させた状態のまま、モデルの学習と再学習を共同で行うFederated Learning(連合学習)に注目が集まる。どのような仕組みでプライバシーに配慮しつつ、モデルを訓練するのか。AWSの識者2人に聞いた。

連合学習(Federated Learning)とは何か?

アマゾン ウェブ サービス ジャパン合同会社 技術統括本部 シニア機械学習量子コンピューティングソリューションアーキテクト 宇都宮聖子氏<br />アマゾン ウェブ サービス ジャパン合同会社 技術統括本部 エンタープライズ技術本部 エネルギー・化学・ヘルスケアライフサイエンス ソリューション部 部長 益子直樹氏

(左より)アマゾン ウェブ サービス ジャパン合同会社 技術統括本部 シニア機械学習量子コンピューティングソリューションアーキテクト 宇都宮聖子氏

アマゾン ウェブ サービス ジャパン合同会社 技術統括本部 エンタープライズ技術本部 エネルギー・化学・ヘルスケアライフサイエンス ソリューション部 部長 益子直樹氏

Federated Learning(以降、連合学習)は機械学習の手法の1つ。宇都宮氏は「医薬品開発のように、プライバシー保護に配慮しなくてはならない分野で、安全に学習するニーズに対応するべく出てきた機械学習の仕組み」と解説する。通常、データ量が多いほど精度の高い結果が得られるが、研究機関や製薬会社が使いたいデータには、患者のプライバシーに関する情報など機密性の高いものが含まれる。データ管理者には自分たちの組織が保有する個人情報を適切に管理する義務がある。そのため、外部との共同利用などはもってのほかとされてきた。連合学習はこのジレンマを解決する手法として期待されている。

その仕組みは次のようなものだ。まず、中央にあるサーバーで訓練用の最初のモデルを作成し、ローカルに供給する。ローカルはそれぞれが自分たちのデータでモデルの訓練を行う。その後、個人情報のように共有してはいけないものを除く処理を行った後、抽出したパラメーター(実態は行列)だけを中央に集約し、共通モデルの精度を向上させる(図1)。

図1:連合学習の仕組み 出典:アマゾン ウェブ サービス ジャパン [画像クリックで拡大]

プライバシー保護のためには、学習データの前処理として、個人情報を除いて匿名化しモデルを作成することなどが求められる。モデルのパラメーターを外部に出すことに問題はないのか。この疑問に対し、「大量の学習データから特徴を抽出し、1つのモデルを作成しますが、モデルから学習データを(リバースエンジニアリングにより)復元することは非常に困難です」と宇都宮氏は説明する。パラメーターの中身は数値なので、数値をアップロードしても、元のデータはローカルに残ったままだ。個人情報が含まれているデータはローカルに残し、学習結果の骨子であるモデルのパラメーターだけを中央にアップロードするのが連合学習の仕組みである。

この仕組みを活用したユースケースとして有名なのが、10社以上のグローバル製薬会社が参加した欧州のコンソーシアムMELLODDY(MachinE Learning Ledger Orchestration for Drug DiscoverY)である。メガファーマと呼ばれるグローバルに事業を展開している製薬会社は、どこも新薬の研究開発に力を入れている。しかし、新薬を市場に出すまでには平均で13年、2700億円が相場と、膨大なコストを要する。AIの貢献できる余地は大きいが、できるだけ多くのデータを集めなければ、満足できる水準の成果は得られない。また、質の高いデータを集められたとしても、それには個人情報が紐づいていて、多様性に問題があることもしばしばだ。だからと言って、お互いのデータを持ち寄ることもできない。さらに、限られたリソースの範囲では連続的な検証が難しいという問題もある。益子氏は「プライバシー」「柔軟性」「スケーラビリティ」の3つの課題を指摘し、お互いに協力するメリットは理解していても、これらの障壁の高さから挑戦しようにもできずにいたことを示した。

欧州の製薬コンソーシアム「MELLODDY」が共同開発に成功した理由

この「プライバシー」「柔軟性」「スケーラビリティ」という3つの課題を解決したのが、連合学習である。MELLODDYでは、各社が持つ化合物ライブラリーと呼ばれる薬の候補リストを持ち寄り、加工したデータを学習材料に使えないかと考えた。通常、製薬会社は特定の症状に作用する化合物の候補として、それぞれが約1億件にも上る数のライブラリーを管理している。

益子氏は、痛み止めの候補となる化合物の探索を例にこう語った。

「化合物ライブラリーの中から、痛みの原因になるタンパク質に作用する新しい化合物を探そうとするとしましょう。これまでは自社のデータから総当たりで該当するものを検出するしか方法がありませんでした。MELLODDYに参加した各社は、化合物ライブラリーの元データは供出せず、新しいアプローチで問題を解決したのです(図2)」(益子氏)

MELLODDYでは2020年に取り組みを始め、2022年に活性予測(特定のタンパク質に作用する化合物の候補の発見)精度が10%向上という成果を得ている。

図2:MELLODDYでのユースケース 出典:アマゾン ウェブ サービス ジャパン
図2:MELLODDYでのユースケース 出典:アマゾン ウェブ サービス ジャパン [画像クリックで拡大]

益子氏によれば、MELLODDYでは結果をブラックボックス化している。

「製薬企業Aのデータで学習した結果“アルファ”をブラックボックス化し、中央を経由して製薬企業Bに渡すと、Bのデータで学習した結果“ベータ”ができます。アルファはブラックボックス化されていて、データAの中身を製薬企業Bが見られるわけではありません。データの帰属も持ち主のAのままです」(益子氏)

それぞれが持つデータに偏りがあっても、みんなで作ったモデルであれば、どの企業が使っても同じ結果になるはずだ。機械学習ではしばしばモデルの学習プロセスがブラックボックスであることが問題になる。連合学習のアプローチは、この特徴を逆手に取り、結果のブラックボックス化を行うことで、データの一部を秘匿したままで精度向上を行う。そのモデルは、一度作れば終わりではない。ローカルではそれぞれが以前よりも賢くなったモデルのパラメーターだけを持ち帰り、最新のデータで学習を続ける。結果のブラックボックスは渡しても、生データは渡さない。よりモデルの精度を上げるために学習を繰り返す。

連合学習の環境はすべてクラウドで構築する

連合学習の環境は、「基本的に各社の自由ですが、中央とのパラメーターのやり取りが発生する分、どこでも同じようにモデルの学習ができる共通環境を用意することが望ましい」と益子氏は話す。複数社が参加する共同研究ともなれば、通常は関係者間の調整に時間を要するが、MELLODDYでは、Infrastructure as a Code(IaC)と呼ばれるインフラ環境をコードで管理するTerraformを導入し、共通の学習環境を迅速に立ち上げることができたという。

益子氏が紹介したAWSで構築した環境の特徴は、各社独自のモデルの学習スペースと共通モデルの管理スペースとの間にデータを整形するための中間レイヤーを設けていることにある(図3)。データとモデルはそれぞれのAWSアカウントの中にある。また、パラメーターだけを中央にアップロードする処理を行うため、データの整形空間を別に用意した。さらに中央のAWSアカウントで共通モデルを管理する構成になっている。

図3:連合学習のシステムアーキテクチャー 出典:アマゾン ウェブ サービス ジャパン
図3:連合学習のシステムアーキテクチャー 出典:アマゾン ウェブ サービス ジャパン [画像クリックで拡大]

宇都宮氏も「必然性があってエッジやオンプレミスが混ざっている分には構わないが、モデルの精度向上という目的を考えるとオールクラウドの方が均質な環境にできるので効率的」と指摘する。いざ環境を用意しようとすると、求める通信スピードを確保できないなど、エッジを採用せざるを得ない場合がある。その場合、中央へのアップロードが懸念材料になるが、モデルそのものではなく、パラメーターをアップロードする分、理論上の通信量は小さく抑えられるはずだ。

最近はヘルスケアだけではなく、金融でも応用例が検討されている。具体的には不正検知への応用である。元々、不正検知のアイデアは古典的な機械学習にルーツがある。「最近の金融犯罪に特有なパターンをより精度高く発見するには、最近の不正パターンを学習しなくてはなりません」と、宇都宮氏はユースケース登場の背景を説明する。ある銀行が経験した不正は、別の銀行も経験するかもしれない。予め知見として共有しておきたいが、医薬品開発の場合と同様に、口座保有者情報を含むデータを全て中央に集約してモデルを作ることはできない。銀行の規模や所在地などで、不正パターンが違っていたとしても、連合学習の仕組みを利用すれば、金融機関全体に役立つ精度の高い不正検知モデルを作ることができる。

データガバナンスと「責任あるAI」の確立に向けて

連合学習の仕組みの利用は、日本ではまだこれからだ。益子氏は「今はデータをスピーディに共有する仕組みを構築しているところで、次のステップで本格的な活用が視野に入るでしょう」と予想する。

日本のヘルスケア業界でのAWS導入例の代表例が中外製薬のものだ。同社はゲノムデータのような超大容量のデータを安全に利用できるようにするため、AWSを導入しChugai Scientific Infrastructure(CSI)と呼ぶ環境を構築した。また、タカラバイオも同社の遺伝子解析・検査受託サービスにおけるデータの納品手段として、AWSを導入してデータを暗号化してのオンライン納品を実現している。さらに第一三共では、AWSを導入し、データプロバイダーのメディカル・データ・ビジョン(MDV)からリアルワールドデータの最新版を毎月納品してもらう体制を整えている。

日本でもプライバシーに配慮しつつ、学習材料となるデータの母数を増やし、知見を得ることが現実的になってくる中、データが増えてきた時に重要になるのが、組織のどこにどんなデータがあるかを整理して、いつでも使えるようにしておく仕組みである。先進企業では、データカタログを整備し、データ管理者を設置している。しかし、そんな組織でも、依頼の数が増えてくることに伴い、管理者は承認手続きに忙殺される悩みを抱えているという。データを使いたい人がどこに何があるかを検索し、お目当てのデータを見つけたら、データオーナーにリクエストを送り、承認を得たらすぐに使えるようになる。一連の手続きを簡素化する仕組みを提供するのがAmazon DataZoneである(図4)。

図4:データ管理を簡素化するAmazon DataZone 出典:アマゾン ウェブ サービス ジャパン
図4:データ管理を簡素化するAmazon DataZone 出典:アマゾン ウェブ サービス ジャパン [画像クリックで拡大]

AWSはAmazon DataZoneの提供を通して、データ管理者の運用負担軽減を実現する計画だ。AWSとして「The Federated Learning」に該当するサービスを提供するかは現時点では未定である。自力で図3のような環境を構築する負担は大きいが、それでも挑戦したいと考える企業が現在利用できるソリューションにAWSパートナーのNVIDIAが提供するNVIDIA FLARE (Federated Learning Application Runtime Environment)がある。NVIDIA FLAREは、複数の組織が共同で機械学習モデルを作る時の環境構築を支援するソフトウェア開発キットとして提供されている。

今後の展望として、AWSが注視するトレンドが「データガバナンスの重要性の増大」である。AWSは以前からフルマネージド型の機械学習サービスAmazon SageMakerを提供してきたが、2022年12月に新しくMLガバナンスツールを発表したのは、そのトレンドに対応してのことだ。MLガバナンスツールは、ユーザーの権限管理とプロジェクトの可視性の向上に着目したツール群で、「機械学習に取り組むSageMakerユーザーが、プロジェクトの透明性向上を実現できると期待しています」と宇都宮氏は語る。

最近、Responsible AI(責任あるAI)というキーワードを聞く機会も増えてきた。ヘルスケアであれば、患者は高齢者ばかりの疾患なのに、モデルを若年層に適用しようとしていないか。継続的なモニタリングを通して、企業はAIの正しい活用に取り組んでいかなくてはならない。責任あるAIを作る上で、AWSの取組みは参考になる。

Original Post>