「金融が変われば、社会も変わる!」を合言葉に、未来の金融を描く方々の想いや新規事業の企画に役立つ情報を発信!

金融が変われば、社会も変わる!

トレンドを知る

合成データ 機械学習、AIのデータ拡充方法のひとつ

画像

金融分野では顧客の資金需要の予測や、金融取引の異常検知など多くのAIの応用がされています。金融分野は厳しい規制がされ、同業他社との競争も激しい状態です。こうしたなか、プライバシーや公平性などを加味したうえでAIの応用の質を向上させるために「合成データ」を用いたアプローチが注目されています。合成データの活用でAIの学習データやテストデータの拡充が実現できます。今回は合成データの利用方法とそれに対する作成方法について海外で発表された論文をもとに説明します。

合成データとは

合成データ(synthetic data)とは、コンピューターによって作成するデータです。現実世界で起こったことがらを収集した実データではありません。金融分野でのAIの利用には、過去の業務で蓄積された実データをAIの学習データとしてAIモデルを構築し、過去の事例の分析や、これからの収益やリスクを予測するやり方がされてきました。金融分野では、勘定系システムのデータに加え2010年代から情報系システムが発展し、多くのデータが蓄積されそのデータが業務の効率化や収益性の向上に利用されています。

こうした実データは金融業務に対して有効ですが、その利用には制約がかかる場合があります。その制約は、プライバシー情報の取り扱いや他業界よりも厳しいとされる金融分野固有の法規制などに関連し発生しています。このような制約に対して、実データを使用するリスクを負うことなく、実データと類似した合成データを使用することが注目されています。

日本では合成データについての法的な位置づけが明確にはなっていませんがこれが整理された場合、合成データを用いると、プライバシー情報を保護することが可能となり、データの共有ができる可能性があります。合成データの作成方法で個人を識別する情報に加工を施すことで、どのようなデータの加工をするかによりますが、他の事業者とデータの共有ができたり、企業内での別の事業にデータを活用することができたりするようになると思われます。

またAIモデルを構築するのに十分でない特定の属性を持つ個人や特定業種の企業のデータを合成し、世界規模での感染症拡大などかつて経験したことのないような大規模な経済的な変動に対するストレステスト用のデータを合成することもできます。

合成データのニーズ

なぜ合成データは必要とされているのでしょうか?そこには、実データの利用に必要となるプライバシー情報保護に起因する、個人情報利用の困難さ、AIの学習データ不足、大量のテストデータの必要性など解決すべき課題があります。合成データによりAIで利用できるデータを社内外で利用できる幅が広がり、学習データやテストデータの拡充が見込まれるのです。

この記事では、J.P. Morgan AI Researchが2024年に公開したSynthetic Data Applications in Financeという論文に基づき、プライバシーレベルに基づいた合成データの作成方法について説明します。この論文では、金融分野で利用するAIのリスクとして、事業上のプライバシーリスクを上げ、合成データでその対応が可能な点を主張しています。具体的な事業のリスクについて説明します。
事業上のプライバシーリスクとは具体的には法的な規制への対応が相当します。米国では、公正信用報告法(FCRA:Fair Credit Reporting Act)があり米国での個人情報の収集や利用や開示を規制しています。このほかにも、不公正、欺瞞的、または虐待的な行為または慣行に関する規制(UDAAP:Unfair, Deceptive, or Abusive Acts or Practices)があり、消費者を識別可能なデータの共有や使用は、この規制に抵触するリスクがあります。消費者の個人情報や消費者個人を識別するデータの不適切な利用は、その情報やデータのステークホルダーとの訴訟リスクなどにも発展することもあります。また、企業の顧客情報や企業の特性に関する機密性のあるデータを公開することは、競争や、独占禁止、インサイダー取引などのリスクをもたらす可能性もあります。機密情報の共有やAIでの利用には注意が必要な状態です。

日本も同様に個人情報保護法等で、プライバシー情報の利用に規制があります。個人情報保護委員会は、金融や情報通信などに対し、分野の業務特性に合わせたより厳格な対応を義務付けるガイドラインを公表しています。一方で個人情報保護法では、匿名加工情報と仮名加工情報のガイドラインを公表し、プライバシー情報の利活用の促進も提唱しています。この匿名加工情報と仮名加工情報の作成には、今回紹介する合成データの作成方法を用いるように整理される見込みもあります。
個人情報の保護に関する法律についてのガイドライン (仮名加工情報・匿名加工情報編)
https://www.ppc.go.jp/personalinfo/legal/guidelines_anonymous/
このような状況を踏まえ、AIで利用するデータの拡充に貢献する合成データについて、作成目的と作成方法の観点で説明します。

合成データの作成目的と作成方法

論文Synthetic Data Applications in Financeで紹介されている合成データの作成目的は大きく3種類に分類できます。その分類は、①個人データの共有を可能にする、②データを拡張しAIのテストやモデル改善に利用する、③大量のデータを作成しシステムのストレステストに利用する、というものです。これを軸に合成データをどのように作成するのかを説明します。

① 個人データの共有を可能にする合成データ

図1は個人データを共有するための合成データ作成の例になります。この例では、氏名、社会保障番号、居住地、性別といった個人を識別する情報は、削除または合成の処理を行っています。このほかの処理には、機密データを伏せ字にするマスク化や、機密データをトークンというランダムな文字列に置き換えるトークン化もあります。

個人データを共有する場合には、共有の目的や対象、実施する地域や影響する法規制などに応じて、それぞれのデータ項目に適切な処理を留意する必要があります。日本では個人情報保護法で、匿名加工情報、仮名加工情報という個人データを保護したデータの利活用が規定されています。記事の公開時ではこうした規定と合成データとの関係は明確になっていない状態です。日本では法的な整理を待つ必要がありますが、規定と合成データの関係整理がされ有効なデータ利活用が促進することが期待されます。

図1:個人データの社内共有を可能にする合成データの作成例

J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成

この例の居住地で使われる合成の手続きは、Pythonのライブラリなどを使うことで実施できます。具体的にはSynthcity、SDV(Synthetic Data Vault)、DataSynthesizerなどのライブラリで合成データを作成できます。SDVは、表形式の構造化データや時系列データの作成と評価に重点を置いたものです。SDVは、作成されたデータセットがもとの実データに構造と統計特性という点で類似することを確保しながら、さまざまなユースケースに利用できるライブラリと評価されています。最近ではGPTなどの生成AIで合成データを作ることもできます。作成された合成データは、妥当性の確認や検証が必要になります。

また、図1に示した年齢と月収はノイズ付加をしています。これは本来のデータを隠し、外部の悪意を持った第三者が、データを入手した場合に、個人を特定してしまう潜在的な攻撃の有効性を減らすための方法です。統計的に無作為なランダムノイズやラプラス分布に従うノイズをデータに追加するなどがされます。ノイズ付加をする場合には、ノイズの量により、合成データを用いた予測や分類などの業務にある程度の精度の低下などがあることを留意する必要があります。学歴の項目は、後続の予測や分析でデータの変換が必要ない項目なので変換をしていないのではないかと推測されます。

このように個人データの一部を合成データとすることで、より柔軟に業務で利用できる可能性が高まります。合成データを作成すると、企業が所有するプライバシー情報を、個人情報保護法のガイドラインにある仮名加工情報、あるいは匿名加工情報として活用できる見込みがあります。業務の内容に応じて適切にプライバシー情報の保護処理をし、有効なAIのデータ拡充が期待されます。

② 存在しない個人や企業データの合成

先ほど説明した①の方法でのデータの合成では、もとのデータの内容を行単位で変換するためデータの量は増えません。存在しない個人や企業データの合成の目的では、もとの実データを分析して新しいデータを合成することを目指します。図2は左の実データをもとに右の合成データを作成したイメージです。

図2:存在しない個人や企業データの合成データの作成例

J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成

氏名、社会保障番号、居住地は、先ほど例示したPythonのライブラリなどを使い合成します。性別、年齢、月収、学歴の項目は、特定の統計的分布に基づくモデルや、GAN(Generative Adversarial Network:敵対的生成ネットワーク)などを利用して新たなデータを作ります。GANとは、データから特徴を学習して実在しないデータを生成するAI技術です。これらの方法は、実データと類似した傾向を持ちながら、実データとは異なる新しいデータの作成を可能にします。

金融分野のユースケースとして、新しい地域(県域などをまたぐ市場参入)や、新しい市場セグメント(特定のスタートアップ企業向け)に対する融資を始める場合での利用が考えられます。過去の取引履歴や融資実績がない新たな事業環境では、AIを使った新たな市場のリスク評価や需要予測が困難です。既存の他の市場の実データや類似の市場の実データをもとにGANなどを使用し、現実味のある新規市場向けの合成データを作成し、リスク評価モデルや需要予測モデルを構築できます。

③ テスト用の大量データの合成

図3は、テスト用に大量のデータを合成するイメージです。氏名、社会保障番号、居住地はPythonのライブラリなどを使い合成します。この目的では、それ以外の項目は実データが生み出されるプロセスの知識やルールに基づいたシミュレーションにより新たにデータを作成します。シミュレーションに基づき作成されたデータは、実データから統計的特性の影響を受けます。このシミュレーションにより実データの特性を持った大量の合成データが作成されます。

図3:テスト用の大量データの合成

J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成

この方法で作られた合成データは金融市場のストレステストに利用されます。英国がEUを脱退したBrexitは金融市場に大きな影響を与えました。2020年に世界中に拡大したCovid-19も同様です。過去に経験したことのないイベントが発生すると、取引量が想像以上に増える可能性があります。こうしたイベントに対して金融サービスを実現するソフトウェアがどのような挙動をするかを事前にテストし、システムの安定性を確保することが重要になります。実データをこのようなテストに利用することは、プライバシーの観点から困難です。J.P. Morgan AI Researchはストレステストをするべく合成データを作成しテストしました。彼らは数百万行の合成データを作成しテストに使用したと報告しています。この目的においても、大量の合成されたテストデータでストレスにさらされるであろうAIの挙動をテストすることが可能になります。

2024年に開催された金融分野におけるAIの活用をテーマとした国際会議ICAIF‘24(International Conference on AI in Finance)でも、合成データの発表は何件かありました。そうのうちスイス連邦工科大学ローザンヌ校の発表では、前述したGANをベースとして、より実データに近い合成データの作成手法を提案しています。このMarket Conditional Transformer-Encoder Generative Adversarial Network (MC-TE-GAN)という手法は、マクロ経済要因などの時系列に影響を与える情報を追加して組み込むことが可能にしています。この研究では、前例のない金融市場の大幅な価格変動であるCovid-19による市場の影響を適切にモデル化できたとしています。
Proceedings of the 5th ACM International Conference on AI in Finance
https://dl.acm.org/action/showFmPdf?doi=10.1145%2F3677052
Macroeconomic Conditioned Synthetic Financial Markets
https://dl.acm.org/doi/pdf/10.1145/3677052.369860

合成データの今後の展望

今回は、合成データの使用目的に合わせ、①個人データの共有を可能にする、②データを拡張しAIのテストやモデル改善に利用する、③大量のデータを作成しシステムのストレステストに利用する、に分類し説明しました。合成データの可用性は高く、J.P. Morgan AI Researchの論文には、クレジットカードの不正利用の実データをもとにさまざまな合成手法を用いた合成データの対比を行っています。このほかに、銀行のモバイルアプリ上でのユーザー行動などの時系列データを合成する例も紹介されています。

この記事ではプライバシー保護のために利用した合成データの作成方法を目的ごとに紹介しました。合成データと法規制との関係が整理された場合、合成データで個人情報保護法の仮名加工情報を作成し、企業内でより多くの事業にプライバシー情報を利用することができると思われます。さらに注意深くデータ処理を行うことで匿名加工情報とし、他の企業との共有も可能となることも考えられます。

合成データは、AIのテストやモデルの構築、改善に利用することもできます。生成AIの学習に使うデータが枯渇するという予測もあり、合成データの利用が効率的なモデル構築を促進する流れがあるようです。また、大量のテストデータの作成にも合成データは有効であるという例も紹介しました。
しかし、合成データの実用にはいくつかの課題があります。作成された合成データは実データに類似し、業務での活用に十分な妥当性の確認や検証ができているかが問われます。妥当な合成データの作成方法が選択されているかの確認は必要です。個人情報を保護する法律や規制と合成データの関係整理も期待されます。また、プライバシー情報を隠ぺいした合成データを解析し、実データを推測するような悪意を持った攻撃も存在します。こうした攻撃に対する対策も合成データを利用するには必要な要素です。

プライバシー情報を含むデータセットは、AIを利用した業務の効率化や収益の拡大には欠かせません。しかし、実データの取得が難しい場合に、実データの特性を踏まえた合成データの利用が有効になるケースも多数発生すると思われます。今回の記事が合成データを活用しAIで利用するデータの拡充を考慮いただくきっかけになればと考えます。

企業の研究開発部門で、ナレッジマネジメント、Web系アプリケーションの研究開発に従事。事業部門で、業務プロセスの分析と業務設計を行い、事務の集中化やヘルプデスクの安定運用のための機械学習の適用などを経験。現在は金融分野における機械学習の応用を目的とし、自然言語処理、説明可能性、AIの公平性、異常検知などの調査、ユースケースの検討に従事。

感想・ご相談などをお待ちしています!

お問い合わせはこちら
アイコン