合成データとは
こうした実データは金融業務に対して有効ですが、その利用には制約がかかる場合があります。その制約は、プライバシー情報の取り扱いや他業界よりも厳しいとされる金融分野固有の法規制などに関連し発生しています。このような制約に対して、実データを使用するリスクを負うことなく、実データと類似した合成データを使用することが注目されています。
日本では合成データについての法的な位置づけが明確にはなっていませんがこれが整理された場合、合成データを用いると、プライバシー情報を保護することが可能となり、データの共有ができる可能性があります。合成データの作成方法で個人を識別する情報に加工を施すことで、どのようなデータの加工をするかによりますが、他の事業者とデータの共有ができたり、企業内での別の事業にデータを活用することができたりするようになると思われます。
またAIモデルを構築するのに十分でない特定の属性を持つ個人や特定業種の企業のデータを合成し、世界規模での感染症拡大などかつて経験したことのないような大規模な経済的な変動に対するストレステスト用のデータを合成することもできます。
合成データのニーズ
この記事では、J.P. Morgan AI Researchが2024年に公開したSynthetic Data Applications in Financeという論文に基づき、プライバシーレベルに基づいた合成データの作成方法について説明します。この論文では、金融分野で利用するAIのリスクとして、事業上のプライバシーリスクを上げ、合成データでその対応が可能な点を主張しています。具体的な事業のリスクについて説明します。
日本も同様に個人情報保護法等で、プライバシー情報の利用に規制があります。個人情報保護委員会は、金融や情報通信などに対し、分野の業務特性に合わせたより厳格な対応を義務付けるガイドラインを公表しています。一方で個人情報保護法では、匿名加工情報と仮名加工情報のガイドラインを公表し、プライバシー情報の利活用の促進も提唱しています。この匿名加工情報と仮名加工情報の作成には、今回紹介する合成データの作成方法を用いるように整理される見込みもあります。
https://www.ppc.go.jp/personalinfo/legal/guidelines_anonymous/
合成データの作成目的と作成方法
① 個人データの共有を可能にする合成データ
個人データを共有する場合には、共有の目的や対象、実施する地域や影響する法規制などに応じて、それぞれのデータ項目に適切な処理を留意する必要があります。日本では個人情報保護法で、匿名加工情報、仮名加工情報という個人データを保護したデータの利活用が規定されています。記事の公開時ではこうした規定と合成データとの関係は明確になっていない状態です。日本では法的な整理を待つ必要がありますが、規定と合成データの関係整理がされ有効なデータ利活用が促進することが期待されます。

図1:個人データの社内共有を可能にする合成データの作成例
J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成
また、図1に示した年齢と月収はノイズ付加をしています。これは本来のデータを隠し、外部の悪意を持った第三者が、データを入手した場合に、個人を特定してしまう潜在的な攻撃の有効性を減らすための方法です。統計的に無作為なランダムノイズやラプラス分布に従うノイズをデータに追加するなどがされます。ノイズ付加をする場合には、ノイズの量により、合成データを用いた予測や分類などの業務にある程度の精度の低下などがあることを留意する必要があります。学歴の項目は、後続の予測や分析でデータの変換が必要ない項目なので変換をしていないのではないかと推測されます。
このように個人データの一部を合成データとすることで、より柔軟に業務で利用できる可能性が高まります。合成データを作成すると、企業が所有するプライバシー情報を、個人情報保護法のガイドラインにある仮名加工情報、あるいは匿名加工情報として活用できる見込みがあります。業務の内容に応じて適切にプライバシー情報の保護処理をし、有効なAIのデータ拡充が期待されます。
② 存在しない個人や企業データの合成

図2:存在しない個人や企業データの合成データの作成例
J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成
金融分野のユースケースとして、新しい地域(県域などをまたぐ市場参入)や、新しい市場セグメント(特定のスタートアップ企業向け)に対する融資を始める場合での利用が考えられます。過去の取引履歴や融資実績がない新たな事業環境では、AIを使った新たな市場のリスク評価や需要予測が困難です。既存の他の市場の実データや類似の市場の実データをもとにGANなどを使用し、現実味のある新規市場向けの合成データを作成し、リスク評価モデルや需要予測モデルを構築できます。
③ テスト用の大量データの合成

図3:テスト用の大量データの合成
J.P. Morgan AI ResearchのSynthetic Data Applications in Finance(2024)を参考に著者が作成
2024年に開催された金融分野におけるAIの活用をテーマとした国際会議ICAIF‘24(International Conference on AI in Finance)でも、合成データの発表は何件かありました。そうのうちスイス連邦工科大学ローザンヌ校の発表では、前述したGANをベースとして、より実データに近い合成データの作成手法を提案しています。このMarket Conditional Transformer-Encoder Generative Adversarial Network (MC-TE-GAN)という手法は、マクロ経済要因などの時系列に影響を与える情報を追加して組み込むことが可能にしています。この研究では、前例のない金融市場の大幅な価格変動であるCovid-19による市場の影響を適切にモデル化できたとしています。
https://dl.acm.org/action/showFmPdf?doi=10.1145%2F3677052
https://dl.acm.org/doi/pdf/10.1145/3677052.369860
合成データの今後の展望
この記事ではプライバシー保護のために利用した合成データの作成方法を目的ごとに紹介しました。合成データと法規制との関係が整理された場合、合成データで個人情報保護法の仮名加工情報を作成し、企業内でより多くの事業にプライバシー情報を利用することができると思われます。さらに注意深くデータ処理を行うことで匿名加工情報とし、他の企業との共有も可能となることも考えられます。
合成データは、AIのテストやモデルの構築、改善に利用することもできます。生成AIの学習に使うデータが枯渇するという予測もあり、合成データの利用が効率的なモデル構築を促進する流れがあるようです。また、大量のテストデータの作成にも合成データは有効であるという例も紹介しました。
プライバシー情報を含むデータセットは、AIを利用した業務の効率化や収益の拡大には欠かせません。しかし、実データの取得が難しい場合に、実データの特性を踏まえた合成データの利用が有効になるケースも多数発生すると思われます。今回の記事が合成データを活用しAIで利用するデータの拡充を考慮いただくきっかけになればと考えます。