機械学習により有望物質群とその設計指針を抽出
Digital PR Platform / 2024年8月7日 10時0分
●研究成果
本研究で用いたクラスタリング手法は、Breimanらの提案したランダムフォレスト分類器に基づいたクラスタリング手法を改変し、回帰モデルに適用できるようにしたものである。
通常、ランダムフォレストの予測モデルは多数の決定木(用語5)から構成されているが、まずは本手法の概要を説明するために、1本の決定木で分類が行われる様子を図1に示す。決定木は特徴量を用いた不等式から構成されており、例えば、図1では原子番号や原子間距離に基づいて各物質に物性値パターンを割り当てている。ある物性に関するデータを学習した決定木における不等式で使われる特徴・基準は、その物性を予測する上で適切なものが自動的に選択される。したがって、興味ある物性データを学習した決定木上で「同じ経路を辿った物質は類似度が高い」、「そうでないものは類似度が低い」と定義して物質の分類を行えば、対象とする物性に対して適切な基準で構成元素・原子配列の類似度を定義し、また類似度の高い物質をまとめて物質群を定義できるというのが本手法の骨子となるアイデアである。
[画像1]https://digitalpr.jp/simg/1706/92886/550_202_2024080513554866b05b54d90ba.jpg
図 1 決定木による物性予測モデルの概略図
これを踏まえて具体的な手法の概略図を図2に示す。図2(a)では物質の特徴量空間において、決定木のパターンがどのように表されるかを示している。実用的にはランダムフォレストモデルは予測精度の向上のため、多数(数百〜数千程度)の決定木を用いる(図2(b))。したがって、その全ての決定木によるパターン分類を考慮した上で物質群の分類を行う必要がある。しかしながら、標準的なクラスタリング手法はこうした多数のパターンにより扱われる情報を直接適用できないため、各データ点(この場合は各物質に割り当てられたパターン)を表形式の数値データで表す必要がある。そのため、本手法では物質がそれぞれの決定木でたどり着いたパターンをone-hot encoding(用語6)で表現して、特徴量空間(x空間)から物性予測モデルに基づいた新しい空間(z空間)に変数変換する。すなわち、図2(c)のように、x空間上で長方形(実際は多次元上の超直方体)の重なりとして表現されていた多数のパターンを、z空間上で通常のベクトル値として表現することが可能となる。したがって、決定木の各パターンを表形式の数値データとして扱うことが可能となり、標準的なクラスタリング手法が適用可能となる。
この記事に関連するニュース
-
窒素原子置換によるわずかな差で空間と水素・電子輸送物性を精密コントロール
Digital PR Platform / 2024年8月9日 14時0分
-
ストレッチャブルデバイスとAIを統合した動作認識スマートシステムを開発【GMOペパボ】
PR TIMES / 2024年8月8日 14時15分
-
絶縁体ポリオキソメタレートの半導体化に成功
共同通信PRワイヤー / 2024年8月8日 14時0分
-
立方体型の超原子が結合した二次元シートを創出 〜高効率な水素発生触媒の開発に期待〜
共同通信PRワイヤー / 2024年7月26日 16時0分
-
ペロブスカイト太陽電池の材料探索を深層学習で効率化、「次の世代」への責任果たす
ASCII.jp / 2024年7月24日 10時0分
ランキング
-
1ゆうちょ銀、貯金金利引き上げ=5倍の年0.1%、来月2日
時事通信 / 2024年8月9日 17時59分
-
2生活保護も断られ、収入は「年金月5万円のみ」。酷暑でもエアコンつけられず…68歳で失業した非正規雇用おひとりさま老人の「酷すぎる終着点」【FPが解説】
THE GOLD ONLINE(ゴールドオンライン) / 2024年8月9日 11時45分
-
3テレビCMを打ちまくる「Temu」は危険なのか 激安を実現するビジネスモデルとは
ITmedia ビジネスオンライン / 2024年8月9日 6時5分
-
4【驚愕】「地球以外に"生命体"いる」納得理由3つ 「宇宙人文明は36個もある」という研究論文も
東洋経済オンライン / 2024年8月9日 11時0分
-
5フワちゃんCM削除「Googleの判断」が妥当な理由 「やす子が許せば問題ない」とは企業は考えない
東洋経済オンライン / 2024年8月9日 20時40分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)