機械学習により有望物質群とその設計指針を抽出

Digital PR Platform / 2024年8月7日 10時0分

●研究成果
　本研究で用いたクラスタリング手法は、Breimanらの提案したランダムフォレスト分類器に基づいたクラスタリング手法を改変し、回帰モデルに適用できるようにしたものである。
　通常、ランダムフォレストの予測モデルは多数の決定木（用語5）から構成されているが、まずは本手法の概要を説明するために、1本の決定木で分類が行われる様子を図1に示す。決定木は特徴量を用いた不等式から構成されており、例えば、図1では原子番号や原子間距離に基づいて各物質に物性値パターンを割り当てている。ある物性に関するデータを学習した決定木における不等式で使われる特徴・基準は、その物性を予測する上で適切なものが自動的に選択される。したがって、興味ある物性データを学習した決定木上で「同じ経路を辿った物質は類似度が高い」、「そうでないものは類似度が低い」と定義して物質の分類を行えば、対象とする物性に対して適切な基準で構成元素・原子配列の類似度を定義し、また類似度の高い物質をまとめて物質群を定義できるというのが本手法の骨子となるアイデアである。

[画像1]https://digitalpr.jp/simg/1706/92886/550_202_2024080513554866b05b54d90ba.jpg

図 1　決定木による物性予測モデルの概略図

　これを踏まえて具体的な手法の概略図を図2に示す。図2(a)では物質の特徴量空間において、決定木のパターンがどのように表されるかを示している。実用的にはランダムフォレストモデルは予測精度の向上のため、多数（数百〜数千程度）の決定木を用いる（図2(b)）。したがって、その全ての決定木によるパターン分類を考慮した上で物質群の分類を行う必要がある。しかしながら、標準的なクラスタリング手法はこうした多数のパターンにより扱われる情報を直接適用できないため、各データ点（この場合は各物質に割り当てられたパターン）を表形式の数値データで表す必要がある。そのため、本手法では物質がそれぞれの決定木でたどり着いたパターンをone-hot encoding（用語6）で表現して、特徴量空間（x空間）から物性予測モデルに基づいた新しい空間（z空間）に変数変換する。すなわち、図2(c)のように、x空間上で長方形（実際は多次元上の超直方体）の重なりとして表現されていた多数のパターンを、z空間上で通常のベクトル値として表現することが可能となる。したがって、決定木の各パターンを表形式の数値データとして扱うことが可能となり、標準的なクラスタリング手法が適用可能となる。

津波情報気象庁発表

地震情報

機械学習により有望物質群とその設計指針を抽出

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス経済トピックスFeed

機械学習により有望物質群とその設計指針を抽出

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed