機械学習により有望物質群とその設計指針を抽出
Digital PR Platform / 2024年8月7日 10時0分
●研究成果
本研究で用いたクラスタリング手法は、Breimanらの提案したランダムフォレスト分類器に基づいたクラスタリング手法を改変し、回帰モデルに適用できるようにしたものである。
通常、ランダムフォレストの予測モデルは多数の決定木(用語5)から構成されているが、まずは本手法の概要を説明するために、1本の決定木で分類が行われる様子を図1に示す。決定木は特徴量を用いた不等式から構成されており、例えば、図1では原子番号や原子間距離に基づいて各物質に物性値パターンを割り当てている。ある物性に関するデータを学習した決定木における不等式で使われる特徴・基準は、その物性を予測する上で適切なものが自動的に選択される。したがって、興味ある物性データを学習した決定木上で「同じ経路を辿った物質は類似度が高い」、「そうでないものは類似度が低い」と定義して物質の分類を行えば、対象とする物性に対して適切な基準で構成元素・原子配列の類似度を定義し、また類似度の高い物質をまとめて物質群を定義できるというのが本手法の骨子となるアイデアである。
[画像1]https://digitalpr.jp/simg/1706/92886/550_202_2024080513554866b05b54d90ba.jpg
図 1 決定木による物性予測モデルの概略図
これを踏まえて具体的な手法の概略図を図2に示す。図2(a)では物質の特徴量空間において、決定木のパターンがどのように表されるかを示している。実用的にはランダムフォレストモデルは予測精度の向上のため、多数(数百〜数千程度)の決定木を用いる(図2(b))。したがって、その全ての決定木によるパターン分類を考慮した上で物質群の分類を行う必要がある。しかしながら、標準的なクラスタリング手法はこうした多数のパターンにより扱われる情報を直接適用できないため、各データ点(この場合は各物質に割り当てられたパターン)を表形式の数値データで表す必要がある。そのため、本手法では物質がそれぞれの決定木でたどり着いたパターンをone-hot encoding(用語6)で表現して、特徴量空間(x空間)から物性予測モデルに基づいた新しい空間(z空間)に変数変換する。すなわち、図2(c)のように、x空間上で長方形(実際は多次元上の超直方体)の重なりとして表現されていた多数のパターンを、z空間上で通常のベクトル値として表現することが可能となる。したがって、決定木の各パターンを表形式の数値データとして扱うことが可能となり、標準的なクラスタリング手法が適用可能となる。
この記事に関連するニュース
-
無機化合物の結晶構造を計算コストかけず網羅的に探索、経験則を不等式で表すのがミソ 東大
マイナビニュース / 2024年11月28日 19時20分
-
【産総研グループ/AIST Solutions】化学データ解析アプリ公開によるサービス提供を開始
PR TIMES / 2024年11月20日 17時45分
-
準結晶分野のデータ駆動型研究を促進する基盤データベース ―HYPOD-X―を公開
共同通信PRワイヤー / 2024年11月14日 12時30分
-
リガク、非晶質炭素材料の原子構造を3Dで可視化する新技術を開発
PR TIMES / 2024年11月14日 11時45分
-
機械学習でナトリウムイオン電池材料の性能予測から実証まで ~次世代電池開発の高速化、低コスト化の実現に大きく貢献~
PR TIMES / 2024年11月6日 10時0分
ランキング
-
1コーヒー豆が歴史的高騰、NY市場で最高値…産地のブラジルやベトナムで不作
読売新聞 / 2024年11月29日 0時0分
-
2ダイハツ 軽トラ「ハイゼット トラック ローダンプ」約5千台リコール届け出
ABCニュース / 2024年11月28日 15時44分
-
3為替相場 29日(日本時間 7時)
共同通信 / 2024年11月29日 7時0分
-
4読売333、資産運用立国を推進へ…「指数市場は活性化する」
読売新聞 / 2024年11月28日 21時41分
-
5「トイレ流せない…」水道代にも値上げの波 千葉で水道代を2割“値上げ”方針 住民からは悲鳴も【Nスタ解説】
TBS NEWS DIG Powered by JNN / 2024年11月25日 21時9分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください