Infoseek 楽天

米国スタートアップDataCebo、生成AIモデル構築&合成データ作成できる“Pythonライブラリ”のエンタープライズ版を発表

Techable 2023年12月26日 17時0分

DataCeboは、合成データの生成と評価に使用されるオープンソースのPythonライブラリを提供する米国のスタートアップ企業である。同社はSynthetic Data Vault(以下SDV)と呼ばれるオープンソースのライブラリを作成しており、今回SDVのエンタープライズ版を発表した。

合成データ生成ライブラリを提供するスタートアップ

DataCeboは2016年にKalyan Veeramachaneni氏とNeha Patki氏によって創業された企業。両者はともにマサチューセッツ工科大学(MIT)のデータ・トゥ・AIラボ(Data to AI Lab)出身である。

SDVと呼ばれる合成データを生成するためのオープンソースライブラリを作成した同社は、850万ドルのシード資金を調達し、数年をかけてSDVのエンタープライズ版を作り上げたという。

オンプレミスで生成AIモデルを構築

CEOのVeeramachaneni氏は、リレーショナル データベースや表形式のデータベースから合成データを作成できるこの機能が、SDVをほかの生成AI作成ツールと区別するものであると述べている。

同社の仕組みを活用することで、ユーザーはオンプレミスで生成AIモデルを構築でき、その合成データをさまざまなユースケースに使用できるようになるという。そのため、医療、金融サービス、またはテストやモデル構築の目的で機密データを隠すことが不可欠な場合に有効な仕組みであると言える。

また従来、企業側では合成データを手動で作成する必要があったが、これは非常に面倒なプロセスであり、拡張が難しく、エラーが発生しやすかった。

生成AIを活用すれば、必要なデータの種類を記述するだけで、ソフトウェアが実際のデータセットの特性を調べて、機密情報を公開することなくテスト目的のデータを効率的に作り上げることが可能となる。

オープンソース版のダウンロード数は100万件を超え

SDVは非常に人気があり、ダウンロード数は100万件を超え、多くの人々がコミュニティで活発に活動している。そのため、バグや何かがあった場合には、公開オープンソースのユーザーがすぐに見つけて、あらゆる問題に対処することができる状態であるとのこと。

オープンソース版とエンタープライズ版の違いは規模

SDVのオープンソース版とエンタープライズ版の大きな違いは規模である。今回発表されたエンタープライズ版は最大100のテーブルを処理できるが、オープンソースは少数のテーブルのみを処理するように設計されている。これまでのところ、ユーザーは20~30を超えるテーブルにもとづいてモデルを構築してきたという。

同社の従業員数は現在11名だが、事業の成長に応じて来年には20名程度まで増員する予定であり、さらなる事業拡大を目指す構えだ。

参考・引用元:
DataCebo 公式サイト
Synthetic Data Vault

(文・よし @yoshibizcom)

この記事の関連ニュース