DataCeboは、合成データの生成と評価に使用されるオープンソースのPythonライブラリを提供する米国のスタートアップ企業である。同社はSynthetic Data Vault(以下SDV)と呼ばれるオープンソースのライブラリを作成しており、今回SDVのエンタープライズ版を発表した。
合成データ生成ライブラリを提供するスタートアップDataCeboは2016年にKalyan Veeramachaneni氏とNeha Patki氏によって創業された企業。両者はともにマサチューセッツ工科大学(MIT)のデータ・トゥ・AIラボ(Data to AI Lab)出身である。
SDVと呼ばれる合成データを生成するためのオープンソースライブラリを作成した同社は、850万ドルのシード資金を調達し、数年をかけてSDVのエンタープライズ版を作り上げたという。
オンプレミスで生成AIモデルを構築CEOのVeeramachaneni氏は、リレーショナル データベースや表形式のデータベースから合成データを作成できるこの機能が、SDVをほかの生成AI作成ツールと区別するものであると述べている。
同社の仕組みを活用することで、ユーザーはオンプレミスで生成AIモデルを構築でき、その合成データをさまざまなユースケースに使用できるようになるという。そのため、医療、金融サービス、またはテストやモデル構築の目的で機密データを隠すことが不可欠な場合に有効な仕組みであると言える。
また従来、企業側では合成データを手動で作成する必要があったが、これは非常に面倒なプロセスであり、拡張が難しく、エラーが発生しやすかった。
生成AIを活用すれば、必要なデータの種類を記述するだけで、ソフトウェアが実際のデータセットの特性を調べて、機密情報を公開することなくテスト目的のデータを効率的に作り上げることが可能となる。
オープンソース版のダウンロード数は100万件を超えSDVは非常に人気があり、ダウンロード数は100万件を超え、多くの人々がコミュニティで活発に活動している。そのため、バグや何かがあった場合には、公開オープンソースのユーザーがすぐに見つけて、あらゆる問題に対処することができる状態であるとのこと。
オープンソース版とエンタープライズ版の違いは規模SDVのオープンソース版とエンタープライズ版の大きな違いは規模である。今回発表されたエンタープライズ版は最大100のテーブルを処理できるが、オープンソースは少数のテーブルのみを処理するように設計されている。これまでのところ、ユーザーは20~30を超えるテーブルにもとづいてモデルを構築してきたという。
同社の従業員数は現在11名だが、事業の成長に応じて来年には20名程度まで増員する予定であり、さらなる事業拡大を目指す構えだ。
参考・引用元:
DataCebo 公式サイト
Synthetic Data Vault
(文・よし @yoshibizcom)