データ分析や機械学習に欠かせない「前処理」の共通化を目指したオープンソースが国内で発足
PR TIMES / 2017年8月31日 8時53分
データサイエンティストの業務の9割と言われる前処理をコミュニティベースで共通化と改善を目的とする。
オープンデータのフォーマット共通化を目指したプロジェクト http://dataset.jp とそれらのプラクティスを元にデータの前処理のフレームワーク化を目的としたプロジェクト datakit の2つが発足された
[画像: https://prtimes.jp/i/17594/12/resize/d17594-12-117514-pixta_30395521-0.jpg ]
■データの前処理
人工知能、ビッグデータの現場において、綺麗に加工されモデリングや分析のアルゴリズムを施せるデータがすぐに手に入る事はほぼあり得ない。
まずは有益なデータソースを探すところから始まり、そのデータを理解しデータフォーマット(配列, データフレーム..)に加工し分析可能なデータの型に変換(例えば男、女という文字列を整数型に変換など)する必要がある。
またそれに加えて外れ値や欠損値、連続値の離散化などのデータの正規化を行わなければ正しい分析をする事は出来ない。
現状、モデリングや分析それ自体に対するフレームワークはオープンソースを含め存在するが、この事前処理を共通のプラクティスとしてフレームワーク化する動きは必ずしも活発とは言えない。
■オープンデータの前処理
政府系の期間を中心にデータをオープンにする動きは盛り上がりを見せているが、それぞれの組織が様々なデータフォーマットや文字コード、データの切り方で公開をしている。
オープンデータの前処理に関していえば、それぞれの技術者が車輪を再発明する必要はない。データの取り扱いに関する規約の範疇でデータとその処理方法について共有する事が出来れば本質的な分析や評価により多くの時間がかけられる。
そのような想いからSan Fransiscoと東京をベースとするaisaac inc.は
オープデータに関する前処理の共有化とコミュニティによる改善を目的とした
detaset.jp - [http://dataset.jp]
を発足させた。
■データの前処理に関するオープンソースベースのフレームワーク
プライベートなデータとなると一般的にその乱雑さはオープンデータよりも大きくなる傾向にあり、
組織や個人のデータ活用、分析の大きな障害となっている。
一方でモデリングや分析に関するライブラリやパッケージは発達しており、多くの技術者はそれに依存することとなる。つまり前処理で行うべきフォーマットはある程度共通化させる余地はある。
またフォーマットの共通化によってデータを無害化させる事が容易になれば、企業間でのデータの売買や共有がより活発になり、データ活用がより広がると考える。
その試金石をdataset.jpの活動から得られたプラクティスをフレームワーク化させる
datakit - [https://github.com/aisaac-lab/datakit]
を公開させた。
どちらもαバージョンで、コミュニティの立ち上げ途上である。
発起人はプログラミング言語Rubyのコミッターでプログラミング言語Hilbertの作者でもあり、コミュニティによるソフトウェアの発展に大きな情熱を持っている。
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
【特別キャンペーン実施決定!】電話発信自動化ツール”オトコル”が「IT導入補助金2024」の対象ツールに認定
PR TIMES / 2024年4月24日 12時15分
-
SAS、信頼できるAI製品にモデルカードとAIガバナンスサービスを追加
Digital PR Platform / 2024年4月22日 11時10分
-
RubyコミッターがCEOを務めるアイザック、RubyKaigi2024でRubyスポンサーとして初協賛
PR TIMES / 2024年4月18日 23時40分
-
デル・テクノロジーズ、インテル(R) Gaudi(R) 3 AIアクセラレーターを搭載した「Dell PowerEdge XE9680」を発表
PR TIMES / 2024年4月12日 12時45分
-
“非上場志向スタートアップ”のアイザック、社員からの新規事業創出の祭典「Go To Moon」を刷新
PR TIMES / 2024年4月10日 12時15分
ランキング
-
1物価の優等生『もやし』生産者はようやく少しずつ値上げ…しかし消費減で悲鳴「このままでは生産者がみんな廃業してしまう」
MBSニュース / 2024年5月8日 19時18分
-
2損保大手、火災保険料引き上げ=10月に10%、災害激甚化で
時事通信 / 2024年5月8日 17時54分
-
3トヨタの営業利益5兆3529億円、日本企業で過去最高…最終利益も倍増し初の4兆円超
読売新聞 / 2024年5月8日 14時25分
-
4米検察当局がテスラを調査 報道、詐欺行為の疑いで
共同通信 / 2024年5月9日 6時5分
-
5「次を決めずに辞めてもいい」実は英断な“あえて無職”=「キャリアブレイク」の活用を経験者に聞く
オールアバウト / 2024年5月8日 21時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください