時系列データに対する自動ラベリングアーキテクチャ/アルゴリズム募集コンテスト

TC3株式会社 > UseCase > 時系列データに対する自動ラベリングアーキテクチャ/アルゴリズム募集コンテスト

2020/6/26

 

お客様

株式会社日立製作所 研究開発グループ
 デジタルテクノロジーイノベーションセンタ データサイエンス研究部 様
 技術戦略室 オープンイノベーション推進室 様

1) プロジェクト・サマリ

機械学習のモデル開発には大量かつ整った「データ」が必要ですが、そのデータの一部を構成する教師データの作成、つまりラベリングの実施には多くの手間と時間が必要です。この課題の解決を試みるべく、本コンテストでは日立製作所様と時系列データに対して、少量の教師データから自動的にラベリングを行う手法のアイデア募集コンテストを実施するプロジェクトを行いました。

私たちは約3ヶ月にわたって実施したこのクイックなプロジェクトにて、グローバルのデータサイエンティストが参加をするTopcoderのコンテストを活用し、日立製作所 研究所様がまだ活用を試みていなかったソリューションアイデアのレポートとアルゴリズムを複数獲得することに成功しました。

2) プロジェクト概要

このプロジェクトは大きく3つのフェーズで進行しました。下記にそれぞれのフェーズで実施した内容をご紹介します。

1. コンテスト準備

コンテスト成果物に求める条件、その為に必要なデータ種別、及びそのフォーマット等の定義を行うディスカッションをお客様とTC3のコミュニティ・アーキテクトによって実施しました。Weekly、Bi-Weeklyの頻度で実施したディスカッションと、その間のTC3の技術調査、お客様による技術情報のご提供によって主に下記事項の設定を行いました。

  • データ準備・成型(教師データセット、正解データセット、最終検証用データセット)
  • コンテストで求める成果物の要件
  • 成果物評価手法・評価環境
  • コンテストスペック(topcoder.com上で公開されるコンテストで求める仕様)

2. 成果物評価プラットフォーム及び精度評価コードの準備・開発

今回のプロジェクトでは、アーキテクチャ/アルゴリズムのアイデアと共にそのアイデアを実証するコードも成果物として求めるコンテストを実施しました。コンテスト参加者にクイックかつ正確に評価をフィードバックするべく、TC3が下記の成果物評価プラットフォームと成果物コードの精度評価を行うコードを整備、開発しました。

  • 教師データでトレーニングされた成果物コードに正解データを当てて予測ラベルを自動生成するAWS EC2上の環境
  • 上記予測ラベルと正解ラベルを照合し、予測ラベルの精度を自動評価するコード
■コンテスト成果物評価概要図

3. コンテストの実施

上記の準備フェーズを経て、2020年1月31日から2月17日の17日間にわたって『Time-Series Data Labeling Architecture and Algorithm Ideation(時系列データラベリングアーキテクチャ&アルゴリズム アイディエーション)』の名称でTopcoderコンテストを実施いたしました。

この期間中に世界25か国から79名のTopcoderメンバーがこのコンテストに参加し、13名が成果物を提出しました。

2) プロジェクト結果

コンテスト概要と結果

■コンテスト名称  :Time-Series Data Labeling Architecture and Algorithm Ideation(時系列データラベリングアーキテクチャ&アルゴリズム アイディエーション)

■コンテスト目的  :少量の限定された教師データでのトレーニングから、大規模な時系列データのラベリングを行うことを可能にするアーキテクチャ及びアルゴリズムアイデアを提出すること。
提出されるアイデアは様々なタイプの時系列データに対応出来る必要があります。つまり、人体に装着された加速度センサーからの時系列データや、工場の製造機械からの振動時系列データなどに等しく対応する必要があります。

■実施期間 :17日間(2020年1月31日 〜 2020年2月17日)

■参加者  :79名

■主な参加者国籍と人数:インド 29名、アメリカ 8名、中国 6名、ロシア 3名、インドネシア 2名、イギリス 2名 等

  • 中間チェックポイント提出数 :13件
  • 最終成果物提出数 :6件

※中間チェックポイントとは:
アイデアを求めるコンテスト、UI/UXデザインを求めるTopcoderのコンテストにおいて、期間の途中で成果物の提示を求め、TC3/お客様でレビューを行いフィードバックを返すことによって、より良い最終成果物を得ようとするシステムのこと。

■入賞者国籍

  • 1位:中国
  • 2位:エジプト
  • 3位:インド
  • 4位:米国
  • 5位:インド

■獲得成果物

  • 採用成果物(アルゴリズムコード・レポート) :5件

■採用成果物:レポート/PoCコードについて

  • 成果物レポートの知的財産権はお客様である日立製作所様に帰属する為に開示はいたしませんが、機械学習モデルや様々なアルゴリズムを適切に組み合わせたアイデアが提出され、他のアイディエーションコンテストで見られるような下記の項目をカバーするレポートが多く見られました。

【レポート内項目の例】

  • ソリューション全容 / 概要
  • イントロダクション
  • 手法 / ソリューション手順
  • 評価 / 結論
  • 改善ポイント / 手法の限界
  • コードガイド
  • リファレンス

また、そのアイデアレポートと共に提出を求めたPoCコードが、アイデアの実現性や精度等の評価に大いに寄与しました。

4) お客様からのご評価

株式会社日立製作所 研究開発グループ
技術戦略室 オープンイノベーション推進室 技師
片岡 祥啓 様

弊社研究所では、更なる研究開発スピードの向上と効率化を目指し、オープン・イノベーションの積極的な導入を推進しております。今回、その取り組みの一環としてTopcoderコミュニティを活用したアイデアソンを開催させて頂きました。今回のアイデアソンでは、社内での研究開発の土台となるアイデアを世界中の参加者から得ることができ、外部コミュニティ活用の有用性を再認識することができました。

今後は、今回開催したアイデアソンに限らず、精度向上を目的としたマラソン・マッチ(※1)やUI/UXデザインのコンテストなどについても試行し、弊社の研究開発のプロセスに取り込めればと考えております。

(※1) マラソンマッチ:予測・分類等のある目的を満たすアルゴリズムや機械学習のモデルのパフォーマンスを約3週間にわたって競い合う大規模なデータサイエンスコンテスト。


株式会社日立製作所 研究開発グループ
デジタルテクノロジーイノベーションセンタ データサイエンス研究部 主任研究員
小田 琢也 様

データを分析・活用し、生産性向上やコスト削減等の課題を解決したいというお客様は多く、それを実現するデータ分析アルゴリズムの研究開発を行っております。

当該アルゴリズムの開発に至っては、大きく2ステップあり、①基礎/汎用アルゴリズムの調査・実装・評価、②実際のお客様の各種要件とのFit&Gapから成ると考えております。このうち、ステップ①に関してアイデアソンをお願いしましたが、コンテストを実施することで検討範囲を広げることができました。また、通常よりも短時間で検討を終えることができたと考えております。

今後、コンテストの結果をベースにステップ②を進め、お客様の要件にフィットしたアルゴリズムとなるよう検討を進めていく予定です。こちらについては、必要に応じて精度向上を目的としたマラソン・マッチの活用も考えていきたいと思っております。