農業に関する情報を発信します
2019.1.31
みどりクラウドのデータ解析をしているS.Kです。
今回は、みどりモニターで蓄積されたデータの解析方法についてご紹介します。
みどりクラウドのユーザーの方々からよく寄せられるご意見に、以下のようなものがあります。
「環境モニタリングをしてみているけど、データの活用方法が分からない。」
「データの解析ツールのようなものはないのか。」
こういった声に応えるため、私たちはみどりクラウドのデータ解析サービスを開始しています。
見える化したデータを活用し、それを生産者に役立てて頂くことで初めて、利益に繋がります。
今回は、みどりクラウド分析チームによる、センサーデータの分析手法の例をご紹介します。
まずは、問題を整理してみましょう。
第一に分析の目的を設定します。
今回は、作付け期間毎の管理方法の比較をしていくことにしましょう。
今作と前作で、どれくらいの時期にどんな違いがあるのか、調べるということですね。
使用するみどりモニタのデータは、2分間隔で測定された時系列データです。
例えば半年間を1作付期間とすると、その中に含まれるデータ点の数は、 30×24×30×6= 129,600 です。
さらにこれにセンサーの数を掛けることになります。
とても人間業では比較していられないですね。
このデータを人間にとって分かりやすい形にしていくことを目指そうと思います。
今回ご紹介するのは、 時系列解析 と 主成分分析 という2つの手法を組み合わせる方法です。
膨大なデータをそのまま扱ってしまうと欲しい結果が得られないことがよくあるので、時系列解析によって週毎の特徴をあらかじめ抜き出しておきます。これによって時間変化を考慮に入れた分析が可能となります。
その後、情報量が多いデータを人間に分かりやすい形で表すためのオーソドックスな方法として、主成分分析を行います。
以下で、一つ一つ段階に分けて見てみましょう。
時系列データの解析では、データを以下の3つの成分に分割することが良く行われます。
一定の周期で現れるパターンの事です。例えば一日の気温は、明け方から上がり始め、夜に向かって落ちていきます。
周期成分よりもゆっくりとした変動です。気温の例で言うと、寒気が近づくことで、日々の気温が下がる傾向がみられます。
周期成分とトレンド成分を元のデータから取り除いた時に残っている、揺らぎの成分です。揺らぎは様々な要因によって発生するためノイズとして考え、今回は残差成分は考慮しません。
ではこれらの成分を使って、半年間のデータを週毎にまとめてみます。
その理由は、1日単位で分析を行うのは手間であることと、1週間程度であれば栽培方法や環境要因に大きな変化が無いはずだからです。
まずは半年間の全期間を1週間毎に分割します。
次に、分割した各期間で、周期成分とトレンド成分を抜き出します。
トレンド成分の平均値を周期成分に足す事で、その週の典型的なデータとして扱います。
ここまでで、時系列解析は終了です。
ここからは、週毎にまとめられたデータの比較を行います。
今回比較したいのは、2つの作付け期間の同じくらいの時期のデータが、似ているか異なっているかです。
2つのデータの比較をする上で問題となるのが、情報が多いほど比較が難しい点です。
例えば2つの情報、身長と体重から体型が似ているかを比較したい場合、以下のように横軸に身長、縦軸に体重を取って対象となる人々をプロットした散布図を用いることができます。
ところが情報が3つ4つと増えていくと、この方法は使えません。
今回使うデータの情報の数は週毎の典型的な1日の時系列データなので、情報の数は30×24×センサー数です。
こういう時によく使用されるのが、主成分分析という手法です。
主成分分析はたくさんある情報を削ぎ落とし、少ない情報でデータを表現することができます。
時系列データを2つの情報に削ぎ落とせば散布図が使えるため、人間に理解しやすい表現となります。
(主成分分析についての詳しい説明には数学的な知識が必要であるためここでは触れません。情報を削ぎ落とす操作だという理解をしてもらえれば十分です。)
さて、ここまで紹介した手法を実際に使って、どういう結果になるか見てみましょう。
処理の流れをまとめると以下の流れになります。
みどりクラウドの実データを公開することはできないので、今回は気象庁が以下で公開している気象観測データから、東京の気温データを使用します。
データの期間は2017/6/1 ~ 2017/12/31と、 2018/6/1 ~ 2018/12/31の2期間を比較します。
時系列解析の適用によって、週の典型データを取り出します。
例えば2017/6/12 ~ 2017/6/19の1週間の生データは以下のようになっています。
13日や18日は曇りのせいか最高気温が低いですが、それ以外の日については似たようなパターンを示しています。
この週のデータから典型的な変動を求めたのが、以下の形です。
平均的な気温の上昇/下降の傾向と、最高気温/最低気温が読み取れていることが分かります。
全ての週について同じ操作を加えた結果について、主成分分析によって週同士の比較をしてみます。
以下のプロットの見方についてですが、位置的に近いものがデータ的に似ていることを示しています。
また、三角形のマーカーの向きの違いは期間の違いを示しています。
色の違いは、時期の違いを示しています。
このプロットの中で特に上側に外れている点を調べたところ、2017/10/16の週のデータでした。
この週の実際の観測データを、2018年の同時期と一緒にプロットしてみます。
これを見ると、2017年のこの時期は比較的気温が低く、さらに不規則な変動をしていることが分かります。
このように、時系列解析と主成分分析を組み合わせることで、違いの大きいデータを効率的に知ることができます。
また、今回は気温データのみを使用しましたが、湿度や日射量などのデータをまとめて処理することも可能です。
これによって、栽培の記録を振り返って例年との違いを分析することが可能となります。
今回はみどりクラウドデータ分析チームによる時系列データの分析手法を紹介しました。
さて、みどりクラウドでは蓄積されたデータの分析の依頼も受け付けております。
データを生かして収益改善を目指すユーザーの方々は、是非ご相談ください。