新型コロナウイルス (COVID-19) PCR検査陽性者数の推移を機械学習で予測してみた

マーケティングデータアナリスト 佐々木 花【文責】


はじめに

新型コロナウイルス日本国内での感染がニュースで報じられた2020年1月からこの一年間、毎日のように新型コロナウイルスに関する数字が各自治体から公開され、データドリブンの重要性をこんなにも身近に感じた1年はなかったのではないだろうか。このような状況下において、自治体から公開されているデータを使って、今後PCR検査陽性者数がどのように推移するか、機械学習を使って試みた。
ただ、医療関係の専門家 ではないため、予測したのは陽性者数の推移のみで、実際の対策の効果や判断を行うものではない。あくまで、機械学習を使って過去のデータから予測数を算出したらどうなるかという視点で行った。
予測の算出には、機械学習やディープラーニングなどに使われているプログラミング言語のPythonを使用した。データは、東京都と大阪府のWebサイトで公開されている新型コロナウイルス関連のオープンデータを使用した。予測に使用したデータ期間は 、発生が確認された2020年1月14日から2020年12月28日までとした。

東京都と大阪の陽性者数推移比較

まずは、日単位の推移をグラフで確認した。第一波と第二波は、大阪府が、東京都に遅れて増加している傾向が見られるが、第三波は、大阪府の増加のスピードが東京都を上回って推移したことが確認できる。
 画像

次に、日単位の推移数の累計を確認した。大阪府は、東京都を下回るものの共に右肩上がりに推移しており、2020年11月以降は、その上昇スピードが急になっているのが確認できる。東京都は、12月29日時点も上昇途中のトレンドとなっている。
 画像

予測に用いた機械学習モデル

機械学習に使うデータは、累計の推移を使用した。累積和の方が、正規分布を想定しやすいと考えたからである。Pythonを使って行った予測は、一般化加法モデルを用いた。傾向変動や季節変動、イベント情報などの様々な因子の和として予測を行う方法である。

一般化加法モデル
yt=gt+st+ht+ϵt

  • yt:予測値
  • gt:傾向変動(trend);傾向変化点ありの線形もしくはロジスティック曲線
  • st:季節変動;年次,週次,日次の季節変動をsin,cosの組み合わせ(フーリエ級数)で表現
  • ht:休日などのイベント項
  • ϵt:誤差項

モデル作成時に考慮した点は、以下の通りである。

  • 冬の感染拡大期に入って、波が大きくなっている(第三波)
  • 季節変動や日次変動(週明けは、検査が少ないため陽性者数が少ない傾向)
  • イベント要因として、緊急事態宣言、Go Toトラベルなど経済支援策

機械学習を用いた陽性者数推移の予測結果

これらの要素を考慮してモデルに組み込んだ。先ほどの東京都と大阪府の陽性者数の推移は同じ傾向で上昇していたため、予測は、東京都の陽性者数を対象にして行った。予測期間は、30日先までの2021年1月27日とした。予測結果は次のグラフを確認頂きたい。値が大きいため実数と予測値がほぼ重なった形となっているが、過去のデータに対してうまく学習できているように思える。予測した30日先までは、右肩上がりの上昇トレンドが続くと予想される。
 画像

陽性者数と予測値の差を算出してどの程度、誤差があるか確認した。後半の変動幅が大きい期間は、やや予測値との誤差の幅が大きくなっている。
 画像

予 測精度を確認するため、モデルの評価指標の1つであるMAPE(平均絶対パーセント誤差)を使った。MAPEの概念はとてもシンプルでわかりやすいため今回使用した。結果は、2.98%であった。実測値の誤差は、3%未満なので予測値としてはかなり当てはまっていると思われる。
平均絶対パーセント誤差(MAPE)は、トレンドの推定など統計学の予測手法の予測精度を測る指標である。通常はパーセントで精度を表現し、以下の式で定義される。
 画像

Atは実測値で、Ftは予測値。AtとFtの差をAtで割る。この計算の絶対値を求め、すべての予測点について絶対値を求めていく。そしてそれらを合計し、予測値の数nで割る。最後に100を乗じることでパーセント単位にする。

予測算出に累積値を使用したが、これを日単位の推移数へ戻し、予測値と比較した。実測値との当てはまりはこちらの方が感覚的に把握しやすいのではないかと思われる。参考に見て頂ければと思う。
 画像

終わりに

今回、新型コロナウイルスの陽性者数の推移を取り上げたが 、予測値を算出することで今後の状況に対してある程度の見通しを持つことができる。予測値は、あくまで予測値のため必ずしも当たるわけではないが、予測値が示す状況を想定することで色々な対策など検討することが可能になると思われる。
ビジネスの様々なシーンで予測分析を活用することで、意思決定の精度を高めることが可能になると思う。それは、すなわちビジネス全体での成果向上にもつながると考えられる。近年は、機械学習やディープラーニングといった基盤となる技術の目覚ましい進歩によって利用しやすい状況となってきている。皆さんのビジネス現場においても積極的な活用を検討してみてはどうだろうか 。

データ出典元:

東京都 新型コロナウイルス感染症対策サイト:
https://stopcovid19.metro.tokyo.lg.jp/cards/positive-number-by-developed-date/

大阪府 新型コロナウイルス感染症対策サイト:
https://covid19-osaka.info/


    
    デジタルマーケティングの成功体験をサポート