プログラミングと機械学習のメモ
日付: カテゴリ: Kaggle
最近、仕事やらkaggleやら応用情報やら数検やらで忙しかったので更新が滞っていました(泣)
だいぶ落ち着いてきたので、最近まで頑張っていたkaggleについて書いていこうと思います。
今回のコンペはくずし字認識。なんと日本語のコンペです。その分メダルはなかったのですが(笑)
私の成績は80/293。なかなか難しいコンペでした。
今回コンペのまとめ、反省をしつつブログを書いていきます。
以下のような古書の文字が書いてある場所とその文字がなにであるかを当てます。
大きく分けて、領域検出と文字認識のタスクがあります。
領域検出といえばFaster RCNNやSSD、YOLOだと思っていましたが、kaggleカーネルでcenternetというものを知りました。
centernetのカーネルはこちら
結局精度高かったのでこちらを使用しました。すばらしいカーネルありがとうございます。
テストデータに対して当てはめるとこんな感じの予測をします。
最近pytorchを覚えたので、pytorchで作ってみました。
pnasnet5-largeという学習済みモデルを使用しています。
予測した文字を正方形に切り取って、グレースケール化や回転、拡大、平行移動をかけました。文字認識のため、反転はしませんでした。
また、5枚以下の画像は5枚に、400枚以上の画像は400枚にして枚数の偏りを減らしました。
予測時間が非常に長いです(RTX2080Tiで30時間かかっていました。)
以下は予測結果です。
個人的には意外と予測できてる!という感じでしたが、上位陣の人はどれくらい当たっているものでしょうか。非常に気になります。
2/18追記:この記事でコードあげました