プログラミングと機械学習のメモ
日付: カテゴリ: 自然言語処理
最近忙しくてブログ書けてなかったですが、ようやく忙しさが落ち着いてきたので、どんどん更新していこうと思います。
自然言語処理の理論はそれなりにまとめてきたと思うので、今回は自然言語処理データの取得について書いていこうと思います。
日本語のデータといえば、wikipediaだったり、ライブドアのニュースコーパスだったり、Twitterだったりが多いと思うのですが、 これらの多くはラベルがついていません。
たとえばBERTやRNNでポジネガ分析したいと思っても、日本語のデータは見つからず、 結局英語のデータセット(例えばIMDB映画レビューなど)に行き着く人も多いのではないでしょうか。
そんなあなたにおすすめしたいのが、Yahoo!ローカルサーチAPIです。
https://developer.yahoo.co.jp/webapi/map/openlocalplatform/v1/localsearch.htmlAPIの使い方は簡単で、以下の手順を踏むだけです
キーをゲットしたら、あとは店を取得し、それのレビューと星を取りに行きます。
実際のコードは以下を参考にしてください。
https://github.com/Shingo425/NLP/blob/main/src/yahoo_loco.ipynbあとは、星3より上をポジティブ、星3より下をネガティブみたいにすれば日本語ポジネガ分析データの完成です。
データ取得で困っている方の参考になれば幸いです。