Skip to content
This repository has been archived by the owner on May 14, 2022. It is now read-only.
/ AIO2 Public archive

AI王第2回コンペティションに取り組むためのプロジェクト

License

Notifications You must be signed in to change notification settings

maeda6uiui/AIO2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AIO2

AI王第2回コンペティションに取り組むためのプロジェクトです。

概要

このシステムはRetrieverとReaderという二つのコンポーネントから成り立っています。 Retrieverは問題文に関連するドキュメントを取得し、Readerは取得したドキュメントから問題に対する回答を抽出します。

Retriever

Retrieverを用いて日本語Wikipediaの全記事から問題文に関連する記事を100件取得します。 BERTおよびTF-IDFを用いて関連度スコアを算出し、関連度スコアの上位100件の記事を取得する仕組みになっています。

抽出した上位k件の記事に回答が含まれている質問数の割合は以下のとおりです。

データ Acc@1 Acc@5 Acc@10 Acc@50 Acc@100
開発セット 47.6 72.1 79.9 89.5 92.3

Reader

Retrieverを用いて抽出した記事100件(引数により変更可能)から、問題に対する回答を抽出します。 ReaderにはBERTをファインチューニングしたモデルを使用しています。

Readerでは以下の二つのタスクが行われます。

  • どの記事に回答が含まれているか判断する
  • 選択した記事から回答のスパンを判断する

現在のところ、開発セットを用いた場合の正解率(完全一致)が30 %から40 %程度で、ベースラインシステムと比べてかなり低くなっています。

最終的な正解率(完全一致)は以下のとおりです。

データ 正解率 予測結果
開発セット 37.6 eval_predictions_20220127.jsonl

About

AI王第2回コンペティションに取り組むためのプロジェクト

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages