AIO2

概要

このシステムはRetrieverとReaderという二つのコンポーネントから成り立っています。 Retrieverは問題文に関連するドキュメントを取得し、Readerは取得したドキュメントから問題に対する回答を抽出します。

Retriever

Retrieverを用いて日本語Wikipediaの全記事から問題文に関連する記事を100件取得します。 BERTおよびTF-IDFを用いて関連度スコアを算出し、関連度スコアの上位100件の記事を取得する仕組みになっています。

抽出した上位k件の記事に回答が含まれている質問数の割合は以下のとおりです。

データ	Acc@1	Acc@5	Acc@10	Acc@50	Acc@100
開発セット	47.6	72.1	79.9	89.5	92.3

Reader

Retrieverを用いて抽出した記事100件(引数により変更可能)から、問題に対する回答を抽出します。 ReaderにはBERTをファインチューニングしたモデルを使用しています。

Readerでは以下の二つのタスクが行われます。

どの記事に回答が含まれているか判断する
選択した記事から回答のスパンを判断する

現在のところ、開発セットを用いた場合の正解率(完全一致)が30 %から40 %程度で、ベースラインシステムと比べてかなり低くなっています。

最終的な正解率(完全一致)は以下のとおりです。

データ	正解率	予測結果
開発セット	37.6	eval_predictions_20220127.jsonl

Name		Name	Last commit message	Last commit date
Latest commit History 172 Commits
Reader		Reader
Result		Result
Retriever		Retriever
Util		Util
LICENSE.txt		LICENSE.txt
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reader

Reader

Result

Result

Retriever

Retriever

Util

Util

LICENSE.txt

LICENSE.txt

README.md

README.md

Repository files navigation

AIO2

概要

Retriever

Reader

About

Releases

Packages

Languages

License

maeda6uiui/AIO2

Folders and files

Latest commit

History

Repository files navigation

AIO2

概要

Retriever

Reader

About

Resources

License

Stars

Watchers

Forks

Languages