from pprint import pprint import re from nlp100utils import Jawiki reg26 = re.compile("'+") #強調マークアップ reg27 = re.compile("\[{2}([^\]]+?\|)*(.*?)\]{2}") #内部リンク・ファイル・カテゴリ reg28a = re.compile("\[([^\]]+?\s)?(.*?)\]") #外部リンク reg28b = re.compile("\<.+?\>") #HTMLタグ reg28c = re.compile("\{{2}[l|L]ang\|.+\|(.+)\}{2}") #言語情報 def preProcess(text): text = reg26.sub("", text) text = reg27.sub(r"\2", text) text = reg28a.sub("", text) text = reg28b.sub("", text) text = reg28c.sub(r"\1", text) return text jawiki = Jawiki() jawiki.getArticle("イギリス") dic = jawiki.getBasicInfo(preProcess) if __name__ == "__main__": pprint(dic)
import re from nlp100utils import Jawiki jawiki = Jawiki() jawiki.getArticle("イギリス") regExp = re.compile("\[\[Category:(.+)\]\]") print("\n".join(jawiki.rMatch(regExp)))
from nlp100utils import Jawiki import sys jawiki = Jawiki() print(jawiki.getArticle(sys.argv[1]))
import re from nlp100utils import Jawiki jawiki = Jawiki() jawiki.getArticle("イギリス") reg = re.compile("\[\[(File|ファイル):(.*?)\|") for data in jawiki.rMatch(reg): print(data[1])
from nlp100utils import Jawiki import re jawiki = Jawiki() jawiki.getArticle("イギリス") regExp = re.compile("\[\[Category:.*\]\]") print("\n".join(jawiki.extractRow(regExp)))