コード例 #1
0
from pprint import pprint
import re
from nlp100utils import Jawiki

reg26 = re.compile("'+")  #強調マークアップ
reg27 = re.compile("\[{2}([^\]]+?\|)*(.*?)\]{2}")  #内部リンク・ファイル・カテゴリ
reg28a = re.compile("\[([^\]]+?\s)?(.*?)\]")  #外部リンク
reg28b = re.compile("\<.+?\>")  #HTMLタグ
reg28c = re.compile("\{{2}[l|L]ang\|.+\|(.+)\}{2}")  #言語情報


def preProcess(text):
    text = reg26.sub("", text)
    text = reg27.sub(r"\2", text)
    text = reg28a.sub("", text)
    text = reg28b.sub("", text)
    text = reg28c.sub(r"\1", text)
    return text


jawiki = Jawiki()
jawiki.getArticle("イギリス")
dic = jawiki.getBasicInfo(preProcess)

if __name__ == "__main__":
    pprint(dic)
コード例 #2
0
import re
from nlp100utils import Jawiki

jawiki = Jawiki()

jawiki.getArticle("イギリス")
regExp = re.compile("\[\[Category:(.+)\]\]")
print("\n".join(jawiki.rMatch(regExp)))
コード例 #3
0
from nlp100utils import Jawiki
import sys

jawiki = Jawiki()
print(jawiki.getArticle(sys.argv[1]))
コード例 #4
0
import re
from nlp100utils import Jawiki
jawiki = Jawiki()
jawiki.getArticle("イギリス")
reg = re.compile("\[\[(File|ファイル):(.*?)\|")

for data in jawiki.rMatch(reg):
    print(data[1])
コード例 #5
0
from nlp100utils import Jawiki
import re

jawiki = Jawiki()

jawiki.getArticle("イギリス")
regExp = re.compile("\[\[Category:.*\]\]")
print("\n".join(jawiki.extractRow(regExp)))