# 25. テンプレートの抽出 # 記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し,辞書オブジェクトとして格納せよ. import nlp20 import re data_uk = nlp20.read_uk('text') print(data_uk) # for d in data_uk: # if "基礎情報" in d: # print(d)
# 22. カテゴリ名の抽出 # 記事のカテゴリ名を(行単位ではなく名前で)抽出せよ. import nlp20 data_uk = nlp20.read_uk('text').splitlines() for d in data_uk: if 'Category' in d: l = d.find('|') if not l == -1: print(d[11:l]) else: print(d[11:-2])