# 言語指定の削除 pattern5 = re.compile(r"\{{2}.*?\|.*?\|(.*?)\}{2}", flags=re.MULTILINE) v = pattern5.sub(r"\1", v) # htmlタグの削除 pattern6 = re.compile(r"<.*?>", flags=re.MULTILINE) v = pattern6.sub(r"", v) # 外部リンクの削除 pattern7 = re.compile(r"\[https?.*?\]", flags=re.MULTILINE) v = pattern7.sub(r"", v) return v data = load_country("イギリス") pattern = re.compile(r"^\{\{基礎情報.*?$(.*?)^\}\}$", flags=(re.MULTILINE | re.DOTALL)) result = pattern.findall(data) pattern2 = re.compile(r"^\|(.+?)\s*=\s*(.+?)(?:(?=\n$)|(?=\n\|))", flags=re.MULTILINE + re.DOTALL) result2 = pattern2.findall(result[0]) dic = OrderedDict((k[0], k[1]) for k in result2) url = "https://en.wikipedia.org/w/api.php" payload = { "action": "query", "titles": "File:{}".format(dic["国旗画像"]), "prop": "imageinfo", "format": "json",
""" 21. カテゴリ名を含む行を抽出 記事中でカテゴリ名を宣言している行を抽出せよ. """ from Module.load_country import load_country data = load_country("イギリス").split("\n") for line in data: if "Category" in line: print(line)