Example #1
0
    # 言語指定の削除
    pattern5 = re.compile(r"\{{2}.*?\|.*?\|(.*?)\}{2}", flags=re.MULTILINE)
    v = pattern5.sub(r"\1", v)

    # htmlタグの削除
    pattern6 = re.compile(r"<.*?>", flags=re.MULTILINE)
    v = pattern6.sub(r"", v)

    # 外部リンクの削除
    pattern7 = re.compile(r"\[https?.*?\]", flags=re.MULTILINE)
    v = pattern7.sub(r"", v)

    return v


data = load_country("イギリス")
pattern = re.compile(r"^\{\{基礎情報.*?$(.*?)^\}\}$",
                     flags=(re.MULTILINE | re.DOTALL))
result = pattern.findall(data)

pattern2 = re.compile(r"^\|(.+?)\s*=\s*(.+?)(?:(?=\n$)|(?=\n\|))",
                      flags=re.MULTILINE + re.DOTALL)
result2 = pattern2.findall(result[0])
dic = OrderedDict((k[0], k[1]) for k in result2)

url = "https://en.wikipedia.org/w/api.php"
payload = {
    "action": "query",
    "titles": "File:{}".format(dic["国旗画像"]),
    "prop": "imageinfo",
    "format": "json",
Example #2
0
"""
21. カテゴリ名を含む行を抽出
記事中でカテゴリ名を宣言している行を抽出せよ.
"""

from Module.load_country import load_country

data = load_country("イギリス").split("\n")
for line in data:
    if "Category" in line:
        print(line)