Python extract_wikidocs示例

编程语言: Python

命名空间/包名称: ex20

方法/功能: extract_wikidocs

hotexamples.com的示例: 8

Python extract_wikidocs - 已找到8个示例。这些是从开源项目中提取的最受好评的ex20.extract_wikidocs现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： ex21.py 项目： ThanhChinhBK/nlp_100_drill_exercises

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            if re.search(r'\[\[Category:\S+\]\]', line):
                print(line)

示例#2

显示文件

文件： ex21.py 项目： nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            if re.search(ur'\[\[Category:.*?\]\]', line):
                print line.encode('utf-8')

示例#3

显示文件

def main():
    docs = extract_wikidocs()
    pattern = re.compile(r'(File|ファイル):([^\|]+)')
    for doc in docs:
        # Find all markups File: or ファイル:
        references = pattern.findall(doc['text'])
        for ref in references:
            print(ref[1])

示例#4

显示文件

文件： ex22.py 项目： nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def main():
    wiki_docs = extract_wikidocs()
    for doc in wiki_docs:
        lines = doc['text'].split('\n')
        for line in lines:
            categories = re.findall(ur'\[\[Category:(.+)\]\]', line)
            for match in categories:
                for cat in match.split('|'):
                    if not re.search(ur'[\* ]', cat):
                        print cat.encode('utf-8')

示例#5

显示文件

文件： ex22.py 项目： ThanhChinhBK/nlp_100_drill_exercises

def main():
    docs = extract_wikidocs()
    categories = []
    for doc in docs:
        lines = doc['text'].split('\n')
        for line in lines:
            categories += (re.findall('\[\[Category:(\S+)\]\]', line))

    for cat in categories:
        print(cat)

示例#6

显示文件

def parse_folder():
    docs = extract_wikidocs()
    patern = re.compile('{{基礎情報.+?^}}', re.M | re.DOTALL)  # M = mutiline
    dict_list = []
    for doc in docs:
        matchs = patern.findall(doc['text'])
        for match in matchs:
            dict_list.append(parse_infobox(match))

    return dict_list

示例#7

显示文件

文件： ex27.py 项目： nguyentritrung19052000/100-b-i-t-p-x-l-ng-n-ng-

def get_infobox():
    docs = extract_wikidocs()
    objs_list = []
    pattern = re.compile(ur'{{基礎情報.+?^}}\n', re.M | re.DOTALL)
    for doc in docs:
        matches = pattern.findall(doc['text'])
        for m in matches:
            dict_obj = parse_infobox(m)
            objs_list.append(dict_obj)

    return objs_list

示例#8

显示文件

文件： ex23.py 项目： ThanhChinhBK/nlp_100_drill_exercises

def main():
    wiki_docs = extract_wikidocs()

    pattern = re.compile(r'(={2,}) ([^=]+) (={2,})')
    for doc in wiki_docs:
        tuples = pattern.findall(doc['text'])
        for tp in tuples:
            pfx = tp[0]
            sfx = tp[2]
            sec = tp[1]
            orig = pfx + ' ' + sec + ' ' + sfx
            if len(pfx) != len(sfx):
                print('%s %s %s' % (pfx, sec, sfx))
                exit

            level = len(pfx) - 1

            print('%-40s Level %s\t\t%s' % (sec, level, orig))