Python load_data示例

编程语言: Python

命名空间/包名称: data.cnndm

方法/功能: load_data

hotexamples.com的示例: 2

Python load_data - 已找到2个示例。这些是从开源项目中提取的最受好评的data.cnndm.load_data现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： train_v5_ami_attn2.py 项目： potsawee/summary1

def load_cnndm_data(args, data_type, dump=False):
    if dump:
        data = cnndm.load_data(args, data_type)
        summary = cnndm.load_summary(args, data_type)
        articles = []
        for encoded_words in data['encoded_articles']:
            # encoded_sentences = []
            article = TopicSegment()
            l = len(encoded_words) - 1
            for i, x in enumerate(encoded_words):
                if x == 101:  # CLS
                    sentence = []
                elif x == 102:  # SEP
                    utt = Utterance(sentence, -1, -1, -1)
                    article.add_utterance(utt)
                elif x == 100:  # UNK
                    break
                else:
                    sentence.append(x)
                    if i == l:
                        utt = Utterance(sentence, -1, -1, -1)
                        article.add_utterance(utt)
            articles.append([article])
        abstracts = []
        for encoded_abstract in summary['encoded_abstracts']:
            if 103 in encoded_abstract:
                last_idx = encoded_abstract.index(103)
                encoded_abstract = encoded_abstract[:last_idx]
            encoded_abstract.append(102)
            encoded_abstract.append(103)
            abstracts.append(encoded_abstract)
        cnndm_data = []
        for x, y in zip(articles, abstracts):
            cnndm_data.append((x, y, y))
    else:
        path = "/home/alta/summary/pm574/summariser1/lib/model_data/cnndm-191216.{}.pk.bin".format(
            data_type)
        with open(path, 'rb') as f:
            cnndm_data = pickle.load(f, encoding="bytes")

    return cnndm_data

示例#2

显示文件

文件： train_cnndm.py 项目： potsawee/spoken_summ_div

def load_cnndm_data(args, data_type, dump=False):
    if dump:
        data = cnndm.load_data(args, data_type)
        summary = cnndm.load_summary(args, data_type)
        articles = []
        for encoded_words in data['encoded_articles']:
            # encoded_sentences = []
            article = TopicSegment()
            l = len(encoded_words) - 1
            for i, x in enumerate(encoded_words):
                if x == 101:  # CLS
                    sentence = []
                elif x == 102:  # SEP
                    utt = Utterance(sentence, -1, -1, -1)
                    article.add_utterance(utt)
                elif x == 100:  # UNK
                    break
                else:
                    sentence.append(x)
                    if i == l:
                        utt = Utterance(sentence, -1, -1, -1)
                        article.add_utterance(utt)
            articles.append([article])
        abstracts = []
        for encoded_abstract in summary['encoded_abstracts']:
            if 103 in encoded_abstract:
                last_idx = encoded_abstract.index(103)
                encoded_abstract = encoded_abstract[:last_idx]
            encoded_abstract.append(102)
            encoded_abstract.append(103)
            abstracts.append(encoded_abstract)
        cnndm_data = []
        for x, y in zip(articles, abstracts):
            cnndm_data.append((x, y, y))
    else:
        with open(CNNDM_DATA_PATH.format(data_type), 'rb') as f:
            import pdb
            pdb.set_trace()
            cnndm_data = pickle.load(f, encoding="bytes")

    return cnndm_data