Example #1
0
    def __init__(self,
                 dataset,
                 tokenizer: Tokenizer,
                 max_num_seq=20,
                 inference=False,
                 vocab_size=5000,
                 is_train=True):
        self.max_num_seq = max_num_seq
        self.inference = inference
        self.is_train = is_train
        self.tokenizer = tokenizer
        self.total_tokens = tokenizer.get_tokens(
            vocab_prefix=f'vocab_{vocab_size}', for_masking=True)

        # 데이터 로딩
        with open(dataset, 'r', encoding='utf-8') as f:
            self.data = json.load(f)

        # 데이터 전처리 (str to int)
        for i, d in enumerate(self.data):
            doc = d['content']
            n_doc = []
            for sub_doc in doc:
                n_doc.append(self.tokenizer.tokens_to_ids(sub_doc))
                # n_doc.append(list(map(self.tokenizer.PieceToId, sub_doc.split())))
            self.data[i]['content'] = n_doc
Example #2
0
    def __init__(self, dataset, tokenizer: Tokenizer, vocab_size=5000):
        self.tokenizer = tokenizer

        # 데이터 로딩
        with open(dataset, 'r', encoding='utf-8') as f:
            self.data = json.load(f)

        # 데이터 전처리 (str to int)
        for i, d in enumerate(self.data):
            self.data[i]['content'] = tokenizer.tokens_to_ids(d['content'])

        # masking을 위한 토큰 클래스 로딩
        self.total_tokens = tokenizer.get_tokens(
            vocab_prefix=f'vocab_{vocab_size}', for_masking=True)