def __init__(self, dataset, tokenizer: Tokenizer, max_num_seq=20, inference=False, vocab_size=5000, is_train=True): self.max_num_seq = max_num_seq self.inference = inference self.is_train = is_train self.tokenizer = tokenizer self.total_tokens = tokenizer.get_tokens( vocab_prefix=f'vocab_{vocab_size}', for_masking=True) # 데이터 로딩 with open(dataset, 'r', encoding='utf-8') as f: self.data = json.load(f) # 데이터 전처리 (str to int) for i, d in enumerate(self.data): doc = d['content'] n_doc = [] for sub_doc in doc: n_doc.append(self.tokenizer.tokens_to_ids(sub_doc)) # n_doc.append(list(map(self.tokenizer.PieceToId, sub_doc.split()))) self.data[i]['content'] = n_doc
def __init__(self, dataset, tokenizer: Tokenizer, vocab_size=5000): self.tokenizer = tokenizer # 데이터 로딩 with open(dataset, 'r', encoding='utf-8') as f: self.data = json.load(f) # 데이터 전처리 (str to int) for i, d in enumerate(self.data): self.data[i]['content'] = tokenizer.tokens_to_ids(d['content']) # masking을 위한 토큰 클래스 로딩 self.total_tokens = tokenizer.get_tokens( vocab_prefix=f'vocab_{vocab_size}', for_masking=True)