Python WsTknzr.build_vocabの例

プログラミング言語: Python

名前空間/パッケージ名: lmp.tknzr

クラス/型: WsTknzr

メソッド/関数: build_vocab

hotexamples.comのコード掲載数: 2

Python WsTknzr.build_vocab - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのlmp.tknzr.WsTknzr.build_vocabの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

WsTknzr(16)

norm(4)

save(3)

build_vocab(2)

tknz(2)

batch_dec(1)

batch_enc(1)

dec(1)

dtknz(1)

enc(1)

load(1)

コード例 #1

ファイルを表示

ファイル: test_tensor_dset.py プロジェクト: ProFatXuanAll/language-model-playground

def test_slow_tensor_dset(max_seq_len: int) -> None:
  """Load dataset and convert to tensor on the fly."""
  tknzr = WsTknzr(is_uncased=True, max_vocab=-1, min_count=10)
  tknzr.build_vocab(batch_txt=['a', 'b', 'c'])

  wiki_dset = WikiText2Dset(ver='valid')

  dset = lmp.util.dset.SlowTensorDset(dset=wiki_dset, max_seq_len=max_seq_len, tknzr=tknzr)

  assert isinstance(dset, lmp.util.dset.SlowTensorDset)
  assert len(dset) == len(wiki_dset)
  for idx, tkids in enumerate(dset):
    assert isinstance(tkids, torch.Tensor), 'Each sample in the tensor dataset must be tensor.'
    assert tkids.size() == torch.Size([max_seq_len]), 'Each sample in the tensor dataset must have same length.'
    assert torch.all(dset[idx] == tkids), 'Support ``__getitem__`` and ``__iter__``.'

コード例 #2

ファイルを表示

ファイル: test_build_vocab.py プロジェクト: shangrex/language-model-playground

def test_build_vocab(
    parameters,
    test_input: Sequence[str],
    expected: Dict[str, int],
):
    r"""Correctly build vocabulary under the constraint of given parameters."""

    tknzr = WsTknzr(
        is_uncased=parameters['is_uncased'],
        max_vocab=parameters['max_vocab'],
        min_count=parameters['min_count'],
        tk2id=parameters['tk2id'],
    )

    tknzr.build_vocab(test_input)

    assert tknzr.tk2id == expected