Python BERTTensorizer示例

编程语言: Python

命名空间/包名称: pytext.data.bert_tensorizer

类/类型: BERTTensorizer

hotexamples.com的示例: 9

Python BERTTensorizer - 已找到9个示例。这些是从开源项目中提取的最受好评的pytext.data.bert_tensorizer.BERTTensorizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Config(9)

from_config(2)

示例#1

显示文件

 class ModelInput(_EncoderPairwiseModel.Config.ModelInput):
     tokens1: BERTTensorizerBase.Config = BERTTensorizer.Config(
         columns=["text1"], max_seq_len=128
     )
     tokens2: BERTTensorizerBase.Config = BERTTensorizer.Config(
         columns=["text2"], max_seq_len=128
     )

示例#2

显示文件

文件： bert_classification_models.py 项目： kurtisdavid/pytext

 class ModelInput(ModelInputBase):
     tokens1: BERTTensorizerBase.Config = BERTTensorizer.Config(
         columns=["text1"], max_seq_len=128)
     tokens2: BERTTensorizerBase.Config = BERTTensorizer.Config(
         columns=["text2"], max_seq_len=128)
     labels: LabelTensorizer.Config = LabelTensorizer.Config()
     # for metric reporter
     num_tokens: NtokensTensorizer.Config = NtokensTensorizer.Config(
         names=["tokens1", "tokens2"], indexes=[2, 2])

示例#3

显示文件

文件： tensorizers_test.py 项目： twild-fb/pytext

 def test_bert_pair_tensorizer(self):
     sentences = ["Focus", "Driving School"]
     expected_tokens = [101, 175, 287, 766, 462, 102, 100, 379, 102]
     expected_segment_labels = [0, 0, 0, 0, 0, 0, 1, 1, 1]
     row = {"text1": sentences[0], "text2": sentences[1]}
     tensorizer = BERTTensorizer.from_config(
         BERTTensorizer.Config(
             columns=["text1", "text2"],
             tokenizer=WordPieceTokenizer.Config(
                 wordpiece_vocab_path=
                 "pytext/data/test/data/wordpiece_1k.txt"),
         ))
     tokens, segment_labels, seq_len = tensorizer.numberize(row)
     self.assertEqual(tokens, expected_tokens)
     self.assertEqual(segment_labels, expected_segment_labels)
     self.assertEqual(seq_len, len(expected_tokens))

示例#4

显示文件

文件： bert_classification_models.py 项目： nadileaf/pytext

 class BertModelInput(BaseModel.Config.ModelInput):
     tokens: BERTTensorizer.Config = BERTTensorizer.Config(max_seq_len=128)
     dense: Optional[FloatListTensorizer.Config] = None
     labels: LabelTensorizer.Config = LabelTensorizer.Config()
     # for metric reporter
     num_tokens: NtokensTensorizer.Config = NtokensTensorizer.Config(
         names=["tokens"], indexes=[2]
     )

示例#5

显示文件

 class Config(DocumentClassificationTask.Config):
     model: NewBertModel.Config = NewBertModel.Config(
         inputs=NewBertModel.Config.BertModelInput(
             tokens=BERTTensorizer.Config(columns=["text1", "text2"],
                                          max_seq_len=128)))
     metric_reporter: ClassificationMetricReporter.Config = (
         ClassificationMetricReporter.Config(
             text_column_names=["text1", "text2"]))

示例#6

显示文件

 class BertModelInput(_EncoderBaseModel.Config.ModelInput):
     tokens: BERTTensorizer.Config = BERTTensorizer.Config(max_seq_len=128)

示例#7

显示文件

文件： tensorizers_test.py 项目： ufukhurriyetoglu/pytext

    def test_bert_tensorizer(self):
        sentence = "<SOS>  Focus Driving School Mulungushi bus station along Kasuba road, wamkopeka building.  Ndola,  Zambia."
        # expected result was obtained offline by running BertModelDataHandler
        expected = [
            101,
            133,
            278,
            217,
            135,
            175,
            287,
            766,
            462,
            100,
            379,
            182,
            459,
            334,
            459,
            280,
            504,
            462,
            425,
            283,
            171,
            462,
            567,
            474,
            180,
            262,
            217,
            459,
            931,
            262,
            913,
            117,
            192,
            262,
            407,
            478,
            287,
            744,
            263,
            478,
            262,
            560,
            119,
            183,
            282,
            287,
            843,
            117,
            195,
            262,
            407,
            931,
            566,
            119,
            102,
        ]
        row = {"text": sentence}
        tensorizer = BERTTensorizer.from_config(
            BERTTensorizer.Config(
                tokenizer=WordPieceTokenizer.Config(
                    wordpiece_vocab_path="pytext/data/test/data/wordpiece_1k.txt"
                )
            )
        )
        tokens, segment_label, seq_len = tensorizer.numberize(row)
        self.assertEqual(tokens, expected)
        self.assertEqual(seq_len, len(expected))
        self.assertEqual(segment_label, [0] * len(expected))

        tokens, pad_mask, segment_labels = tensorizer.tensorize(
            [(tokens, segment_label, seq_len)]
        )
        self.assertEqual(pad_mask[0].tolist(), [1] * len(expected))

示例#8

显示文件

文件： masked_lm.py 项目： puffythecat/pytext

 class InputConfig(ConfigBase):
     tokens: BERTTensorizer.Config = BERTTensorizer.Config(
         max_seq_len=128)

示例#9

显示文件

 class InputConfig(ConfigBase):
     tokens: BERTTensorizer.Config = BERTTensorizer.Config(
         columns=["text1", "text2"], max_seq_len=128
     )
     labels: NumericLabelTensorizer.Config = NumericLabelTensorizer.Config()