Python get_sentence_pair 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: farm.data_handler.utils

메소드/함수: get_sentence_pair

hotexamples.com에서의 예제들: 2

Python get_sentence_pair - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 farm.data_handler.utils.get_sentence_pair에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: processor.py 프로젝트: jinnerbichler/FARM

    def _dict_to_samples(self, dictionary, all_dicts=None):
        assert len(
            all_dicts
        ) > 1, "Need at least 2 documents to sample random sentences from"
        doc = dictionary["doc"]
        samples = []

        # create one sample for each sentence in the doc (except for the very last -> "nextSentence" is impossible)
        for idx in range(len(doc) - 1):
            tokenized = {}
            if self.next_sent_pred:
                text_a, text_b, is_next_label = get_sentence_pair(
                    doc, all_dicts, idx)
                sample_in_clear_text = {
                    "text_a": text_a,
                    "text_b": text_b,
                    "nextsentence_label": is_next_label,
                }
                # tokenize
                tokenized["text_a"] = tokenize_with_metadata(
                    text_a, self.tokenizer)
                tokenized["text_b"] = tokenize_with_metadata(
                    text_b, self.tokenizer)
                # truncate to max_seq_len
                for seq_name in ["tokens", "offsets", "start_of_word"]:
                    tokenized["text_a"][seq_name], tokenized["text_b"][
                        seq_name], _ = truncate_sequences(
                            seq_a=tokenized["text_a"][seq_name],
                            seq_b=tokenized["text_b"][seq_name],
                            tokenizer=self.tokenizer,
                            max_seq_len=self.max_seq_len)
                    samples.append(
                        Sample(id=None,
                               clear_text=sample_in_clear_text,
                               tokenized=tokenized))
            # if we don't do next sentence prediction, we should feed in a single sentence
            else:
                text_a = doc[idx]
                sample_in_clear_text = {
                    "text_a": text_a,
                    "text_b": None,
                    "nextsentence_label": None,
                }
                # tokenize
                tokenized["text_a"] = tokenize_with_metadata(
                    text_a, self.tokenizer)
                # truncate to max_seq_len
                for seq_name in ["tokens", "offsets", "start_of_word"]:
                    tokenized["text_a"][seq_name], _, _ = truncate_sequences(
                        seq_a=tokenized["text_a"][seq_name],
                        seq_b=None,
                        tokenizer=self.tokenizer,
                        max_seq_len=self.max_seq_len)
                    samples.append(
                        Sample(id=None,
                               clear_text=sample_in_clear_text,
                               tokenized=tokenized))
        return samples

예제 #2

파일 보기

def create_samples_sentence_pairs(baskets):
    """Creates examples for Language Model Finetuning that consist of two sentences and the isNext label indicating if
     the two are subsequent sentences from one doc"""
    all_docs = [b.raw["doc"] for b in baskets]
    for basket in baskets:
        doc = basket.raw["doc"]
        basket.samples = []
        for idx in range(len(doc) - 1):
            id = "%s-%s" % (basket.id, idx)
            text_a, text_b, is_next_label = get_sentence_pair(doc, all_docs, idx)
            sample_in_clear_text = {
                "text_a": text_a,
                "text_b": text_b,
                "is_next_label": is_next_label,
            }
            basket.samples.append(Sample(id=id, clear_text=sample_in_clear_text))
    return baskets