Python split_sentences 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizer

메소드/함수: split_sentences

hotexamples.com에서의 예제들: 5

Python split_sentences - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizer.split_sentences에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: feature_extractor_counts_ngrams.py 프로젝트: brian-lau/guac

    def extract_tokens_from_file(self, responses, input_filename, n, token_dict):
        Y = fh.read_csv(input_filename)
        rids = Y.index
        dataset = fh.get_basename(input_filename)

        for rid in rids:
            if rid in responses:
                text = responses[rid].lower()
                text = text.lstrip()
                text = text.rstrip()
                tokens = []

                sentences = tokenizer.split_sentences(text)
                for s in sentences:
                    sent_tokens = tokenizer.make_ngrams(s, n)
                    #sent_tokens = [t.rstrip('`"\'') if re.search('[a-z]', t) else t for t in sent_tokens]
                    #sent_tokens = [t.lstrip('`"\'') if re.search('[a-z]', t) else t for t in sent_tokens]
                    tokens = tokens + sent_tokens

                tokens = [self.get_prefix() + t for t in tokens]
                if self.params['source'] != 'normalized':
                    tokens = [t + '_<' + self.params['source'] + '>' for t in tokens]
                if self.params['append_dataset']:
                    tokens = [t + '_' + dataset for t in tokens]
                token_dict[rid] = tokens
            else:
                token_dict[rid] = []

예제 #2

파일 보기

 def extract_tokens_from_text(self, data):
     token_dict = {}
     for key, text in data.items():
         text = text.lower()
         text = text.lstrip()
         text = text.rstrip()
         tokens = []
         sentences = tokenizer.split_sentences(text)
         for s in sentences:
             sent_tokens = [s[i:i + self.n] for i in range(len(s) - self.n)]
             tokens = tokens + sent_tokens
         tokens = [self.get_prefix() + t for t in tokens]
         token_dict[key] = tokens
     return token_dict

예제 #3

파일 보기

파일: feature_extractor_chargrams.py 프로젝트: anukat2015/ARKcat

 def extract_tokens_from_text(self, data):
     token_dict = {}
     for key, text in data.items():
         text = text.lower()
         text = text.lstrip()
         text = text.rstrip()
         tokens = []
         sentences = tokenizer.split_sentences(text)
         for s in sentences:
             sent_tokens = [s[i:i+self.n] for i in range(len(s)-self.n)]
             tokens = tokens + sent_tokens
         tokens = [self.get_prefix() + t for t in tokens]
         token_dict[key] = tokens
     return token_dict

예제 #4

파일 보기

파일: feature_extractor_ngrams.py 프로젝트: benbo/botc

    def extract_tokens_from_file(self, data, n):
        token_dict = {}
        for key, text in data.items():
            text = text.lower()
            text = text.lstrip()
            text = text.rstrip()
            tokens = []

            sentences = tokenizer.split_sentences(text)
            for s in sentences:
                sent_tokens = tokenizer.make_ngrams(s, n)
                tokens = tokens + sent_tokens

            tokens = [self.get_prefix() + t for t in tokens]
            token_dict[key] = tokens
        return token_dict

예제 #5

파일 보기

파일: feature_extractor_counts_brownclusters.py 프로젝트: brian-lau/guac

    def extract_tokens_from_file(self, responses, input_filename, n, cluster_dict, token_dict):
        Y = fh.read_csv(input_filename)
        rids = Y.index

        for rid in rids:
            text = responses[rid].lower()
            text = text.lstrip()
            text = text.rstrip()
            tokens = []

            sentences = tokenizer.split_sentences(text)
            for s in sentences:
                sent_tokens = tokenizer.make_ngrams(s, n)
                sent_tokens = [t.rstrip('`"\'') if re.search('[a-z]', t) else t for t in sent_tokens]
                sent_tokens = [t.lstrip('`"\'') if re.search('[a-z]', t) else t for t in sent_tokens]
                sent_tokens = sent_tokens + ['__ENDS__']
                tokens = tokens + sent_tokens

            tokens = [self.get_prefix() + cluster_dict[t] for t in tokens if t in cluster_dict]
            token_dict[rid] = tokens