Python SegmentHelper.segment_text示例

编程语言: Python

命名空间/包名称: segment_helper

类/类型: SegmentHelper

方法/功能: segment_text

hotexamples.com的示例: 5

Python SegmentHelper.segment_text - 已找到5个示例。这些是从开源项目中提取的最受好评的segment_helper.SegmentHelper.segment_text现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

normalize(8)

segment_text(5)

lemmatization(4)

SegmentHelper(2)

segment(2)

phase_segment(1)

示例#1

显示文件

文件： gensim_helper.py 项目： wuhaifengdhu/DevinHelper

 def phrase_detection(bi_gram, file_name):
     lines = [line for line in StoreHelper.read_file(file_name).splitlines()]
     result = []
     for line in lines:
         for y in SegmentHelper.lemmatization(SegmentHelper.segment_text(line)):
             if len(y) > 0:
                 result.append(y)
     return bi_gram[result]

示例#2

显示文件

文件： gensim_helper.py 项目： wuhaifengdhu/DevinHelper

 def generate_sentence_stream():
     sentence_stream = []
     for i in range(8535): #8535
         text_file = "../data/clean_post_lemmatize/%04d.dat" % i
         if StoreHelper.is_file_exist(text_file):
             print ("Working on %s" % text_file)
             file_content = StoreHelper.read_file(text_file)
             for line in file_content.splitlines():
                 sentence_stream.append(SegmentHelper.lemmatization(SegmentHelper.segment_text(line)))
     StoreHelper.store_data(sentence_stream, 'sentence_stream.dat')
     return sentence_stream

示例#3

显示文件

 def _remove_conjunction_segment(self, probability_dict):
     phase_list = []
     sentence_list = []
     word_list = SegmentHelper.segment_text(self.raw_position)
     word_group = []
     for word in word_list:
         if word in stopwords.words('english'):
             if len(word_group) > 0:
                 sentence_list.append(' '.join(word_group))
                 word_group = []
         else:
             word_group.append(word)
     if len(word_group) > 0:
         sentence_list.append(' '.join(word_group))
     for sentence in sentence_list:
         phase_list.extend(
             SegmentHelper.phase_segment(probability_dict, sentence, 0.05))
     return phase_list

示例#4

显示文件

 def get_frequency_dict(content):
     words_list = []
     for line in content.splitlines():
         words_list.extend(
             SegmentHelper.lemmatization(SegmentHelper.segment_text(line)))
     return DictHelper.dict_from_count_list(words_list)

示例#5

显示文件

 def generate_word_list(self):
     words_list = []
     for line in self.raw_position.splitlines():
         words_list.extend(
             SegmentHelper.lemmatization(SegmentHelper.segment_text(line)))
     return words_list