Python ngramCount示例

编程语言: Python

命名空间/包名称: sms2

方法/功能: ngramCount

hotexamples.com的示例: 2

Python ngramCount - 已找到2个示例。这些是从开源项目中提取的最受好评的sms2.ngramCount现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： token.py 项目： fvdsn/NLP

def tokensFilter(tokenlines):
	
	lexicons = sms2.ngramCount(tokenlines, 1)
	filteredLines = []
	
	for line in tokenlines:
		tokenline = []
		for token in line:
			if lexicons[(token,)]<3:
				tokenline.append('<unk>')
			else : tokenline.append(token)
		filteredLines.append(tokenline)
	
	return filteredLines

示例#2

显示文件

文件： token.py 项目： fvdsn/NLP

def main():
	
	trainfile = open("../smstrain.txt")
	lexicon = sms2.ngramCount(smartTokenizer(trainfile),4)
	
	lexicon_list = []
	for lex in lexicon.keys():
		lexicon_list.append( (lexicon[lex],lex) )

	lexicon_list.sort(reverse=True)
	print lexicon_list
	print len(lexicon_list)
	
	histo = sms2.histogram(lexicon)
	
	print histo
	
	writer = csv.writer(open("quadricounts.csv", "wb"))
	writer.writerows(lexicon_list)