def calcLinguistic(x): global count print('%i/%i'%(count,len(df))) count+=1 objpl=pl.text(str(x).decode('utf-8')) objpl.setLanguage("pt"); print(objpl.getFeatures()) return objpl
#file = open('english/2286.txt', 'r') #text = file.read() #print text #objpl = Pylinguistics('pt',text.decode('utf-8')) objpl = pl.text(text.decode('utf-8')) objpl.setLanguage("pt"); print('Features: %s' %objpl.getFeatures()) #print('POS_TAGS: %s' %objpl.tokens) #print('POS_TAGS: %s' %objpl.postag) #print(len(objpl.postag))
count = 0 for (reviewfile) in filenames: count += 1 if '.xml' in reviewfile: # READ XML #reviewfile = '2_42055.xml' #print reviewfile try: objreview = rp.parseit(versionpath + reviewfile) except: objreview = 0 if objreview != 0 and objreview.thumbsup != objreview.thumbsdown and len(objreview.opinion) > 10: # READ XML objpl = pl.text(objreview.opinion) objpl.language = "pt"; # WRITE HEADER if noheader == 0: for attr in objpl.getFeatures(): csvgz.write(',' + attr) # WITH VALUES csvgz.write(',thumbsup,thumbsdown,stars,user,category,evaluation_date,recommends\n') noheader = 1 # WRITE ATTRIBUTES index += 1 attributes = str(index) + "," for attr in objpl.getFeatures(): attributes += str(objpl.getFeatures()[attr]) + ','
#encoding = "utf-8" #byte_string = b(input_str) #unicode_string = byte_string.decode(encoding) nfkd_form = unicodedata.normalize('NFKD', unicode(input_str, 'utf8')) only_ascii = nfkd_form.encode('ASCII', 'ignore') return only_ascii corpus = pd.read_csv('corpus.csv.gz', compression='gzip') df = {} columns = [] for idx in corpus.index.values: text = corpus.content[idx] objpl = pl.text(remove_accents(text)) objpl.language = "pt" post_pd = [] if columns == []: for attr in objpl.getFeatures(): columns.append(attr) columns.append('class') for attr in objpl.getFeatures(): post_pd.append(str(objpl.getFeatures()[attr])) post_pd.append(corpus['qual_a_melhor_classificao_para_esse_texto'][idx]) df[idx] = post_pd print(idx)
import pandas as pd #fapesp=pd.read_csv('fa.csv') #print(fapesp.loc[267]['texto']) #text = "An auxiliary verb is most generally understood as a verb that helps another verb by adding grammatical information to it." #text = "Os benefícios concedidos pela FAPESP para bolsas de doutorado e pós-doutorado no Exterior foram alterados a partir do mês passado. Assim, o valor básico da manutenção passou de US1.400paraUS1700 mensais; o benefício para instalação, em casos de bolsas com duração de seis meses ou mais, foi elevado de US1.000paraUS 1.200 e a ajuda de custo para cobertura de despesas com saúde passou de US100paraUS 150 mensais. \n Foram alterados também os adicionais concedidos a bolsistas com dependentes. Dessa forma, quem tem um dependente recebe agora adicional de US250,contraosUS 200 em vigor até o final de junho; para dois dependentes, o adicional passou de US350paraUS 450; em caso de três dependentes, ele foi elevado de US450paraR 600 e para quatro dependentes ou mais, passou de US500paraUS 700 mensais. \n As bolsas no País permanecem com os mesmos valores vigentes desde fevereiro passado: iniciação científica, R250;aperfeiçoamento,R 500; mestrado I (fase inicial), R700;mestradoIIR750; doutoramento I, R1.050;doutoramentoII,R1.300 e pós-doutoramento R$ 1.900." #text= "Ia bem em matemática, porém reprovou em física." #text = "Todos esses que aí estão atravancando meu caminho, eles passarão... Eu passarinho!" #text = "O rato roeu a roupa do rei de Roma." text = "Esse processo mostra que estamos diante de um novo modelo de interação universidade-empresa para geração de tecnologia e contratações de nível qualificado. Sabemos que no mundo a maior parte das pesquisas é feita nas empresas, mas não dá para a empresa surgir do nada. Mesmo em países como os Estados Unidos é preciso começar na universidade com ideias inovadoras, diz Pereira. Para os contratados, a parceria se transformou em uma grande oportunidade de exercício profissional. Sempre quis trabalhar no ramo empresarial e em desenvolvimento sustentável, diz a bióloga Maria Grassi, 25 anos." #text = "..." #file = open('english/2286.txt', 'r') #text = file.read() #print text #objpl = Pylinguistics('pt',text.decode('utf-8')) objpl = pl.text(text.decode('utf-8')) objpl.setLanguage("pt") print('Features: %s' % objpl.getFeatures()) #print('POS_TAGS: %s' %objpl.tokens) #print('POS_TAGS: %s' %objpl.postag) #print(len(objpl.postag))
noheader = 0 i = 0 csvgz = gzip.open('experiments/reviews-amazon.csv.gz', 'wb') g = gzip.open('reviews-amazon.json.gz', 'r') for l in g: review_json = json.loads(l) date = int(datetime.datetime.strptime(review_json['reviewTime'], "%m %d, %Y").strftime("%Y%m%d")) thumbs = int(review_json['helpful'][0]) + int(review_json['helpful'][1]) if date > 20050915 and date < 20130924 and thumbs > 0: try: objpl = pl.text(review_json['reviewText'],'en') # WRITE HEADER if noheader == 0: for attr in objpl.getFeatures(): csvgz.write(',' + attr) # WITH VALUES csvgz.write(',thumbsup,thumbsdown,stars\n') noheader = 1 # WRITE ATTRIBUTES attributes = str(i) + "," for attr in objpl.getFeatures(): attributes += str(objpl.getFeatures()[attr]) + ',' # WITH VALUES attributes += str(review_json['helpful'][0]) + ','