Exemplo n.º 1
0
def calcLinguistic(x):
    global count
    print('%i/%i'%(count,len(df)))
    count+=1
    objpl=pl.text(str(x).decode('utf-8'))
    objpl.setLanguage("pt");
    print(objpl.getFeatures())
    return objpl
Exemplo n.º 2
0
#file = open('english/2286.txt', 'r')


#text = file.read()

#print text

#objpl = Pylinguistics('pt',text.decode('utf-8'))











objpl = pl.text(text.decode('utf-8'))

objpl.setLanguage("pt");


print('Features: %s' %objpl.getFeatures())
#print('POS_TAGS: %s' %objpl.tokens)
#print('POS_TAGS: %s' %objpl.postag)
#print(len(objpl.postag))

Exemplo n.º 3
0
                    count = 0
                    for (reviewfile) in filenames:
                        count += 1
                        if '.xml' in reviewfile:
                            # READ XML
                            #reviewfile = '2_42055.xml'
                            #print reviewfile
                            try:
                                objreview = rp.parseit(versionpath + reviewfile)
                            except:
                                objreview = 0

                            if objreview != 0 and objreview.thumbsup != objreview.thumbsdown and len(objreview.opinion) > 10:

                                # READ XML
                                objpl = pl.text(objreview.opinion)
                                objpl.language = "pt";

                                # WRITE HEADER
                                if noheader == 0:
                                    for attr in objpl.getFeatures():
                                        csvgz.write(',' + attr)
                                    # WITH VALUES
                                    csvgz.write(',thumbsup,thumbsdown,stars,user,category,evaluation_date,recommends\n')
                                    noheader = 1

                                # WRITE ATTRIBUTES
                                index += 1
                                attributes = str(index) + ","
                                for attr in objpl.getFeatures():
                                    attributes += str(objpl.getFeatures()[attr]) + ','
    #encoding = "utf-8"
    #byte_string = b(input_str)
    #unicode_string = byte_string.decode(encoding)
    nfkd_form = unicodedata.normalize('NFKD', unicode(input_str, 'utf8'))
    only_ascii = nfkd_form.encode('ASCII', 'ignore')
    return only_ascii


corpus = pd.read_csv('corpus.csv.gz', compression='gzip')

df = {}
columns = []

for idx in corpus.index.values:
    text = corpus.content[idx]
    objpl = pl.text(remove_accents(text))
    objpl.language = "pt"

    post_pd = []

    if columns == []:
        for attr in objpl.getFeatures():
            columns.append(attr)
        columns.append('class')

    for attr in objpl.getFeatures():
        post_pd.append(str(objpl.getFeatures()[attr]))
    post_pd.append(corpus['qual_a_melhor_classificao_para_esse_texto'][idx])

    df[idx] = post_pd
    print(idx)
Exemplo n.º 5
0
import pandas as pd

#fapesp=pd.read_csv('fa.csv')

#print(fapesp.loc[267]['texto'])

#text = "An auxiliary verb is most generally understood as a verb that helps another verb by adding grammatical information to it."
#text = "Os benefícios concedidos pela FAPESP para bolsas de doutorado e pós-doutorado no Exterior foram alterados a partir do mês passado. Assim, o valor básico da manutenção passou de US1.400paraUS1700 mensais; o benefício para instalação, em casos de bolsas com duração de seis meses ou mais, foi elevado de US1.000paraUS 1.200 e a ajuda de custo para cobertura de despesas com saúde passou de US100paraUS 150 mensais. \n Foram alterados também os adicionais concedidos a bolsistas com dependentes. Dessa forma, quem tem um dependente recebe agora adicional de US250,contraosUS 200 em vigor até o final de junho; para dois dependentes, o adicional passou de US350paraUS 450; em caso de três dependentes, ele foi elevado de US450paraR 600 e para quatro dependentes ou mais, passou de US500paraUS 700 mensais. \n As bolsas no País permanecem com os mesmos valores vigentes desde fevereiro passado: iniciação científica, R250;aperfeiçoamento,R 500; mestrado I (fase inicial), R700;mestradoIIR750; doutoramento I, R1.050;doutoramentoII,R1.300 e pós-doutoramento R$ 1.900."
#text= "Ia bem em matemática, porém reprovou em física."
#text =  "Todos esses que aí estão atravancando meu caminho, eles passarão... Eu passarinho!"
#text = "O rato roeu a roupa do rei de Roma."
text = "Esse processo mostra que estamos diante de um novo modelo de interação universidade-empresa para geração de tecnologia e contratações de nível qualificado. Sabemos que no mundo a maior parte das pesquisas é feita nas empresas, mas não dá para a empresa surgir do nada. Mesmo em países como os Estados Unidos é preciso começar na universidade com ideias inovadoras, diz Pereira. Para os contratados, a parceria se transformou em uma grande oportunidade de exercício profissional. Sempre quis trabalhar no ramo empresarial e em desenvolvimento sustentável, diz a bióloga Maria Grassi, 25 anos."
#text = "..."

#file = open('english/2286.txt', 'r')

#text = file.read()

#print text

#objpl = Pylinguistics('pt',text.decode('utf-8'))

objpl = pl.text(text.decode('utf-8'))

objpl.setLanguage("pt")

print('Features: %s' % objpl.getFeatures())
#print('POS_TAGS: %s' %objpl.tokens)
#print('POS_TAGS: %s' %objpl.postag)
#print(len(objpl.postag))
Exemplo n.º 6
0
noheader = 0
i = 0
csvgz = gzip.open('experiments/reviews-amazon.csv.gz', 'wb')

g = gzip.open('reviews-amazon.json.gz', 'r')
for l in g:
    review_json = json.loads(l)

    date = int(datetime.datetime.strptime(review_json['reviewTime'], "%m %d, %Y").strftime("%Y%m%d"))
    thumbs = int(review_json['helpful'][0]) + int(review_json['helpful'][1])

    if date > 20050915 and date < 20130924 and thumbs > 0:

            try:
                objpl = pl.text(review_json['reviewText'],'en')

                # WRITE HEADER
                if noheader == 0:
                    for attr in objpl.getFeatures():
                        csvgz.write(',' + attr)
                    # WITH VALUES
                    csvgz.write(',thumbsup,thumbsdown,stars\n')
                    noheader = 1

                # WRITE ATTRIBUTES
                attributes = str(i) + ","
                for attr in objpl.getFeatures():
                    attributes += str(objpl.getFeatures()[attr]) + ','
                # WITH VALUES
                attributes += str(review_json['helpful'][0])  + ','