binarizeWhiskeyFlavors.py

import numpy as np
import json 
import pandas as pd

import matplotlib.pyplot as plt
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.stem.lancaster import LancasterStemmer

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer


from sklearn.decomposition import PCA


with open('MoM_whiskeys.json') as mom_file:
    dataMoM = json.load(mom_file)

mom_file.close()

with open('whiskyCast.json') as castfile:
    dataCast = json.load(castfile)

castfile.close()


data = dataMoM

            
name = []
for i in data.keys():
    name.append(i)


L = len(data)
for i in range(L):
    if data[name[i]]['Palate'] == 'N/A' and data[name[i]]['Nose'] == 'N/A':
        print i
        del data[name[i]]
        
    
fl = []    
for i in  data:
    fl.append(data[i]['Palate'])
    fl.append(data[i]['Nose'])    


# cigar attributes

strength = ['medium', 'light', 'strong', 'full','strenght','strong','full-bodied']
appended_cigar_flavors = {'flowers':['tulips','violets','bouquet','flowers','floral'], 'plants':['hay','grass','grassy','moss','cedar','cedary','oak','smoky','wood','woody','woodsy','woodiness','tea','tobacco','vegetal'], 'herbs and spices':['spice','spiciness','spicy','spices','mint','anice','licorice','cardamom','cardamon','nutmeg','pepper','cinnamon','clove','cloves','cumin','cayenne','chili'],'earth and minerals':['barnyard','earth','earthy','earthy/peaty','earthiness','lead','graphite','mineral','musk','musty','salt','salty','saltiness','savory'],'fruit':['peach','fruity','fruit','mango','pineapple','apple','raisin','plum','orange','zest','molasses','currant','citrus','lemon','cherry','cherries','berry','vanilla'],'nuts':['walnut','peanut','marzipan','cashew','almond','nut','nuts','nuttiness','nutty','hazelnut'],'leather':['leather','leathery'],'honey':['honey','sweet','sweetness','candy'],'cream':['cream','milky','creamy','creaminess'],'chocolate':['cocoa','chocolate','chocolately','chocolaty'],'coffee':['espresso','coffee/mocha','coffee','mocha','roasted'],'caramel':['caramel','toffee','butter','buttery','butterscotch'],'hrashness':['char','bread','oat','dry','harsh','harshness','ammonia','barley']}

# add body! and strength perhaps?! need bigrams! 


appExt = []
for i in appended_cigar_flavors:
    appExt = appExt + appended_cigar_flavors[i]

app = appExt

app =appended_cigar_flavors


def find_notes_and_categories(flc,app):
    st = LancasterStemmer()
    words_f = []
    notes = []
    category = []
    flav_wrds =  word_tokenize(flc)
    for i in flav_wrds:
        try:
            words_f.append(str(i).lower())
            words_f.append(st.stem(str(i).lower()))  
        except:
            pass    
    catbinary  = []
    for i in app:
        if len(set(words_f).intersection(app[i])) !=0:
            notes = notes + list(set(words_f).intersection(app[i]))
            category.append(app.keys().index(i))
            catbinary.append(1)
        else:
            catbinary.append(0)        
    return notes, category, catbinary


def find_notes_profile(flc,app):
    st = LancasterStemmer()
    words_f = []
    notes = []
    notesbinary = []
    flav_wrds =  word_tokenize(flc)
    for i in flav_wrds:
        try:
            words_f.append(str(i).lower())
            words_f.append(st.stem(str(i).lower())) 
        except:
            pass
    for i in range(len(app)):
        if app[i] in words_f:
            notes.append(app[i])
            notesbinary.append(1)
        else:
            notesbinary.append(0)
    return notes, notesbinary


cat_list = []
catB_list = []
k=0
for i in fl:
    notes, category,catBinary = find_notes_and_categories(i,app)
    cat_list.append(category)
    catB_list.append(catBinary)
    if len(category) == 0:
        print i
        k = k+1

notes_list = []
notesBinary_list = []
for i in fl:
    notes, notesBin = find_notes_profile(i,app)
    notes_list.append(notes)
    notesBinary_list.append(notesBin)
    if len(notes) == 0:
        print i

### categories ###
arr_inner_prod = np.inner(catB_list,catB_list)

catBarr = np.array(catB_list)

#######

### notes ###
catBarr = np.array(notesBinary_list)

pca = PCA(n_components=2)

out = pca.fit_transform(catBarr)

LC = out.tolist()
X = []
Y = []
for i in LC:
    X.append(i[0])
    Y.append(i[1])

cpmC = pca.components_

for i in range(len(cpmC[1])):
     if cpmC[1][i]*cpmC[1][i]>0.04:
             print app[i]
             print i
 

from sklearn.decomposition import ProjectedGradientNMF
pca = ProjectedGradientNMF(n_components=2)

out = pca.fit_transform(catBarr)

LC = out.tolist()
X = []
Y = []
Z = []
for i in LC:
    X.append(i[0])
    Y.append(i[1])

cpmC = pca.components_
lis1 = cpmC[0].tolist()

for i in range(len(lis1)):
     if lis1[i]>0.5:
             print app[i]