Final Project
Ayrıca tüm programı tek bir kod parçasıyla yapılması veya tüm işi sadece pc'ye bırakmak gibi de bir vaadimiz yoktu. Mevcut veri setinin küçüklüğü, bazı algoritmaları kullanırken gereklilikleri karşılayamamakta ve yetersiz kalmaktadır. Bu işlev pogramın sunum sırasında daha kısa sürede çalışmasına olanak verecektir. Bu sebeple program iki ana parçaya bölündü.
-
Otel özelliklerinin, en çok kullanılan kelimler arasından belirlenmesi: L_WordCount.py ile yapılmakta olup sonuçları L_WordCount_output.txt dosyasında bulunmaktadır. Bu dosyadan faydalanarak 10 otel özelliği seçilmiştir.Bunlar:
'hotel', 43923
'room', 39174
'staff', 18214
'service', 13370
'breakfast', 12217
'bar', 9490
'location', 8806
'restaurant', 7014
'bathroom', 5377
'food', 5368
'bed': 6015
'view': 4586 -
W2V ve Fasttext yardımıyla bu attributelerle aynı anlam/görevde kullanılan kelimelerin, ismi geçen algoritmalardan da yararlanarak* bulunmasıdır: L_W2V.py ile yapılmakta olup sonuçları L_W2V_output dosyası içindedir. İki farklı preprocceessing ve farklı train parametrelerikullanılarak 20 kez deneme yapılmış ve sonuçlarına kıyaslamalı bakılarak her bir otel özelliğini temsil eden birkaç yeni kelime daha belirlenmiştir. Bunlar:
1. Most similar to ['staff'] -> ('team', 0.5600), ('employee', 0.49374), ('everyone', 0.5933), ('host', 0.5027), ('staf', 0.8581), ('staffer', 0.8724), ('staffmember', 0.7315)
2. Most similar to ['location'] -> ('position', 0.7028), ('located', 0.5157), ('spot', 0.4717), ('locatie', 0.8049), ('located', 0.7731), ('localisation', 0.8129)
3. Most similar to ['room'] -> ('bedroom', 0.5666), ('rooom', 0.9447), ('roooms', 0.8848)
4. Most similar to ['breakfast']-> ('breackfast', 0.5005), ('breakfeast', 0.4910), ('breakfats', 0.9595), ('brekfast', 0.9437),('breakfest', 0.8730), ('bfast', 0.8107)
5. Most similar to ['bed'] -> ('pillow', 0.5807), ('mattress', 0.5692), ('chair', 0.5139), ('bedding', 0.5044), ('bedsheets', 0.8430), ('beds', 0.9087)
6. Most similar to ['service'] -> ('sevice', 0.4480), ('presentation', 0.4408), ('deliver', 0.4151), ('housekeep', 0.4263), ('seervice', 0.9216), ('roomservice', 0.9031), ('servicing', 0.8990)
7. Most similar to ['bathroom'] -> ('bathrooms', 0.7026), ('bath', 0.6796), ('bathtub', 0.6052), ('shower', 0.5574), ('tub', 0.5549), ('toilet', 0.5324), ('bathrooom', 0.9944), ('bathrom', 0.9467)
8. Most similar to ['view'] -> ('overlook', 0.7513), ('facing', 0.5536), ('views', 0.9849), ('viewing', 0.8934), ('vieuw', 0.8517), ('viewpoint', 0.8269), ('overview', 0.8269)
9. Most similar to ['food'] -> ('meal', 0.6452), ('dish', 0.5842), ('menu', 0.5589), ('lunch', 0.5225), ('dinner', 0.5218)
10. Most similar to ['restaurant'] -> ('restaurants', 0.5152), ('restaruant', 0.5104), ('eatery', 0.4917), ('dining', 0.4839), ('restuarant', 0.4917), ('hotelrestaurant', 0.9543)
- İş bu proje kapsamında bu iki işlem önceden yapılıp sonuçları kullanılacaktır.