Inżynieria języka naturalnego

Kod programu na którym opiera się projekt.

Grupa zajęciowa

Rok akademicki 2014/2015

Semestr zimowy

Śr. 13:15

Autorzy

Jacek Miszczak (179158)
Filip Malczak (179326)

Dev Notes

Zawartość tego i kolejnych rozdziałów nie powinna być brana pod uwagę przy ocenie; są to jedynie prywatne notatki.

Tym razem w komentarzach i dokumentach używajmy j. polskiego. Jakby nie patrzeć, nim się zajmujemy... Klasy i zmienne - klasycznie, po angielsku ~F
Dla ujednolicenia używajmy terminów "question class" (qc) i "expected answer type" (eat) zamiast "klasa pytania" i "oczekiwany typ odpowiedzi" (OTO) ~F
Proszę o dodawanie takiej formułki na górę każdego modułu, na rzecz wygody na linuksie:

#!/usr/bin/python2

# -- coding: UTF-8 --

w module main jedyne co się zmienia to moduł z pakietu question_classification. Jeśli piszemy skrypty, to wystawiamy z nich funkcję main przyjmującą sys.argv która zostanie tam (w main.py) wywołana. ~F
Pliki z danymi wrzucamy na repo, nie są aż tak duże. Wyjątkiem od tego, póki co, jest leksykon nazw własnych - on ma 60 MB, tym nie będziemy gita katować. Nalezy go dociągnąć z http://nlp.pwr.wroc.pl/download/ner/nelexicon-v1.7z rozpakować i wrzucić do <repo_root>/data
Od danych surowych do policzonych TF: a. Normalizacja danych - skrypt normalize_data.py b. Utworzenie plików plaintext, prostych tekstowych korpusów dla każdej z klas z osobna, na obu poziomach ziarnistości, oraz dla wszystkich pytań - skrypt gather_plaintext.py c. Otagowanie korpusów celem uzyskania lematów - skrypt tag_data.py. On chwilę sie mieli d. Policzenie TF - skrypt count_TF.py
wcrft_wrapper does weird things with lematization, check it out

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
data		data
question_classification		question_classification
raw_data		raw_data
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

question_classification

question_classification

raw_data

raw_data

.gitignore

.gitignore

README.md

README.md

main.py

main.py

requirements.txt

requirements.txt

Repository files navigation

Inżynieria języka naturalnego

Grupa zajęciowa

Autorzy

Dev Notes

About

Releases

Packages

Contributors 2

Languages

PWr-Projects-For-Courses/NLP

Folders and files

Latest commit

History

Repository files navigation

Inżynieria języka naturalnego

Grupa zajęciowa

Autorzy

Dev Notes

About

Resources

Stars

Watchers

Forks

Languages