Malicious URL detection with datasets comparison

Project for the security course at CentraleSupelec, CS track.

Quickstart

On Windows

Use Python 3.4, 3.5 or 3.6 (compatibility with Tensorflow)

python -m venv venv
venv\Scripts\activate.bat
pip install -r requirements.txt

Examples

Check the file predict.py.

Datasets

Dataset 1: Unbalanced dataset with 80% safe URLs, 20% malicious - repeated URLs

Dataset 2: Balanced dataset

Dataset 3: Dated malicious URLs, built from PhishTank and Malware Domains Blocklist

Credits

The code here is based on the work of the following people:

Hillary Sanders and Joshua Saxe - Garbage In, Garbage Out How purportedly great ML models can be screwed up by bad data - paper, slides
Joshua Saxe and Konstantin Berlin - eXpose: A Character-Level Convolutional Neural Network with Embeddings For Detecting Malicious URLs, File Paths and Registry Keys - paper and their github

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
.gitignore		.gitignore
README.md		README.md
dataset_extractor.py		dataset_extractor.py
feature_generator.py		feature_generator.py
model.py		model.py
predict.py		predict.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

README.md

README.md

dataset_extractor.py

dataset_extractor.py

feature_generator.py

feature_generator.py

model.py

model.py

predict.py

predict.py

requirements.txt

requirements.txt

Repository files navigation

Malicious URL detection with datasets comparison

Quickstart

On Windows

Examples

Datasets

Credits

About

Releases

Packages

Contributors 2

Languages

Ben-Nupa/malicious_urls_detection

Folders and files

Latest commit

History

Repository files navigation

Malicious URL detection with datasets comparison

Quickstart

On Windows

Examples

Datasets

Credits

About

Resources

Stars

Watchers

Forks

Languages