Skip to content

shigarus/NewsParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

50 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NewsParser

Parse usefull info from default news site to *.txt

Задача:

Создать инструмент для извлечения текстов статей из новостных сайтов. Под новостными сайтами понимаются любые сайты, которые содержат обьемные статьи на любые темы, т.е. непосредственно новостные сайты, блоги и т.п.

Формат инструмента: скрипт с консольным интерфейсом.

Формат вывода: *.txt файлы, соответствующие url, вида http://default.ru/news/2013/03/dtp/index.html => [CUR_DIR]/default.ru/news/2013/03/dtp/index.txt.

Формат *.txt файла: ширина строки 80 символов, перенос по словам, абзацы и заголовки отделяются пустой строкой. Url, имеющий текстовое представление, записывается в виде <текстовое представление [url]>

Подробное описание в файле description.txt

About

Parse usefull info from default news-site to *.txt

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages