Публикация
Сбор текстовки. Много много копипаста. =)
Последняя версия парсера здесь
Ближе к вечеру появилась мыслишка обновить базу текста для бурж доров. Искать всякие библиотеки в архивах не хотелось, да и в свое время я их уже искал и уже много раз поюзал…
Дабы немножко отвлечься от дум тяжких, написал простой сборщик текстовки для доров, ну или для низкокачественных сатов. Для доров, конечно, в первую очередь.
Собственно вот:

Чтоб долго не ждать и не ебать мозг со ссылками прикрутил многопоточность и сборщика ссылок (ходит по страничкам сайта до тех пор, пока не перестанут встречаться уникальные урлы), а чтобы не парсить откровенное Г, прикрутил блэклист. Если какое-то слово из него встречается в ссылке, то парсер по ней не ходит. Получилось вполне сносно.
В поле «Сайт» втыкаете урл сайта с «http://» и с завершающим слэшем на конце «/», высталяете количество потоков, заполняете блэклист и вперед! На выходе в папке parse кучка текстовки.
p/s Парсер текста не на что не претендует. Создан просто для того, чтобы быстро набрать нового текста. Думаю, будет интересно товарищам с рейтинга Спута.
Пис, гайс!
33 пользователя прокомментировали «Сбор текстовки. Много много копипаста. =)»
контент получается не уник, и тот который уже присутствует в индексе. разве для доров такое подходит? я не профи, только начал интересоваться дорами
Спасибо, поюзаю.
Спасибо.
Было бы очень здорово, если бы парсер не тянул весь сайт, а только страницы в урле которых есть урл запроса.
то есть, есть запрос _http://site.com/derevo/
тянуть
_http://site.com/derevo/1.html,
_http://site.com/derevo/2.html,
_http://site.com/derevo/3.html
но не тянуть
_http://site.com/3.html
_http://site.com/trava/1.html
2. и как запретить грабинг картинок?
Спасибо, полезная штука. На днях скачаю, поюзаю.
$tring, а ты попробуй.
мне он для гугла. и из него я страгаю уник по стандартному алгоритму РБ
BigBoss,
1. можно приделать
2. написать в блэклист: «.jpg», «.gif» и т.д. естественно без кавычек и на одной строке – одно расширение.
Возьмем на пробу, интересно
Хорошо пишеш.
А по сути.. Ты упоминал о потоковом производстве сатов для сетки. Возникли наводящие вопросы.
1.Контент для сатов заготавливаеш наперед и растягиваваеш его публикацию, или добавляеш по факту парсинга?
2. Данный процесс (парсинг – обработка контента – постинг)у тебя полностью автоматизирован?
Можеш более подробно реализацию процесса постинга описать (особенно если он удаленный)?
SmeTar,
Контента спарсил один раз примерно 30к статей. Больше пока не парсил. Новорожденный сат имеет на борту 10 категорий, по 1 посту в каждой категории. И в таком виде заливается на хостинг.
Постинг удаленный. Постер берет случайную статью, синонимизирует (делает из нее, скажем 5 штук) и постит эти пять статей по разным сатам. Постер многопоточный, что сильно экономит время. Сейчас, к примеру, в живых у меня примерно 3.5к сатов. Чтобы запостить на каждый сат по синонимизированной статье уходит где-то минут 5. Пощу обычно каждый день по 3 статьи (15 минут). Иногда больше. Под настроение.
зы По парсеру появилась идея – разрешить ему переходить по внешним ссылкам на другие сайты. Тогда контента будет просто завались =))
может постер выложишь?
пишет, поверь, не к чему он тебе. по крайней мере в том виде, в каком он сейчас прибывает
Спасибо за ответ. Ты подтвердил мои задумки. Где-то так себе механизм наполнения сатов и представлял.
Кстати, твое предложение написания минисофта еще в силе? Можеш сваять парсер http://prom.ua/ с импортом в CSV?
А еще постинг тестовки на сати пускаеш через прокси?
SciFi, а ты доры на РБ делаешь?
SmeTar, посмотрю, в свободное время. но такие заявки ставят в тупик. «сделай парсер вот этого сайта». а че он должен парсить то? или мне самому придумать?
пощу без прокси. зачем их юзать на своих сатах? тем более весь постинг – по http протоколу.
Epinephrin, нет. Свой дорген.
Привет, хорошие темы пишешь, прочитал все с интересом ![]()
А можешь еще писать уроки по кодингу, начал недавно кодить и инфы маловато…
hellbent,
thanks a lot. хоть и нравится мне кодить, но до шедевров пока далекова-то
чтоб уроки давать не дорос еще.
Хе-хе, тупик не есть гуд. ТЗ я сваяю. Это не к спеху. С ПХП работаеш?
По теме «кодить». Однако регулярки это то еще зло..
SmeTar, работаю. Регулярки это хорошо.
А можно ли сделать, что бы весь текст парсился в 1 файл, а не в разные?
Сергей,
для таких целей юзай KeyWordKeeper в режиме объединения файлов
- Скажите, по какому алгоритму тянется текст? Т.е. в программе набор тегов, из которых вытягиваются предложения? Будет ли возможность указать не один сайт для парса, а список Линков?
- Я пробовал с рус сайтом, также тянет (УТФ-8), а изначально привязка к языку была?
Dvenadcatij,
1. текст парсится по принципу удаления тегов. и последующего удаления последовательностей слов короче 3 шт.
2. привязка к языку ограничена компонентами VLC Delphi, никаких специальных действий по распознаванию кодировки не проводится.
3. Будет ли возможность указать не один сайт для парса, а список Линков? Пока не знаю. Не считаю такую возможность полезной.
4. Парсер уже давно обновлен – читай свежие посты.
Парсер регулярки поддерживает?
Из Вебархива парсит (там в урле *)?
регулярки не поддерживаются. на вэбархиве не тестил.
Открыл парсер, а у него оформление – сплошные знаки вопроса( анадырь, кстати, такая же история). Как это исправить? Заранее благодарен за Ваш ответ.
пробуй последнюю версию. от чего такая фигня не знаю. первый раз сталкиваюсь.
А последнюю версию научил с регулярками и вебархивом работать?
>сплошные знаки вопроса
из-за кодировки скорее всего.
И в этом посте поставил бы ссылку на новую версию, а?
3xMaster, регулярки не поддерживаются. Вэбархив парсить не пытался, не знаю. Линк добавил.
Приветствую, а нельзя ли преределать данную программу под сбор титлов? Чтобы софтинка также после ввода урла нужного сайта спарсила все титлы в один файл и с новой строки. В общем нужна программка работающая по тому же принципу, но только парсить она должна титлы. Заранее спасибо!
Жорик, юзай последнюю версию парсера