Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Сбор текстовки. Много много копипаста. =)

28 июня 2010
В рубриках: Контент, Самоделки

Последняя версия парсера здесь

Ближе к вечеру появилась мыслишка обновить базу текста для бурж доров. Искать всякие библиотеки в архивах не хотелось, да и в свое время я их уже искал и уже много раз поюзал…

Дабы немножко отвлечься от дум тяжких, написал простой сборщик текстовки для доров, ну или для низкокачественных сатов. Для доров, конечно, в первую очередь.

Собственно вот:
парсер текста

Чтоб долго не ждать и не ебать мозг со ссылками прикрутил многопоточность и сборщика ссылок (ходит по страничкам сайта до тех пор, пока не перестанут встречаться уникальные урлы), а чтобы не парсить откровенное Г, прикрутил блэклист. Если какое-то слово из него встречается в ссылке, то парсер по ней не ходит. Получилось вполне сносно.

В поле «Сайт» втыкаете урл сайта с «http://» и с завершающим слэшем на конце «/», высталяете количество потоков, заполняете блэклист и вперед! На выходе в папке parse кучка текстовки.

Скачать парсер текста

p/s Парсер текста не на что не претендует. Создан просто для того, чтобы быстро набрать нового текста. Думаю, будет интересно товарищам с рейтинга Спута.

Пис, гайс! :)

33 пользователя прокомментировали «Сбор текстовки. Много много копипаста. =)»

$tring пишет,
28 июня 2010 в 03:20 .     

контент получается не уник, и тот который уже присутствует в индексе. разве для доров такое подходит? я не профи, только начал интересоваться дорами :)

Dim1 пишет,
28 июня 2010 в 06:59 .     

Спасибо, поюзаю.

BigBoss пишет,
28 июня 2010 в 14:09 .     

Спасибо.
Было бы очень здорово, если бы парсер не тянул весь сайт, а только страницы в урле которых есть урл запроса.
то есть, есть запрос _http://site.com/derevo/
тянуть
_http://site.com/derevo/1.html,
_http://site.com/derevo/2.html,
_http://site.com/derevo/3.html
но не тянуть
_http://site.com/3.html
_http://site.com/trava/1.html

2. и как запретить грабинг картинок?

Джон пишет,
28 июня 2010 в 19:39 .     

Спасибо, полезная штука. На днях скачаю, поюзаю.

SciFi пишет,
28 июня 2010 в 22:55 .     

$tring, а ты попробуй. :) мне он для гугла. и из него я страгаю уник по стандартному алгоритму РБ

SciFi пишет,
28 июня 2010 в 23:02 .     

BigBoss,
1. можно приделать
2. написать в блэклист: «.jpg», «.gif» и т.д. естественно без кавычек и на одной строке – одно расширение.

Serj пишет,
28 июня 2010 в 23:11 .     

Возьмем на пробу, интересно

SmeTar пишет,
29 июня 2010 в 08:30 .     

Хорошо пишеш.

А по сути.. Ты упоминал о потоковом производстве сатов для сетки. Возникли наводящие вопросы.
1.Контент для сатов заготавливаеш наперед и растягиваваеш его публикацию, или добавляеш по факту парсинга?
2. Данный процесс (парсинг – обработка контента – постинг)у тебя полностью автоматизирован?

Можеш более подробно реализацию процесса постинга описать (особенно если он удаленный)?

SciFi пишет,
29 июня 2010 в 18:01 .     

SmeTar,
Контента спарсил один раз примерно 30к статей. Больше пока не парсил. Новорожденный сат имеет на борту 10 категорий, по 1 посту в каждой категории. И в таком виде заливается на хостинг.
Постинг удаленный. Постер берет случайную статью, синонимизирует (делает из нее, скажем 5 штук) и постит эти пять статей по разным сатам. Постер многопоточный, что сильно экономит время. Сейчас, к примеру, в живых у меня примерно 3.5к сатов. Чтобы запостить на каждый сат по синонимизированной статье уходит где-то минут 5. Пощу обычно каждый день по 3 статьи (15 минут). Иногда больше. Под настроение. :)

зы По парсеру появилась идея – разрешить ему переходить по внешним ссылкам на другие сайты. Тогда контента будет просто завались =))

пишет пишет,
29 июня 2010 в 18:24 .     

может постер выложишь? :)

SciFi пишет,
29 июня 2010 в 23:18 .     

пишет, поверь, не к чему он тебе. по крайней мере в том виде, в каком он сейчас прибывает :)

SmeTar пишет,
30 июня 2010 в 10:23 .     

Спасибо за ответ. Ты подтвердил мои задумки. Где-то так себе механизм наполнения сатов и представлял.

Кстати, твое предложение написания минисофта еще в силе? Можеш сваять парсер http://prom.ua/ с импортом в CSV?

А еще постинг тестовки на сати пускаеш через прокси?

Epinephrin пишет,
1 июля 2010 в 16:22 .     

SciFi, а ты доры на РБ делаешь?

SciFi пишет,
1 июля 2010 в 17:53 .     

SmeTar, посмотрю, в свободное время. но такие заявки ставят в тупик. «сделай парсер вот этого сайта». а че он должен парсить то? или мне самому придумать? :)

пощу без прокси. зачем их юзать на своих сатах? тем более весь постинг – по http протоколу.

SciFi пишет,
1 июля 2010 в 18:01 .     

Epinephrin, нет. Свой дорген.

hellbent пишет,
1 июля 2010 в 22:21 .     

Привет, хорошие темы пишешь, прочитал все с интересом ;)
А можешь еще писать уроки по кодингу, начал недавно кодить и инфы маловато…

SciFi пишет,
1 июля 2010 в 22:41 .     

hellbent, :) thanks a lot. хоть и нравится мне кодить, но до шедевров пока далекова-то :) чтоб уроки давать не дорос еще.

SmeTar пишет,
2 июля 2010 в 02:01 .     

Хе-хе, тупик не есть гуд. ТЗ я сваяю. Это не к спеху. С ПХП работаеш?

SmeTar пишет,
2 июля 2010 в 02:03 .     

По теме «кодить». Однако регулярки это то еще зло..

SciFi пишет,
3 июля 2010 в 11:14 .     

SmeTar, работаю. Регулярки это хорошо. :)

Сергей пишет,
9 июля 2010 в 14:51 .     

А можно ли сделать, что бы весь текст парсился в 1 файл, а не в разные?

SciFi пишет,
9 июля 2010 в 17:53 .     

Сергей,
для таких целей юзай KeyWordKeeper в режиме объединения файлов

Dvenadcatij пишет,
31 июля 2010 в 20:59 .     

- Скажите, по какому алгоритму тянется текст? Т.е. в программе набор тегов, из которых вытягиваются предложения? Будет ли возможность указать не один сайт для парса, а список Линков?

- Я пробовал с рус сайтом, также тянет (УТФ-8), а изначально привязка к языку была?

SciFi пишет,
1 августа 2010 в 12:10 .     

Dvenadcatij,
1. текст парсится по принципу удаления тегов. и последующего удаления последовательностей слов короче 3 шт.
2. привязка к языку ограничена компонентами VLC Delphi, никаких специальных действий по распознаванию кодировки не проводится.
3. Будет ли возможность указать не один сайт для парса, а список Линков? Пока не знаю. Не считаю такую возможность полезной.
4. Парсер уже давно обновлен – читай свежие посты.

3xMaster пишет,
10 августа 2010 в 13:42 .     

Парсер регулярки поддерживает?
Из Вебархива парсит (там в урле *)?

SciFi пишет,
10 августа 2010 в 22:58 .     

регулярки не поддерживаются. на вэбархиве не тестил.

AlexN пишет,
7 октября 2010 в 17:53 .     

Открыл парсер, а у него оформление – сплошные знаки вопроса( анадырь, кстати, такая же история). Как это исправить? Заранее благодарен за Ваш ответ.

SciFi пишет,
7 октября 2010 в 23:51 .     

пробуй последнюю версию. от чего такая фигня не знаю. первый раз сталкиваюсь.

3xMaster пишет,
26 октября 2010 в 00:40 .     

А последнюю версию научил с регулярками и вебархивом работать? ;)

>сплошные знаки вопроса
из-за кодировки скорее всего.

3xMaster пишет,
26 октября 2010 в 00:41 .     

И в этом посте поставил бы ссылку на новую версию, а? ;)

SciFi пишет,
26 октября 2010 в 20:11 .     

3xMaster, регулярки не поддерживаются. Вэбархив парсить не пытался, не знаю. Линк добавил.

Жорик Вартанов пишет,
23 ноября 2010 в 04:09 .     

Приветствую, а нельзя ли преределать данную программу под сбор титлов? Чтобы софтинка также после ввода урла нужного сайта спарсила все титлы в один файл и с новой строки. В общем нужна программка работающая по тому же принципу, но только парсить она должна титлы. Заранее спасибо!

SciFi пишет,
23 ноября 2010 в 13:14 .     

Жорик, юзай последнюю версию парсера

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi