Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Обновление парсера

15 сентября 2010
В рубриках: О блоге

- Поправил сохранялку настроек
- Добавил возможность работы через HTTP прокси (актуально бывает, прокси ложим в файл proxy.txt в формате IP:PORT)
- Временно убрал завершение потоков по таймауту в связи с переделкой данного механизма

Качать тут.
В будущем – добавление сохранялки картинок, сохранялки любых бинарных файлов, разметка сграбленного контента для импорта в cms (будет свободно настраиваемый формат)
Если нужно что то еще – пишите.
Комменты к предыдущей записи закрыл. Писать здесь. На не отвеченные вопросы отвечу завтра-послезавтра.

116 пользователя прокомментировали «Обновление парсера»

Алексей пишет,
15 сентября 2010 в 09:22 .     

Здравствуйте. У меня появилась задача сбора url картинок с галерей и т.п. сайтов (картинок в оригинальном разрешении, а не превьюшек). Это можно как-нибудь организовать с помощью данного парсера?
Спасибо Вам за труд.

Саня пишет,
15 сентября 2010 в 09:52 .     

неплохо бы какой нибудь хелп по парсеру в архив засунуть,а то приходиться в комментах лазить и искать ответ

Dia пишет,
15 сентября 2010 в 17:44 .     

Софтинка прикольная.
Поюзал. есть следющие предложения.
1.добавить возможность использования урлов из списка файлов.
2.добавить ещё один макрос для парсинга
типа [start]» <a href="[x]" title=[x] [/start][stop]"[/stop] [-all]
[x] это то что нам надо пропустить и не учитывать при выборке. а всё остальное является признаком для вытаскивания текста.

SciFi пишет,
15 сентября 2010 в 21:37 .     

Dia, можно засунуть этот [x] в блэклист и парсер туда не пойдет, парсить такие страницы тоже, соответственно, не будет
Саня, парсер маленький и простой (ИМХО). Для отдельного хелпа еще не дорос :)
Алексей, все возможно в этой жизни. Пример сайта-галлереи в студию.
з.ы. недавно парсил урлы на картинки с youjizz.com – 500к урлов за час работы, примерно получилось.

seoneophyte пишет,
16 сентября 2010 в 03:12 .     

вот есть такой парсер-граббер если не встречали вот ссылка http://www.phpsin.ru/desgrabber.php
можно кое-сто посмотреть как там организованно и типо того же попробовать сделать… просто как ориентир на что-то

Leprekon пишет,
16 сентября 2010 в 15:30 .     

Добавь сворачивание в трей =)

Leprekon пишет,
16 сентября 2010 в 23:42 .     

И поддержку куков. Например, от IE

SciFi пишет,
17 сентября 2010 в 04:26 .     

seoneophyte, ok гляну что там за чудо парсер
Leprekon, :) Зачем тебе трэй и куки? когда свернут на панель задач – не тру?

Leprekon пишет,
17 сентября 2010 в 13:00 .     

Куки – это для того, чтобы парсить сайты, где нужна авторизация.
А когда у тебя в панеле свернуто 10-15 прог, то немного путаешься…

phpsin пишет,
17 сентября 2010 в 17:02 .     

[B]seoneophyte[/B] Копировать чужие идеи и разработки это не хорошо…

mohnatij zver пишет,
17 сентября 2010 в 19:52 .     

Софт шикарен!
Прост и в функционале все, что нужно. Главное руки прямые иметь )

azat пишет,
18 сентября 2010 в 18:21 .     

в общем понял почему создавались пустые файлы в папке Parse, оказывается просто программа не успевала спарсить уонтент, программа как я понял с начало урл парсит, а потом только текст. Программа просто зверь :)
Естественно я дошел до этого посл подсказок автора программы.
Народ перед началом не забывайте наполнить «блек лист» и «вайт лист», так работа пойдет намного быстрее.

SciFi пишет,
18 сентября 2010 в 20:16 .     

azat, не совсем так. список уров для прохода формируется в проге в алфавитном порядке – это для быстрого отсева повторных урлов. соответственно список постоянно меняется. урлы, которые нужно парсить могут очень долго находиться в конце этого списка. и пока парсерсер до них доберется может пройти довольно много времени.
а чем больше вайт и блэк – тем быстрее этот процесс, это да… :)

SciFi пишет,
19 сентября 2010 в 18:43 .     

Ап от 19.09.10
Добавлена опция «расширенный формат ссылок» – парсер будет видеть любой формат ссылки (по дефолту видит только <a href= ) с включенной опцией ссылка будет распознана если она в виде <A href= или в виде <a[...]href= где [...] – любая последовательность символов.
Скачать
ps плотно не тестил – возможны баги.

Хагеман пишет,
20 сентября 2010 в 12:00 .     

Есть вопрос. Пробовал спарсить раздел сайта ag.ru с рецензиями. Не выходит. Добавил в блэк лист все разделы, кроме ревью. Он не на ходит ссылок на сами рецензии, пробовал относительные ссылки не пашет. Попробуйте пож-та, помогите как его можно сграббить. Неужели телепортом скачивать и потом уже чистить локально?

SciFi пишет,
21 сентября 2010 в 10:57 .     

Хагеман, ag.ru пока спарсить нельзя, к сожалению.

fausth пишет,
27 сентября 2010 в 07:31 .     

SciFi, а как парсить данным инструментом одну и ту же страницу?

Т.е. есть url, по которому доступен различный при каждом входе контент. Структура страницы всегда одинакова, тест селективного парсинга работает отлично, парсит нужный контент; однако как пропарсить один урл многократно, с сохранением результатов в файлы 0.txt, 1.txt и т.д. — непонятно. Софтина парсит этот единственный урл и останавливается, если снова нажать на старт — перезаписывает 0.txt.

SciFi пишет,
27 сентября 2010 в 09:53 .     

fausth, нет такого механизма на данный момент. В будущем будет возможность парсить по списку урлов. Там накидаешь много раз одну и туже страницу и все будет ok

Саня пишет,
28 сентября 2010 в 15:56 .     

да список сайтов пригодиться очень.а то приходиться сайты по одному парсить

jera пишет,
28 сентября 2010 в 23:46 .     

В программе вся кирилица в виде ??????? ??? ??????

Раньше такого не было на этом компе.

Было бы круто чтобы в юникод сделали

iran пишет,
4 октября 2010 в 18:58 .     

Да смотрю я на все это и в очередной раз убеждаюсь, что бесплатный софт он такой и есть, совсем недавно сколько я тоже намучился с этим парсером, с этими настройками. Сейчас использую ZParser пускай он и платный но зато с ним нет не какого гемороя.

creator969 пишет,
6 октября 2010 в 09:28 .     

Программа очень полезная. Но у меня с ней несколько проблем.

1.Не мог добавить шаблон в селективный парсинг, добавляю шаблон, выхожу захожу обратно а там старый шаблон. вообщем зашел и добавил через файл настроек.

2. Почему то не работает вайт лист. т.е. неважно что в вайт листе все равно парсит все урлы, пока ненужные не добавишь в блэк лист.

3. Если б блек лист добавлен урл то по этим ссылкам прога не ходит. а хотелось бы поставить галочку типа: ходить по ссылкам из БЛ но не парсить сами страницы.

А так парсер хорош буду ждать обновлений )))

Дмитрий пишет,
6 октября 2010 в 09:49 .     

Спасибо за парсер, но папка parse пустая на любой вашей версии, на хп все равно не работает?Сохряняются только урлы(((

SciFi пишет,
6 октября 2010 в 09:56 .     

creator969,
1. точно послед. обнову юзаешь?
2. предназначение вайт-листа – указать парсеру признаки с траниц с которых разрешено парсить текст
3. блэклист нужен чтобы заранее исключить ненужные страницы, куда даже ходить не надо, а парситься будут те, которые разрешены в вайте.

Дмитрий, уже разобрались с этой проблемой. Читай комменты.

jera дай урл сайта, где такая проблема

SciFi пишет,
6 октября 2010 в 13:27 .     

ап от 06.10.10
- добавлен чистильщик полученных файлов может чистить в двух режимах:
1. «от и до» – удаляет все вхождения в соответствии с заданными границами
2. режим удаления конкретных символов (слов). Следите за кодировкой, когда удаляете русские буквы.
чистильщик последовательно обрабатывает все текстовые файлы.
- добавлен инструмент раскладывания файлов по папкам в заданных количествах (PathMaker)
указываете папку с файлами (parse по умолчанию) и нужное количество файлов в папке и тыкаете го. прога создает нужное количество папок и перемещает туда файлы в заданном количестве. в последнюю папку кладет все остатки, которые остаются (количество файлов почти всегда не кратно)

Скачать тут.

Ссыль в посте также обновлена.
ps обновления и стабилизация процессов парсинга чуть позже.

ЕЩЕ добавил сегодня:
- сохранение результата парсинга по шаблону.
Задается установкой соответствующего чекбокса на форме настроек селективного парсинга. Все просто. На вкладке «шаблон сохранения» пишите шаблон – любая последовательность символов, с вхождениями имен блоков в квадратных скобках, т.е. у вас 2 блока парсинга – в шаблоне сохранения надо написать что то типа

[Name0] - Клевый заголовок!
А вот это основной текст [Name1]. Конец!

прога заменит [Name0] и [Name1] на контент из этих блоков.
- добавлена опция конвертирования из utf8 в ansi (windows-1251), позволяет некоторых избежать казусов. Задается опционально на форме настроек селективного парсинга.

Качаем здесь.

Теперь не буду удалять старые версии. Так что смотрите, что качаете.
Best regards, респект и уважуха! Я вас люблю. До связи.

Юрок пишет,
7 октября 2010 в 14:24 .     

Хочу парсить только ссылки (выбор: внутренние, внешние) с анкорами.
Все в 1 файл.
Возможно такое сделать?

SciFi пишет,
7 октября 2010 в 15:09 .     

Юрок, Возможно. Но позже.

creator969 пишет,
11 октября 2010 в 12:40 .     

Очень понравилось сохранение по шаблону. А то раньше приходилось спарсенный текст старонними софтинами доводить до нужного шаблона.

Появилась такая задача: допустим есть страничка на ней есть блоки вида:

Заголовок
Контент

И такаих блоков несколько на одной странице. Нужно что бы парсер находил все блоки данного вида на странице и каждый парсил в отдельный файл. Как я понимаю сейчас он находит только первый блок и переходит к следующему урл.
Я думаю многим бы пригодилась данная функция.
ps Может быть это уже реализовано и я не разобрался как пользоваться, тогда ткните носом. ))

Дмитрий пишет,
11 октября 2010 в 14:31 .     

Да спасибо SciFi все работает просто кривые руки были, просто супер прога!!!

SciFi пишет,
11 октября 2010 в 14:43 .     

creator969, юзай [-all] в шаблоне. спарсятся все вхождения. но сохранятся в один файл.

creator969 пишет,
11 октября 2010 в 18:26 .     

Cпасибо SciFi, хотя бы в один файл, скриптик напишу что бы распарсить на несколько файлов.

Сергей пишет,
12 октября 2010 в 20:53 .     

Хочется очень чтобы сразу сохраняло под формат популярных движков, очень нужно под rss формат вордпресс. А так большое спасибо.
Добавьте возможность парсинга картинок и уникализатор. Можно в виде подключаемых платных дополнений. Ну или чтобы на автомате подставлялись ваши ссылки допустим в каждый 30 спарсенный текст
С уважением.

Сергей пишет,
12 октября 2010 в 23:33 .     

еще хочется сильно чтобы парсил допустим статьи с количеством символов и выставлять количество не меньше которого

SciFi пишет,
13 октября 2010 в 20:16 .     

Сергей, уже сейчас все можно настроить для RSS формата Wordpress :)
по поводу минимального и макс. количества символов – думаю, будет. парсить картинки следующий шаг. на днях.

Сергей пишет,
13 октября 2010 в 20:47 .     

Спасибо за радостные вести, если не трудно подскажи как настроить под rss формат WP туплю откровенно но не нашел. С меня размещение статей «навечно» про твой продукт в трех блогах ЖЖ с тиц 30-30-20

SciFi пишет,
14 октября 2010 в 00:14 .     

Сергей, ok :)
шаблон сохранения

<item>
<title>[BlockNameTitle]</title>
<dc:creator><![CDATA[admin]]></dc:creator>
<category>[BlockNameCategory]</category>
<category domain="tag"><![CDATA[[BlockNameTag]]]></category>
<description></description>
<content:encoded><![CDATA[[BlockNameContent]]]></content:encoded>
<wp:post_date>2005-10-11 23:26:46</wp:post_date>
<wp:comment_status>open</wp:comment_status>
<wping_status>closed</wping_status>
<wp:status>publish</wp:status>
<wpost_parent>0</wpost_parent>
<wp:menu_order>0</wp:menu_order>
<wpost_type>post</wpost_type>
<wpost_password></wpost_password>
</item>

где
[BlockNameTitle] – тайтл
[BlockNameCategory] – категория поста
[BlockNameTag] – тэг поста, можно добавить несколько
[BlockNameContent] – основной контент статьи
Проблема только в том, чтобы задать даты постов. Тут нужно подумать как быть.
Как отпарсишь статьи объединяешь все в один файл, в начало файла добавляешь
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
xmlns:excerpt="http://wordpress.org/export/1.0/excerpt/"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:wp="http://wordpress.org/export/1.0/"
>
<channel>
<generator>http://wordpress.org/?v=2.8.6</generator>
<language>ru</language>
<wp:wxr_version>1.0</wp:wxr_version>

в конец
</channel>
</rss>

сохраняешь в UTF-8 и идешь в блог импортировать все это дело (Импорт WRX).
Согласен, неудобно получается. Автоматизирую, пожалуй. :)
ps ссылки на блоги убрал.

Сергей пишет,
14 октября 2010 в 01:58 .     

спасибо, надеюсь на автоматизацию все таки и парсер картинок и то что обновление со всеми этими полезняшками не заставит себя ждать.

Саня пишет,
15 октября 2010 в 20:58 .     

да картинки было бы очень хорошо.

Саня пишет,
15 октября 2010 в 21:18 .     

шаблон кстати подойдёт для генерации доров для wordpress. засунуть его только в rb например

Сергей пишет,
18 октября 2010 в 01:10 .     

хочется еще чтобы парсил по ключевому слову и ли фразе, выбор пс откуда источники брать, как вариант основной гугл Украина, Казахстана итд.
И даешь автоматизацию процесса сохранения напарсенного в разных форматах

SciFi пишет,
18 октября 2010 в 18:54 .     

update 18.10.10
- добавлен парсинг картинок
- добавлена возможность сохранения напарсенного в формате Wordpress eXtended RSS (WXR)

для парсинга картинок:

задать блок парсинга, который на выходе имеет линк на картинку, добавить в блок модификатор [-pic:pref:suff], можно юзать совместно с [-all], тогда спарсятся все картинки со странички, которые попали под шаблон для данного блока парсинга.
pref и suff – любые последовательности символов, они будут использованы для «оформления» картинки в тексте. Т.е. [-pic:<img src="/images/:">] на выходе даст что то типа <img src=»/images/-1-pic-name.jpg»>
где -1- есть идентификатор потока, а pic-name.jpg имя картинки. Когда будете делать сат, то просто берете папку parse\img (туда сохраняются все пикчи) и копируете в корень сата, переименовав в images. Вот такие дела.
Для сохранения в формате WXR надо задать соответствующий шаб сохранения (можно добавить жмакнув кнопку) и расставить метки, отпарсить сайт, отфильтровать весь шлак, если такой найдется, дальше идти на вкладку TextJoiner и поставить галку WRX, настроить даты постов, нажать ok для сохранения настроек и объединить все файлы в один. Все. Полученный файл можно импортировать в WP. Метка [DATE-TIME] заменяется на рассчитанную дату и время при объединении статей.
Да, при составлении шаблона (только для WXR формата) можно юзать метки [MYCAT], [MYTAG], [MYWORDS] – они будут заменены при объединении статей в один файл на случайные строчки из файлов mycat.txt, mytag.txt, mywords.txt, которые находятся в папке wrx.
===СКАЧАТЬ===
Вроде бы работает, пишите об ошибках, кому не лень… :)

Сергей пишет,
19 октября 2010 в 17:24 .     

спасибо большое пробую нравится

а еще можно попросить сделать отдельную прогу?
Массовый импорт текстовых файлов в разные форматы блогов.

SciFi пишет,
20 октября 2010 в 00:22 .     

Сергей , ok. Список блогов скинь или форматы.

Сергей пишет,
21 октября 2010 в 19:55 .     

Интересует в основном только WP, а так есть немного на блоггер и ЖЖ. Но основное желание удобная прога массового добавления текста из блокнота и ворда в WP
Спасибо.

SciFi пишет,
22 октября 2010 в 00:26 .     

Сергей, ну… как то это неинтересно совсем. таких прог хватает. стоит только поискать. я то думал к парсеру прикрутить еще че.

Сергей пишет,
22 октября 2010 в 10:19 .     

а поиск по слову или словосочетанию возможно?

Юрок пишет,
22 октября 2010 в 16:56 .     

сбор линков со страниц сделай с анкорами плиз… вроде ж не долго

SciFi пишет,
22 октября 2010 в 19:51 .     

[blockname]Name0[/blockname][start]<a href=»[/start][stop]«[/stop][-all]
Спарсятся все ссылки.

Юрок пишет,
22 октября 2010 в 21:22 .     

не, мне для спама нужно: только внутренние и с анкорами

1. залил сотню доров на фрихосты
2. добавил в парсер список этих 100 доров
3. на выходе линки для спама со всех доров

SciFi пишет,
22 октября 2010 в 22:54 .     

Юрок, парсер не может парсить по списку сайтов. Вообще то дорген должен выдавать линки для спама еще не этапе генерации дора. :)

SciFi пишет,
22 октября 2010 в 22:57 .     

Сергей, пока нет возможности. Позже. Нужно добавлять много чего в исходник. Времени мало.

Юрок пишет,
23 октября 2010 в 00:14 .     

- парсер не может парсить по списку сайтов

Я вижу :) но вроде же говорилось что планируется. или мне показалось

- Вообще то дорген должен выдавать линки для спама еще не этапе генерации дора.

Мои такое не умеет. Да и без адресов удобнее: сгенерил много доров, а потом куда хочешь – туда и заливай.

Короче хотелось бы такое…

Сергей пишет,
25 октября 2010 в 22:45 .     

Спасибо разработчику парсера, требовать что либо за бесплатный продукт мы не может, остается только искренне благодарить

SciFi пишет,
26 октября 2010 в 20:17 .     

UP 26/10/10
поправил одно недоразумение. скачать.

Саня пишет,
27 октября 2010 в 14:17 .     

а можно обновления в шапку выносить.неудобно по комментам искать ссыль на скачку с обновлением.

SciFi пишет,
27 октября 2010 в 14:56 .     

Саня, ok

Сергей пишет,
28 октября 2010 в 14:30 .     

неудобно зато интереснее, каждый день захожу вдруг обновления появятся или еще интересные проги

Валентин пишет,
29 октября 2010 в 23:54 .     

1) При сохранении по шаблону не удаляются теги HTML. Особенно не приятны ссылки в тексте. Хотелось бы, чтоб все теги HTML удалялись.

2) Было бы круто при задании даты публикации иметь возможность вводить «первые N постов публиковать от 5 до 10 статтей в день. Следующие посты «публиковать от 0 до 1 поста в день».

3) В задании шаблона парсинга, хотелось бы добавить тег, котогрый сообщал бы, что этот блок не обязательно должен присутствовать на странице. То есть при «парсинге только подходящих под шаблон страниц» этот блок не учитывался, как обязательный.

Вопрос. Что нужно, чтоб парсить ссылки такого вида: href=»../zovnishnij-nepryamyj-masazh-sercya.php»
У меня на такие ссылки не заходит парсер.

ПС: Огромное спасибо за Парсер!!

Валентин пишет,
30 октября 2010 в 00:06 .     

А, понял. Нужно жать галочку «Относительная адресация».
Всё, вопрос снимаю)

SciFi пишет,
30 октября 2010 в 03:25 .     

Валентин,
модификатор [-cleantext] в шаблоне для этого и существует. чтоб удалять html форматирование. будь внимательнее.
Кстати в трэкбэках к этому посту есть неплохой мануал по парсеру.
по остальному – позже будет сделано.

Валентин пишет,
2 ноября 2010 в 11:27 .     

SciFi, да, огромное спасибо. Благодаря вашему парсеру, я, возможно, через 2 месяца смогу пообедать! =)
Можно ещё один вопрос?
Часто бывает, что при парсинге ничем не отличаются HTML код блоков превью новости и блоков полной новости. Парсинг полной новости очень усложняется.
- Если задать в блэклист страницы с превью, то ссылки не насобираются со всего сайта.
- Если парсить только страницы, подходящие под шаблон, то будут парситься и превью, а значит, через каждые 10 статтей будет дубликат статьи.
- Если в вайтлисте задать только ссылки полных новостей, то все ссылки не соберутся.

Есть ли решение в таких случаях?
Если нет, то можно задать GrayList, на страницах которого будут только собираться ссылки, но не парситься блоки.

С уважением, респектом и уважухой, Валентин.

Валентин пишет,
2 ноября 2010 в 12:07 .     

Хмм… вайт лист для этого и создан… Вопрос снимаю. Кривые руки

Дмитрий пишет,
6 ноября 2010 в 23:33 .     

Приветствую!
Спасибо за программулину – получил как раз то, что искал;). Хотя все же кое-какие косяки, к сожалению, заметил. Например, имею ситуацию: нужно напарсить с общетематического сайта контент, размещенный строго в определеннном разделе. Добавляю ссывлку на него в «Настройках», выглядит примерно так: http://site.ru/auto/, тот же урл добавил в вайтлист (<a href=http://site.ru/auto/) – безрезультатно, парсится весь сайт целиком. Не мудрствуя лукаво, запретил урлы остальных разделов в блэклист (<a href=http://site.ru/business/ etc.) – результат аналогичный. При условии, что все ссылки имеют схожую структуру http://site.ru/раздел/, тем более странно:).

Дмитрий пишет,
6 ноября 2010 в 23:44 .     

Сейчас заглянул в папку, куда контент распаковывается, вроде бы че-то напарсилось, хотя минут 20 назад смотрел, в каждом файле ERROR значилось… бог есть=)

P.S. Было бы классно, если б решили задачу импорта в цмски (или в файлы хотя бы) – православная прога вышла бы;).

SciFi пишет,
7 ноября 2010 в 05:16 .     

Дима, не тормози. читай описание.

Василий пишет,
12 ноября 2010 в 10:35 .     

Здравствуйте! Подскажите пожалуйста, как сохранить с сайта выбранный раздел таким образом, чтобы потом можно было просмтаривать его в автономном режиме. (Полностью со ссылками, картинками, файлами или по выбору).
СПАСИБО.

SciFi пишет,
12 ноября 2010 в 20:47 .     

Путаешь парсер с зеркальщиками-даунлоадерами. спроси у гугла про программу телепорт. этим парсером такого не сделаешь.

schnaps пишет,
14 ноября 2010 в 10:08 .     

ничего не пойму. в парсинге настроено 2 блока. при тестировании в результатае оба блока, а при массовом парсинге только 1й

schnaps пишет,
14 ноября 2010 в 10:12 .     

пардон, все нормально, шаблон не очень удачно выбрал и вайтлист слишком обширный :)

schnaps пишет,
14 ноября 2010 в 10:22 .     

да, и еще былоб очень озорно, если в вайтлисте еслиб в вайтличте сделать возможность задавать маски урлов, прикрутить регулярки, тогда вообще красата будед :)

SciFi пишет,
15 ноября 2010 в 07:44 .     

Мб, в будущем :) светлом.

Роман пишет,
19 ноября 2010 в 22:16 .     

Ребят, есть у кого нить фак по парсеру)) чтото как ни пробовал, либо а папке parse ничего не создается, либо пустой файл

Сергей пишет,
22 ноября 2010 в 01:35 .     

Роман дайте парсеру время.
Автору еще раз спасибо, сегодня напрягся когда увидел вместо сайта объявление о недоступности ресурса.

Jackk пишет,
24 ноября 2010 в 02:15 .     

Так же как у Романа, пусто или пустой файл(при полном окончании работы). Парсит ток урлы. Делал по двум мануалам с теми же сайтами.

ЗЫ версия последняя

Sponsor пишет,
24 ноября 2010 в 13:51 .     

Что значит пустые файлы?
Все работает.
Респект автору! Надо уже форум создавать полноценный по поддержке и багам данной програмульки. Готов посодействовать. Сервак есть, место есть.
Единственная проблемка.
Если натравливаешь на большой ресурс, то программа подвисает вместе с компом.
Походу много ресурсов потребляет.
Может конечно я и не прав.

Sponsor пишет,
24 ноября 2010 в 17:54 .     

ЧТо то не получается с програмкой.
Запускаю на сайт, а результат нулевой.
Ничего не собирает. Файл union.txt пустой и остальные тоже пустые.
Прошу помощи!

SciFi пишет,
24 ноября 2010 в 21:48 .     

Sponsor, сайт, настройки в студию

Sponsor пишет,
25 ноября 2010 в 08:36 .     

К примеру сайт _www.evrovikroika.ru
пишу адрес сайта, в конце ставлю слешь http://www.evrovikroika.ru/
остальные настроки менял по разному, но результат нулевой.
Пробовал даже такой вариант выстовить:
- исключать поддомены
- парсить только походящие под шаблон….
Не говоря уже про селективный метод.

sash пишет,
26 ноября 2010 в 18:36 .     

Очень хорошая прога. Но у меня такая проблема: нужно пропарсиль конкретные УРЛы (в количестве 140 шт.). Значит, я список УРЛов заганяю в вайтлист, настраиваю селективный парсинг (там тестирую на одном из УРЛов- все норм). В основном окне нажимаю Старт. Прога начинает парсить весь сайт, в строке «пропарсено урлов:» доходит до 2000 и больше (а мне нужно только мои 140). А так как сайт очень большой програма через некоторое время зависает. Что не так делаю? Пробовал не писать адрес сайта в основном окне в поле «сайт», но тогда парсер не стартует… Примеры моих УРЛов:
http://www.yakaboo.ua/ru/catalog/value/272892/page-1,
http://www.yakaboo.ua/ru/catalog/value/272892/page-2 и т.д.
Заранее благодарен за ответ

SciFi пишет,
26 ноября 2010 в 19:27 .     

Sponsor, что ты хочешь выпарсить от туда? как то там неочень много контента

SciFi пишет,
26 ноября 2010 в 19:33 .     

sash, добавлю на днях возможность парсить только по списку урлов. Это решит твою проблему.
p/s вот открываю исходник парсера и просто иногда теряюсь от всего, что там вижу… 100500 условий и ведь все равно где то есть косяки и утечки памяти. Надо бы всерьез заняться им.

V пишет,
29 ноября 2010 в 05:07 .     

Это немного оффтоп. Но, есть ли программа, которая парсит контент с html файлов, находящихся на локале? То есть подобная этой, только, которая просто переберёт все html-ки в папке.
Может можно к этой такое прикрутить?

chayka пишет,
29 ноября 2010 в 05:38 .     

Ставь денвер, цепляй домен, и парсь его на здоровье :)

V пишет,
29 ноября 2010 в 05:54 .     

Чёрт… Это же так очевидно))

GMK пишет,
4 декабря 2010 в 01:27 .     

Доброго времени суток. Собственно сегодня пробовал ваш парсер по вашим же примерам.
К сожалению даже тестовая страничка осталась пустой((((
Что очень даже обидно.
Страничка html загрузилась. Но вот текст прога не вытащила. Попытка сохранить настройки и прогнать сайт не привела к положительному результату(
Линки пробежали а текстовый файлик даже не создался(((
Может у вас есть Фак по проге?

SciFi пишет,
4 декабря 2010 в 20:02 .     

GMK, тестовая страница оказалась пустой от того что для нее не подходит твой шаблон. открывай html представление, что скачал парсер, и смотри что не так… немного экспериментов и все будет гут.

Lexa пишет,
11 декабря 2010 в 21:22 .     

Такая же проблема как и у GMK. При тестировании страница остается пустой. Шаблон составлен правильно (проверял на другом компе, там всё работает).

Друг пишет,
19 декабря 2010 в 21:42 .     

Привет всем.
Вроде не ДУБ,но сколько не пробовал – все пусто.
Каждое устройство имеет минимальное описание выпускаемого продукта, а здесь его нет.
Итак – ввел URL сайта.Больше сначала ничего не трогал – т.е. по умолчанию – что-то куда-то побежало,просканировало…. и пусто.
Вставил теги в Вайлист – т.е. начало и конец чего парсить.Не сдвинулся с места.
Как парсить – поставил все пункты-на пробу,кричит-шаблон не тот.Кто-то может подсказать что и как делать по-человечески ?

SciFi пишет,
20 декабря 2010 в 21:17 .     

Друг, юзай последнюю версию. а инфы на блоге достаточно, надо только почитать…

ZLODEY пишет,
25 декабря 2010 в 11:36 .     

подскажите как сделать так чтобы складываемые текстовые файлы имели название не 1,2,3,4 и т.д.
а по названию статьи?
если это ([Name0] – Клевый заголовок!
А вот это основной текст [Name1]. Конец!) то что мне нужно, то простите я видимо чего то не допонимаю как это реализовать?

SciFi пишет,
25 декабря 2010 в 14:37 .     

ZLODEY, пока нельзя. позже сделаю.

ZLODEY пишет,
25 декабря 2010 в 16:37 .     

спасибки. (скорей бы :) .)

Sashka пишет,
30 декабря 2010 в 01:24 .     

Спасибо отличный парсер! И легкий в настройках, а ваше могли бы и кнопочку еще добавить волшебную «поблагодарить автора» :)

ZLODEY пишет,
8 января 2011 в 09:34 .     

уважаемый разработчик ответьте пожалуйста в асе 560+461+86 пять

Андрей пишет,
21 января 2011 в 10:21 .     

а если нужно добавить в блок макрос в сграбленом title? такой #title# [blockname]Name7[/blockname][start]Start7[/start][stop]Stop7[/stop] #/title# в сграбленом он не появляется. :( можно как то доработать?

SciFi пишет,
22 января 2011 в 22:41 .     

Андрей я так и не понял в чем заморочка, но явно не в списке прокси
fozzy ok

ukrpunk пишет,
17 февраля 2011 в 18:39 .     

Спасибо автору за хороший парсер), но есть вопрос : можно ли както сделать,чтобы весь напарсеный контент сохранялся в одном файле?
У меня просто создает файл тхт для каждой спарсеной странички,а неудобно оно

Сергей пишет,
21 февраля 2011 в 11:22 .     

комрад,приветствую. До сих пор пользуюсь парсером спасибо

Денис пишет,
1 марта 2011 в 23:54 .     

Просьба помочь с парсером, очень понравился, вроде всё работает, выставил всё правильно, тест провёл – парсит, только вот когда включаю по полной парсить сайт, контент не вытаскивает (файл с выдранным контентом не создаётся), думаю что то сделал не так, очень большая просьба помочь…

SciFi пишет,
2 марта 2011 в 12:04 .     

Денис, дело в особенностях реализации очереди для парса.
кроче, наполняй блэк и вайт листы, дабы не ждать прохода по несущественным для тебя урлам.

Денис пишет,
2 марта 2011 в 13:51 .     

Пасиб за оперативный ответ. Вобщем оставил на ночь его вчера, он пропарсил 11000 страниц, потом остановился, в папке parse так ничего и не появилось, буду сегодня пробовать снова… что означает ‘=» в настройках? эту галочку надо ставить?

Денис пишет,
2 марта 2011 в 17:21 .     

Вобщем скачал более свежую версию))) начало получаться, всё создаёт всё работает, спасибо огромное… :) есть новая трабла – остановки… сайт очень большой, а он получается начинает парсить заново… можно ли как нибудь запускать его с места разъединения или с места остановки, чтоб по новой не парсить?

SciFi пишет,
3 марта 2011 в 19:32 .     

Денис 100% можно упростить парсинг.
не стоит парсить все без разбора. это малоэффективно.

Евгений пишет,
16 марта 2011 в 11:26 .     

Есть ли возможность заказать настройку программы под парсинг форума phpbb, на выходе rss чтобы получилась, сколько это будет стоить?

SciFi пишет,
17 марта 2011 в 12:19 .     

Женя, извини, нет. Сейчас другими делами занимаюсь. Мб, кто то из тех кто юзает согласится.

Миша пишет,
10 мая 2011 в 21:30 .     

Пытаюсь настроить парсер, для каталога http://www.inmesol.su/equipment/. Селективный шаблон задал такой: [blockname]PageText[/blockname][start][/start][stop]Назад к списку[/stop][-cleantext][-all] , тестовую страничку http://www.inmesol.su/equipment/detail.php?ELEMENT_ID=41 спарсил на ура. Сохранил, нажал на старт.

В папке «Parse» 60 пустых файлов. Галка стоит на селективном парсинге, шаблон сахронен сайт введен: http://www.inmesol.su/equipment/. Из настроек трогал только селективный парсинг и всё.

Подскажите, что я не так делаю.

SciFi пишет,
11 мая 2011 в 15:22 .     

Миша, все делаешь не так. Читай блог.

Миша пишет,
25 мая 2011 в 19:52 .     

SciFi, извини, если туплю… Просел все 108 сообщений ни в одном не написано как правильно составлять шаблон и последовательность действий. Кроме этой страницы есть ещё информация или сообщения?

Миша пишет,
28 мая 2011 в 15:09 .     

Прочел всё что нашел, не вижу что не так. Подскажите, плз

Сергей пишет,
5 июня 2011 в 09:46 .     

Привет
Какие новые планы развития?
Чем помочь?
С уважением

RichMan пишет,
2 октября 2011 в 10:49 .     

Юзаю селективный парсинг по списку урл, и столкнулся с типичной проблемой пустой папки parse или пустых фалов. Пока не могу понять что делаю не так, но когда тестирую шаблон парсинга в блокноте вижу, что нужный кусок получен, хотя и в неверной кодировке.

Mike пишет,
3 октября 2011 в 22:23 .     

Парсер класс, автору респект.
А есть возможность встроить функцию перевода спарсеных статей через Google Translate?

Глеб пишет,
11 октября 2011 в 11:25 .     

А как можно заставить парсер проходить ссылки по шаблону типа
http://www.mosgid.ru/*/*shkola* – где * – любые символы.
Ну или проходить все, а парсить только их.
чертов Мосгид не имеет структуры типа site/раздел
у него все по адресам.
надо выбрать строго школы, а ссылки там типа
http://www.mosgid.ru/amurskaya-ul/shkola-123

И не говорите мне читать блог – все прочел, гарантирую этой инфы нет.

chayka пишет,
12 октября 2011 в 13:34 .     

Не знаю, есть ли такая функция в парсере, но легко это сделать, просто спарсив все, а потом в том же KWK сделать выборку по слову school. Разницы нет, просто линки будут фильтроваться потом, а не на момент сохранения…

Trackback & Pingback
UniParse – удобный парсер | SEOst.ru рекомедует эту публикацию,
29 октября 2010 в 05:49 с 209.200.244.223    
Бесплатный seo софт рекомедует эту публикацию,
23 сентября 2011 в 16:56 с 78.46.66.121    

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi