Публикация
Обновление парсера
- Поправил сохранялку настроек
- Добавил возможность работы через HTTP прокси (актуально бывает, прокси ложим в файл proxy.txt в формате IP:PORT)
- Временно убрал завершение потоков по таймауту в связи с переделкой данного механизма
Качать тут.
В будущем – добавление сохранялки картинок, сохранялки любых бинарных файлов, разметка сграбленного контента для импорта в cms (будет свободно настраиваемый формат)
Если нужно что то еще – пишите.
Комменты к предыдущей записи закрыл. Писать здесь. На не отвеченные вопросы отвечу завтра-послезавтра.
116 пользователя прокомментировали «Обновление парсера»
Здравствуйте. У меня появилась задача сбора url картинок с галерей и т.п. сайтов (картинок в оригинальном разрешении, а не превьюшек). Это можно как-нибудь организовать с помощью данного парсера?
Спасибо Вам за труд.
неплохо бы какой нибудь хелп по парсеру в архив засунуть,а то приходиться в комментах лазить и искать ответ
Софтинка прикольная.
Поюзал. есть следющие предложения.
1.добавить возможность использования урлов из списка файлов.
2.добавить ещё один макрос для парсинга
типа [start]» <a href="[x]" title=[x] [/start][stop]"[/stop] [-all]
[x] это то что нам надо пропустить и не учитывать при выборке. а всё остальное является признаком для вытаскивания текста.
Dia, можно засунуть этот [x] в блэклист и парсер туда не пойдет, парсить такие страницы тоже, соответственно, не будет
Саня, парсер маленький и простой (ИМХО). Для отдельного хелпа еще не дорос ![]()
Алексей, все возможно в этой жизни. Пример сайта-галлереи в студию.
з.ы. недавно парсил урлы на картинки с youjizz.com – 500к урлов за час работы, примерно получилось.
вот есть такой парсер-граббер если не встречали вот ссылка http://www.phpsin.ru/desgrabber.php
можно кое-сто посмотреть как там организованно и типо того же попробовать сделать… просто как ориентир на что-то
Добавь сворачивание в трей =)
И поддержку куков. Например, от IE
seoneophyte, ok гляну что там за чудо парсер
Leprekon,
Зачем тебе трэй и куки? когда свернут на панель задач – не тру?
Куки – это для того, чтобы парсить сайты, где нужна авторизация.
А когда у тебя в панеле свернуто 10-15 прог, то немного путаешься…
[B]seoneophyte[/B] Копировать чужие идеи и разработки это не хорошо…
Софт шикарен!
Прост и в функционале все, что нужно. Главное руки прямые иметь )
в общем понял почему создавались пустые файлы в папке Parse, оказывается просто программа не успевала спарсить уонтент, программа как я понял с начало урл парсит, а потом только текст. Программа просто зверь ![]()
Естественно я дошел до этого посл подсказок автора программы.
Народ перед началом не забывайте наполнить «блек лист» и «вайт лист», так работа пойдет намного быстрее.
azat, не совсем так. список уров для прохода формируется в проге в алфавитном порядке – это для быстрого отсева повторных урлов. соответственно список постоянно меняется. урлы, которые нужно парсить могут очень долго находиться в конце этого списка. и пока парсерсер до них доберется может пройти довольно много времени.
а чем больше вайт и блэк – тем быстрее этот процесс, это да…
Ап от 19.09.10
Добавлена опция «расширенный формат ссылок» – парсер будет видеть любой формат ссылки (по дефолту видит только <a href= ) с включенной опцией ссылка будет распознана если она в виде <A href= или в виде <a[...]href= где [...] – любая последовательность символов.
Скачать
ps плотно не тестил – возможны баги.
Есть вопрос. Пробовал спарсить раздел сайта ag.ru с рецензиями. Не выходит. Добавил в блэк лист все разделы, кроме ревью. Он не на ходит ссылок на сами рецензии, пробовал относительные ссылки не пашет. Попробуйте пож-та, помогите как его можно сграббить. Неужели телепортом скачивать и потом уже чистить локально?
Хагеман, ag.ru пока спарсить нельзя, к сожалению.
SciFi, а как парсить данным инструментом одну и ту же страницу?
Т.е. есть url, по которому доступен различный при каждом входе контент. Структура страницы всегда одинакова, тест селективного парсинга работает отлично, парсит нужный контент; однако как пропарсить один урл многократно, с сохранением результатов в файлы 0.txt, 1.txt и т.д. — непонятно. Софтина парсит этот единственный урл и останавливается, если снова нажать на старт — перезаписывает 0.txt.
fausth, нет такого механизма на данный момент. В будущем будет возможность парсить по списку урлов. Там накидаешь много раз одну и туже страницу и все будет ok
да список сайтов пригодиться очень.а то приходиться сайты по одному парсить
В программе вся кирилица в виде ??????? ??? ??????
Раньше такого не было на этом компе.
Было бы круто чтобы в юникод сделали
Да смотрю я на все это и в очередной раз убеждаюсь, что бесплатный софт он такой и есть, совсем недавно сколько я тоже намучился с этим парсером, с этими настройками. Сейчас использую ZParser пускай он и платный но зато с ним нет не какого гемороя.
Программа очень полезная. Но у меня с ней несколько проблем.
1.Не мог добавить шаблон в селективный парсинг, добавляю шаблон, выхожу захожу обратно а там старый шаблон. вообщем зашел и добавил через файл настроек.
2. Почему то не работает вайт лист. т.е. неважно что в вайт листе все равно парсит все урлы, пока ненужные не добавишь в блэк лист.
3. Если б блек лист добавлен урл то по этим ссылкам прога не ходит. а хотелось бы поставить галочку типа: ходить по ссылкам из БЛ но не парсить сами страницы.
А так парсер хорош буду ждать обновлений )))
Спасибо за парсер, но папка parse пустая на любой вашей версии, на хп все равно не работает?Сохряняются только урлы(((
creator969,
1. точно послед. обнову юзаешь?
2. предназначение вайт-листа – указать парсеру признаки с траниц с которых разрешено парсить текст
3. блэклист нужен чтобы заранее исключить ненужные страницы, куда даже ходить не надо, а парситься будут те, которые разрешены в вайте.
Дмитрий, уже разобрались с этой проблемой. Читай комменты.
jera дай урл сайта, где такая проблема
ап от 06.10.10
- добавлен чистильщик полученных файлов может чистить в двух режимах:
1. «от и до» – удаляет все вхождения в соответствии с заданными границами
2. режим удаления конкретных символов (слов). Следите за кодировкой, когда удаляете русские буквы.
чистильщик последовательно обрабатывает все текстовые файлы.
- добавлен инструмент раскладывания файлов по папкам в заданных количествах (PathMaker)
указываете папку с файлами (parse по умолчанию) и нужное количество файлов в папке и тыкаете го. прога создает нужное количество папок и перемещает туда файлы в заданном количестве. в последнюю папку кладет все остатки, которые остаются (количество файлов почти всегда не кратно)
Ссыль в посте также обновлена.
ps обновления и стабилизация процессов парсинга чуть позже.
ЕЩЕ добавил сегодня:
- сохранение результата парсинга по шаблону.
Задается установкой соответствующего чекбокса на форме настроек селективного парсинга. Все просто. На вкладке «шаблон сохранения» пишите шаблон – любая последовательность символов, с вхождениями имен блоков в квадратных скобках, т.е. у вас 2 блока парсинга – в шаблоне сохранения надо написать что то типа
[Name0] - Клевый заголовок!
А вот это основной текст [Name1]. Конец!
прога заменит [Name0] и [Name1] на контент из этих блоков.
- добавлена опция конвертирования из utf8 в ansi (windows-1251), позволяет некоторых избежать казусов. Задается опционально на форме настроек селективного парсинга.
Теперь не буду удалять старые версии. Так что смотрите, что качаете.
Best regards, респект и уважуха! Я вас люблю. До связи.
Хочу парсить только ссылки (выбор: внутренние, внешние) с анкорами.
Все в 1 файл.
Возможно такое сделать?
Юрок, Возможно. Но позже.
Очень понравилось сохранение по шаблону. А то раньше приходилось спарсенный текст старонними софтинами доводить до нужного шаблона.
Появилась такая задача: допустим есть страничка на ней есть блоки вида:
Заголовок
Контент
И такаих блоков несколько на одной странице. Нужно что бы парсер находил все блоки данного вида на странице и каждый парсил в отдельный файл. Как я понимаю сейчас он находит только первый блок и переходит к следующему урл.
Я думаю многим бы пригодилась данная функция.
ps Может быть это уже реализовано и я не разобрался как пользоваться, тогда ткните носом. ))
Да спасибо SciFi все работает просто кривые руки были, просто супер прога!!!
creator969, юзай [-all] в шаблоне. спарсятся все вхождения. но сохранятся в один файл.
Cпасибо SciFi, хотя бы в один файл, скриптик напишу что бы распарсить на несколько файлов.
Хочется очень чтобы сразу сохраняло под формат популярных движков, очень нужно под rss формат вордпресс. А так большое спасибо.
Добавьте возможность парсинга картинок и уникализатор. Можно в виде подключаемых платных дополнений. Ну или чтобы на автомате подставлялись ваши ссылки допустим в каждый 30 спарсенный текст
С уважением.
еще хочется сильно чтобы парсил допустим статьи с количеством символов и выставлять количество не меньше которого
Сергей, уже сейчас все можно настроить для RSS формата Wordpress ![]()
по поводу минимального и макс. количества символов – думаю, будет. парсить картинки следующий шаг. на днях.
Спасибо за радостные вести, если не трудно подскажи как настроить под rss формат WP туплю откровенно но не нашел. С меня размещение статей «навечно» про твой продукт в трех блогах ЖЖ с тиц 30-30-20
Сергей, ok ![]()
шаблон сохранения
<item>
<title>[BlockNameTitle]</title>
<dc:creator><![CDATA[admin]]></dc:creator>
<category>[BlockNameCategory]</category>
<category domain="tag"><![CDATA[[BlockNameTag]]]></category>
<description></description>
<content:encoded><![CDATA[[BlockNameContent]]]></content:encoded>
<wp:post_date>2005-10-11 23:26:46</wp:post_date>
<wp:comment_status>open</wp:comment_status>
<wping_status>closed</wping_status>
<wp:status>publish</wp:status>
<wpost_parent>0</wpost_parent>
<wp:menu_order>0</wp:menu_order>
<wpost_type>post</wpost_type>
<wpost_password></wpost_password>
</item>
где
[BlockNameTitle] – тайтл
[BlockNameCategory] – категория поста
[BlockNameTag] – тэг поста, можно добавить несколько
[BlockNameContent] – основной контент статьи
Проблема только в том, чтобы задать даты постов. Тут нужно подумать как быть.
Как отпарсишь статьи объединяешь все в один файл, в начало файла добавляешь
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
xmlns:excerpt="http://wordpress.org/export/1.0/excerpt/"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:wp="http://wordpress.org/export/1.0/"
>
<channel>
<generator>http://wordpress.org/?v=2.8.6</generator>
<language>ru</language>
<wp:wxr_version>1.0</wp:wxr_version>
в конец
</channel>
</rss>
сохраняешь в UTF-8 и идешь в блог импортировать все это дело (Импорт WRX).
Согласен, неудобно получается. Автоматизирую, пожалуй. ![]()
ps ссылки на блоги убрал.
спасибо, надеюсь на автоматизацию все таки и парсер картинок и то что обновление со всеми этими полезняшками не заставит себя ждать.
да картинки было бы очень хорошо.
шаблон кстати подойдёт для генерации доров для wordpress. засунуть его только в rb например
хочется еще чтобы парсил по ключевому слову и ли фразе, выбор пс откуда источники брать, как вариант основной гугл Украина, Казахстана итд.
И даешь автоматизацию процесса сохранения напарсенного в разных форматах
update 18.10.10
- добавлен парсинг картинок
- добавлена возможность сохранения напарсенного в формате Wordpress eXtended RSS (WXR)
для парсинга картинок:
задать блок парсинга, который на выходе имеет линк на картинку, добавить в блок модификатор [-pic:pref:suff], можно юзать совместно с [-all], тогда спарсятся все картинки со странички, которые попали под шаблон для данного блока парсинга.
pref и suff – любые последовательности символов, они будут использованы для «оформления» картинки в тексте. Т.е. [-pic:<img src="/images/:">] на выходе даст что то типа <img src=»/images/-1-pic-name.jpg»>
где -1- есть идентификатор потока, а pic-name.jpg имя картинки. Когда будете делать сат, то просто берете папку parse\img (туда сохраняются все пикчи) и копируете в корень сата, переименовав в images. Вот такие дела.
Для сохранения в формате WXR надо задать соответствующий шаб сохранения (можно добавить жмакнув кнопку) и расставить метки, отпарсить сайт, отфильтровать весь шлак, если такой найдется, дальше идти на вкладку TextJoiner и поставить галку WRX, настроить даты постов, нажать ok для сохранения настроек и объединить все файлы в один. Все. Полученный файл можно импортировать в WP. Метка [DATE-TIME] заменяется на рассчитанную дату и время при объединении статей.
Да, при составлении шаблона (только для WXR формата) можно юзать метки [MYCAT], [MYTAG], [MYWORDS] – они будут заменены при объединении статей в один файл на случайные строчки из файлов mycat.txt, mytag.txt, mywords.txt, которые находятся в папке wrx.
===СКАЧАТЬ===
Вроде бы работает, пишите об ошибках, кому не лень…
спасибо большое пробую нравится
а еще можно попросить сделать отдельную прогу?
Массовый импорт текстовых файлов в разные форматы блогов.
Сергей , ok. Список блогов скинь или форматы.
Интересует в основном только WP, а так есть немного на блоггер и ЖЖ. Но основное желание удобная прога массового добавления текста из блокнота и ворда в WP
Спасибо.
Сергей, ну… как то это неинтересно совсем. таких прог хватает. стоит только поискать. я то думал к парсеру прикрутить еще че.
а поиск по слову или словосочетанию возможно?
сбор линков со страниц сделай с анкорами плиз… вроде ж не долго
[blockname]Name0[/blockname][start]<a href=»[/start][stop]«[/stop][-all]
Спарсятся все ссылки.
не, мне для спама нужно: только внутренние и с анкорами
1. залил сотню доров на фрихосты
2. добавил в парсер список этих 100 доров
3. на выходе линки для спама со всех доров
Юрок, парсер не может парсить по списку сайтов. Вообще то дорген должен выдавать линки для спама еще не этапе генерации дора.
Сергей, пока нет возможности. Позже. Нужно добавлять много чего в исходник. Времени мало.
- парсер не может парсить по списку сайтов
Я вижу
но вроде же говорилось что планируется. или мне показалось
- Вообще то дорген должен выдавать линки для спама еще не этапе генерации дора.
Мои такое не умеет. Да и без адресов удобнее: сгенерил много доров, а потом куда хочешь – туда и заливай.
Короче хотелось бы такое…
Спасибо разработчику парсера, требовать что либо за бесплатный продукт мы не может, остается только искренне благодарить
UP 26/10/10
поправил одно недоразумение. скачать.
а можно обновления в шапку выносить.неудобно по комментам искать ссыль на скачку с обновлением.
Саня, ok
неудобно зато интереснее, каждый день захожу вдруг обновления появятся или еще интересные проги
1) При сохранении по шаблону не удаляются теги HTML. Особенно не приятны ссылки в тексте. Хотелось бы, чтоб все теги HTML удалялись.
2) Было бы круто при задании даты публикации иметь возможность вводить «первые N постов публиковать от 5 до 10 статтей в день. Следующие посты «публиковать от 0 до 1 поста в день».
3) В задании шаблона парсинга, хотелось бы добавить тег, котогрый сообщал бы, что этот блок не обязательно должен присутствовать на странице. То есть при «парсинге только подходящих под шаблон страниц» этот блок не учитывался, как обязательный.
Вопрос. Что нужно, чтоб парсить ссылки такого вида: href=»../zovnishnij-nepryamyj-masazh-sercya.php»
У меня на такие ссылки не заходит парсер.
ПС: Огромное спасибо за Парсер!!
А, понял. Нужно жать галочку «Относительная адресация».
Всё, вопрос снимаю)
Валентин,
модификатор [-cleantext] в шаблоне для этого и существует. чтоб удалять html форматирование. будь внимательнее.
Кстати в трэкбэках к этому посту есть неплохой мануал по парсеру.
по остальному – позже будет сделано.
SciFi, да, огромное спасибо. Благодаря вашему парсеру, я, возможно, через 2 месяца смогу пообедать! =)
Можно ещё один вопрос?
Часто бывает, что при парсинге ничем не отличаются HTML код блоков превью новости и блоков полной новости. Парсинг полной новости очень усложняется.
- Если задать в блэклист страницы с превью, то ссылки не насобираются со всего сайта.
- Если парсить только страницы, подходящие под шаблон, то будут парситься и превью, а значит, через каждые 10 статтей будет дубликат статьи.
- Если в вайтлисте задать только ссылки полных новостей, то все ссылки не соберутся.
Есть ли решение в таких случаях?
Если нет, то можно задать GrayList, на страницах которого будут только собираться ссылки, но не парситься блоки.
С уважением, респектом и уважухой, Валентин.
Хмм… вайт лист для этого и создан… Вопрос снимаю. Кривые руки
Приветствую!
Спасибо за программулину – получил как раз то, что искал;). Хотя все же кое-какие косяки, к сожалению, заметил. Например, имею ситуацию: нужно напарсить с общетематического сайта контент, размещенный строго в определеннном разделе. Добавляю ссывлку на него в «Настройках», выглядит примерно так: http://site.ru/auto/, тот же урл добавил в вайтлист (<a href=http://site.ru/auto/) – безрезультатно, парсится весь сайт целиком. Не мудрствуя лукаво, запретил урлы остальных разделов в блэклист (<a href=http://site.ru/business/ etc.) – результат аналогичный. При условии, что все ссылки имеют схожую структуру http://site.ru/раздел/, тем более странно:).
Сейчас заглянул в папку, куда контент распаковывается, вроде бы че-то напарсилось, хотя минут 20 назад смотрел, в каждом файле ERROR значилось… бог есть=)
P.S. Было бы классно, если б решили задачу импорта в цмски (или в файлы хотя бы) – православная прога вышла бы;).
Дима, не тормози. читай описание.
Здравствуйте! Подскажите пожалуйста, как сохранить с сайта выбранный раздел таким образом, чтобы потом можно было просмтаривать его в автономном режиме. (Полностью со ссылками, картинками, файлами или по выбору).
СПАСИБО.
Путаешь парсер с зеркальщиками-даунлоадерами. спроси у гугла про программу телепорт. этим парсером такого не сделаешь.
ничего не пойму. в парсинге настроено 2 блока. при тестировании в результатае оба блока, а при массовом парсинге только 1й
пардон, все нормально, шаблон не очень удачно выбрал и вайтлист слишком обширный
да, и еще былоб очень озорно, если в вайтлисте еслиб в вайтличте сделать возможность задавать маски урлов, прикрутить регулярки, тогда вообще красата будед
Мб, в будущем
светлом.
Ребят, есть у кого нить фак по парсеру)) чтото как ни пробовал, либо а папке parse ничего не создается, либо пустой файл
Роман дайте парсеру время.
Автору еще раз спасибо, сегодня напрягся когда увидел вместо сайта объявление о недоступности ресурса.
Так же как у Романа, пусто или пустой файл(при полном окончании работы). Парсит ток урлы. Делал по двум мануалам с теми же сайтами.
ЗЫ версия последняя
Что значит пустые файлы?
Все работает.
Респект автору! Надо уже форум создавать полноценный по поддержке и багам данной програмульки. Готов посодействовать. Сервак есть, место есть.
Единственная проблемка.
Если натравливаешь на большой ресурс, то программа подвисает вместе с компом.
Походу много ресурсов потребляет.
Может конечно я и не прав.
ЧТо то не получается с програмкой.
Запускаю на сайт, а результат нулевой.
Ничего не собирает. Файл union.txt пустой и остальные тоже пустые.
Прошу помощи!
Sponsor, сайт, настройки в студию
К примеру сайт _www.evrovikroika.ru
пишу адрес сайта, в конце ставлю слешь http://www.evrovikroika.ru/
остальные настроки менял по разному, но результат нулевой.
Пробовал даже такой вариант выстовить:
- исключать поддомены
- парсить только походящие под шаблон….
Не говоря уже про селективный метод.
Очень хорошая прога. Но у меня такая проблема: нужно пропарсиль конкретные УРЛы (в количестве 140 шт.). Значит, я список УРЛов заганяю в вайтлист, настраиваю селективный парсинг (там тестирую на одном из УРЛов- все норм). В основном окне нажимаю Старт. Прога начинает парсить весь сайт, в строке «пропарсено урлов:» доходит до 2000 и больше (а мне нужно только мои 140). А так как сайт очень большой програма через некоторое время зависает. Что не так делаю? Пробовал не писать адрес сайта в основном окне в поле «сайт», но тогда парсер не стартует… Примеры моих УРЛов:
http://www.yakaboo.ua/ru/catalog/value/272892/page-1,
http://www.yakaboo.ua/ru/catalog/value/272892/page-2 и т.д.
Заранее благодарен за ответ
Sponsor, что ты хочешь выпарсить от туда? как то там неочень много контента
sash, добавлю на днях возможность парсить только по списку урлов. Это решит твою проблему.
p/s вот открываю исходник парсера и просто иногда теряюсь от всего, что там вижу… 100500 условий и ведь все равно где то есть косяки и утечки памяти. Надо бы всерьез заняться им.
Это немного оффтоп. Но, есть ли программа, которая парсит контент с html файлов, находящихся на локале? То есть подобная этой, только, которая просто переберёт все html-ки в папке.
Может можно к этой такое прикрутить?
Ставь денвер, цепляй домен, и парсь его на здоровье
Чёрт… Это же так очевидно))
Доброго времени суток. Собственно сегодня пробовал ваш парсер по вашим же примерам.
К сожалению даже тестовая страничка осталась пустой((((
Что очень даже обидно.
Страничка html загрузилась. Но вот текст прога не вытащила. Попытка сохранить настройки и прогнать сайт не привела к положительному результату(
Линки пробежали а текстовый файлик даже не создался(((
Может у вас есть Фак по проге?
GMK, тестовая страница оказалась пустой от того что для нее не подходит твой шаблон. открывай html представление, что скачал парсер, и смотри что не так… немного экспериментов и все будет гут.
Такая же проблема как и у GMK. При тестировании страница остается пустой. Шаблон составлен правильно (проверял на другом компе, там всё работает).
Привет всем.
Вроде не ДУБ,но сколько не пробовал – все пусто.
Каждое устройство имеет минимальное описание выпускаемого продукта, а здесь его нет.
Итак – ввел URL сайта.Больше сначала ничего не трогал – т.е. по умолчанию – что-то куда-то побежало,просканировало…. и пусто.
Вставил теги в Вайлист – т.е. начало и конец чего парсить.Не сдвинулся с места.
Как парсить – поставил все пункты-на пробу,кричит-шаблон не тот.Кто-то может подсказать что и как делать по-человечески ?
Друг, юзай последнюю версию. а инфы на блоге достаточно, надо только почитать…
подскажите как сделать так чтобы складываемые текстовые файлы имели название не 1,2,3,4 и т.д.
а по названию статьи?
если это ([Name0] – Клевый заголовок!
А вот это основной текст [Name1]. Конец!) то что мне нужно, то простите я видимо чего то не допонимаю как это реализовать?
ZLODEY, пока нельзя. позже сделаю.
спасибки. (скорей бы
.)
Спасибо отличный парсер! И легкий в настройках, а ваше могли бы и кнопочку еще добавить волшебную «поблагодарить автора»
уважаемый разработчик ответьте пожалуйста в асе 560+461+86 пять
а если нужно добавить в блок макрос в сграбленом title? такой #title# [blockname]Name7[/blockname][start]Start7[/start][stop]Stop7[/stop] #/title# в сграбленом он не появляется.
можно как то доработать?
Андрей я так и не понял в чем заморочка, но явно не в списке прокси
fozzy ok
Спасибо автору за хороший парсер), но есть вопрос : можно ли както сделать,чтобы весь напарсеный контент сохранялся в одном файле?
У меня просто создает файл тхт для каждой спарсеной странички,а неудобно оно
комрад,приветствую. До сих пор пользуюсь парсером спасибо
Просьба помочь с парсером, очень понравился, вроде всё работает, выставил всё правильно, тест провёл – парсит, только вот когда включаю по полной парсить сайт, контент не вытаскивает (файл с выдранным контентом не создаётся), думаю что то сделал не так, очень большая просьба помочь…
Денис, дело в особенностях реализации очереди для парса.
кроче, наполняй блэк и вайт листы, дабы не ждать прохода по несущественным для тебя урлам.
Пасиб за оперативный ответ. Вобщем оставил на ночь его вчера, он пропарсил 11000 страниц, потом остановился, в папке parse так ничего и не появилось, буду сегодня пробовать снова… что означает ‘=» в настройках? эту галочку надо ставить?
Вобщем скачал более свежую версию))) начало получаться, всё создаёт всё работает, спасибо огромное…
есть новая трабла – остановки… сайт очень большой, а он получается начинает парсить заново… можно ли как нибудь запускать его с места разъединения или с места остановки, чтоб по новой не парсить?
Денис 100% можно упростить парсинг.
не стоит парсить все без разбора. это малоэффективно.
Есть ли возможность заказать настройку программы под парсинг форума phpbb, на выходе rss чтобы получилась, сколько это будет стоить?
Женя, извини, нет. Сейчас другими делами занимаюсь. Мб, кто то из тех кто юзает согласится.
Пытаюсь настроить парсер, для каталога http://www.inmesol.su/equipment/. Селективный шаблон задал такой: [blockname]PageText[/blockname][start][/start][stop]Назад к списку[/stop][-cleantext][-all] , тестовую страничку http://www.inmesol.su/equipment/detail.php?ELEMENT_ID=41 спарсил на ура. Сохранил, нажал на старт.
В папке «Parse» 60 пустых файлов. Галка стоит на селективном парсинге, шаблон сахронен сайт введен: http://www.inmesol.su/equipment/. Из настроек трогал только селективный парсинг и всё.
Подскажите, что я не так делаю.
Миша, все делаешь не так. Читай блог.
SciFi, извини, если туплю… Просел все 108 сообщений ни в одном не написано как правильно составлять шаблон и последовательность действий. Кроме этой страницы есть ещё информация или сообщения?
Прочел всё что нашел, не вижу что не так. Подскажите, плз
Привет
Какие новые планы развития?
Чем помочь?
С уважением
Юзаю селективный парсинг по списку урл, и столкнулся с типичной проблемой пустой папки parse или пустых фалов. Пока не могу понять что делаю не так, но когда тестирую шаблон парсинга в блокноте вижу, что нужный кусок получен, хотя и в неверной кодировке.
Парсер класс, автору респект.
А есть возможность встроить функцию перевода спарсеных статей через Google Translate?
А как можно заставить парсер проходить ссылки по шаблону типа
http://www.mosgid.ru/*/*shkola* – где * – любые символы.
Ну или проходить все, а парсить только их.
чертов Мосгид не имеет структуры типа site/раздел
у него все по адресам.
надо выбрать строго школы, а ссылки там типа
http://www.mosgid.ru/amurskaya-ul/shkola-123
И не говорите мне читать блог – все прочел, гарантирую этой инфы нет.
Не знаю, есть ли такая функция в парсере, но легко это сделать, просто спарсив все, а потом в том же KWK сделать выборку по слову school. Разницы нет, просто линки будут фильтроваться потом, а не на момент сохранения…