Публикация
Парсер контента. Обновление.
Введен выборочный парсинг контента по ряду признаков. Теперь парсить можно все что угодно.
Как работать с новыми настройками:
1. Ставим галку «Селективный парсинг»
2. Жмем «SelectiveParse». Окрывается окошко с настройками для селективного парсинга.
3. Жмем «add new block», добавляется новый блок для парсинга.
4. Вводим признак начала и признак конца блока, а также имя блока -может быть любым. Добавьте сколько вам угодно блоков. Важно: 1 строка = 1 блок парсинга. Нельзя один блок разбивать на несколько строк!
5. Добавляем модификаторы «[-cleantext]» – удалить из блока все тэги и прочий мусор html оформления (за исключение тэга <br>), «[-all]» – спарсить все вхождения из блока (без этого модификатора парсится только первое вхождение из исходника)
6. Протестить созданный блок парсинга. Ввести URL конкретной страницы и нажать кнопку «Test». Парсер сходит по этому адресу и попытается спарсить по шаблону. Полученные результаты парсинга сразу откроются в блокноте или вашей другой проге по просмотру текстовых файлов, параллельно сохранятся в «SelectiveParseTest\html.txt» – исходник страницы, как его видит парсер, «SelectiveParseTest\test.txt» – спарсенный текст по шаблону.
Важно: если какой-то блок парсинга не сработал, посмотрите, как он выглядит в исходнике, который сохранил парсер! Бывает так, что оформление в браузере (просмотр исходника страницы) отличается от того, как видит исходник страницы парсер.
7. Обязательно жмем «save» и закрываем окошко с настройками
8. В поле «Cайт» Пишем адрес сайта с «http://» и со слэшем на конце «/», в Вайтлист признаки адресов страниц с которых будет парситься текст – это любая последовательность символов из URL. Одна строка – один признак. Парситься по шаблонам будут только эти страницы, с остальных будут собираться только ссылки. В блэклист заносим страницы, где заведомо делать нечего – на такие страницы парсер доже за ссылками не пойдет.
9. Можно запускать парсер.
Пример настроек селективного парсинга для сайта http://mirsovetov.ru/ парсится только основная статья. Блок для парсинга у нас один (все в одну строку!):
[blockname]PageText[/blockname][start]<div id="hypercontext" align="justify" style="padding-right: 10">[/start][stop]</div>[/stop][-cleantext]
Парсер вырезает контент от <div id="hypercontext" align="justify" style="padding-right: 10"> и до </div>
модификатор [-cleantext] говорит о том, что из полученного куска надо удалить все форматирование.
в вайтлист заносим признак из урла статей /a/ все статьи находятся обязательно по таким урлам. Если нужно парсить из определенной категории добавляем и ее тоже. К примеру, Автостатьи – /a/car/ спарсятся только страницы по таким урлам (где есть такое вхождение).
В блэклист пишем расширения картинок (по дефолту стоит) и еще db.php (конкретно для этого сайта, для других сайтов, будут другие вхождения) – это просто какой-то служебный скрипт, нах нам не нужен.
Все. парсим
Линк – новый парсер контента. Качаем ребята.
ps вопросы и предложения – в комменты, либо в аську (есть на странице инфо, когда рядом с компом – отвечу).
Гуд лак!
зы – читаем комменты, там будут все обновы по парсеру
96 пользователя прокомментировали «Парсер контента. Обновление.»
SciFi, скинь пож свое мыло. Есть поговорить. Мое в коментах. Мля, поря свой блог ставить. Сегодня же..
пиши в аську. так вышло, что мылом пользуюсь оооочень редко
Отписал. Я наоборот, в аську по первым числам месяца лезу. Время безбожно ворует.
UPDATE
- введена опция «таймаут потока» – убивает потоки, если они не откликаются заданное время
- добавлен чекбокс ‘ = » для сайтов, где ссылки заключены в одинарные кавычки, а не в двойные (по умолчанию парсер ищет ссылки в двойных кавычках)
качать здесь
SmeTar, ok
всегда искала бесплатный парсер но наконец-то наверное нашла!
товарищи спамеры, вы хоть айпишники меняйте, когда пишите комменты типа осмысленные… палитесь
Игорь подскажи как правильно шаблон сделать чтобы спарсить masteroff(точка)org =))) Текстов наберем, трафа достанем и на тизерах поднимемся))))))))
Спасибо , это действительно крутая и простая штука, уже месяц такой ищу
Это не ко мне
Школота), а чего не понятно то? Я уже 2 примера привел. один здесь, другой на серче. ВОт третий. Учись, сынок
Блоки парсинга вставлять каждый с овой строки. Надеюсь, это уяснили уже.
[blockname]song-info[/blockname][start]src="http://n.pay-click.ru/js/adv_out.js">[/start][stop] » <a href='[/stop][-cleantext]
[blockname]song-words[/blockname][start]<pre class='songtext'>[/start][stop]</pre>[/stop]
в вайтлист пишешь .html
в блэк добавляешь .txt
ставишь галку ' = "
Спасибо, очень хорошая программа.
Блин, реально бесплатный парсер, который отлично справляется со своими обязанностями)
Все легко и просто настроивается, а главное хорошо работает.Спасибо огромное!
Отличный парсер. Гибкий, простой в использовании, бесплатный.
Блог также очень интересен, читаю с удовольствием.
Спасибо.
Janizary,Николай Кодий, bliiiiiiiiina, DeXtR, приятно слышать!
UPDATE
- Введена опция «исключать поддомены». Парсер не будет ходить на поддомены сайта (по дефолту ходит).
- Введена опция «парсить только подходящие под шаблон страницы». Парсер будет прасить текст (и сохранять, соответственно) только на тех страницах, где встретились ВСЕ шаблоны. В этом случае вайтлист не используется.
- Теперь парсер сохраняет последние настройки (шаблоны для парсинга, вайтлист, блэклист, адрес сайта). Будьте внимательны – состояние чек боксов не сохраняется.
- Небольшой редизайн.
ps Эта версия в «боевых» условия не тестилась – возможны баги.
Предложения/пожелания/баги – welcome!
Качаем по старой ссылке.
1) Парсер сохраняет спарсенный текст в формате:
текст
Как бы сделать так, чтобы урла страницы и тега [blockname]=
там не было. А то геморно потом это чистить.
2)
2) И еще хорошо бы было сохрянять в один файл, а то приходится kwk для обьединения юзать… )))
Во-первых, спасибо за отличный инструмент.
Во-вторых – просьба пофиксить.
Пытаюсь парсить сайт, весь контент, нужный мне лежит в директории /dir/, на странице директории уже ссылки, в коде они прописаны как: *, значит страница имеет адрес site.ru/dir/890.html, по парсер, находя в коде ссылку, переходит по ней на страницу site.ru/890.html (минуя папку /dir/, т.к. в коде ссылки она не указана). Поэтому не могу распарсить сайт, а очень хочется) Буду крайне благодарен за фикс.
в прошлом комменте вырезались коды ссылок, дублирую: коды ссылок в контенте (a href=»890.html»)*(/a) вместо скобок теги конечно же.
Макс, посмотрю в чем там дело. Неплохо было бы скинуть урл сайта. В комментах не отобразится.
bliiiiiiiiina, учту пожелания.
сегодня-завтра обновлю.
UPDATE
Новые чекбоксы в окошке SelectiveParse Settings:
- «Размечать результаты парсинга» если стоит будет с разметкой (именами блоков и урлом старицы)
- «Сохранять тэг br» если стоит парсер не вырезает этот тэг
а так же:
- Добавлен джойнер результатов парсинга (объединяет спарсенные текста в один файл)
- «Относительная адресация» (для сайтов, где она нужна, по умолчанию адресация – абсолютная) выведена как отдельная опция, так так потестить мне это дело толком не удалось, просьба тем, кто будет это юзать отписаться о результатах, дабы я мог поправить косяки
Качаем по старой ссылке
по-прежнему принимаются предложения о доработке
А при объединении файлов можно добавить какой-то разделитель для статей? например окошко сделать и чтобы туда вписывать разделитель который нужно..
Che, сделаю
Привет SciFi! Спасибо за отличные программы!
Вчера при работе с программой, заметил интересность: отсутствовало окно с добавлением witelist.Надпись была
Система windows 7
SciFi, не могу изменить данные в selective parse а также добавить новый блок: сохранён только первый шаблон блока, теперь он постоянно один и тот-же, чтобы я не делал..
rebenn, сорри, на семерке потестить нет никакой возможности… Хотя у меня Виста и все пашет без нареканий. Попробуй удалить файл settings.txt из одноименной папки. Почему не видно вайтлиста – так же загадка. Не иначе как подглюкивает VCL делфячий.
На 7 не хочет парсить( Хотя тестовый селективный парсинг на ура
Если честно – не пойму всех этих 7-ор и вист… На хрюше все отлично работает, но люди ставят другие оси, что бы у них раб стол выглядел красивее, какой-то дополнительный плагин-будильник работал, но потом приходилось парить мозги с десятком прог, которые не так отрабатывают
тут вопрос такой появился! я парсю например один сайт все зашибись тестирую нормально, но когда запускаю то половина полученных текстовых файлов пусты, а когда начинаю парсить следующий сайт, то программа парсит его по старым критериям! то есть я добавляю новые блоки, удалив старые нажимаю сэйв а когда туда обратно захожу, там опять старые! че за дела? где я туплю?
а и еще в текстовх полученных файлах между текстами где были картинки остается пустое пространство можно его как то убрать?
SciFi, Хочу спарсить этот сайт http://www.azbuka-zdorovja.ru. Всё вроде правильно делаю, выставляю такой блок [blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext], в тесте всё четко покзывает, начинает парсить. а вот результаты в папку parse не сохраняет, она просто пустая. Как это можно исправить?
ой чори , такой блок выставляю [blockname]PageText[/blockname][start]div class=»post-entry-in»[/start][stop]/sape_index[/stop][-cleantext] ( теги я убрал )
Извини за комменты, но я так понял парсер не сохраняет т страницы которые без расширения, тоесть вот такую http://ru-net-biz.ru/index.php/2010/07/09/parser-kontenta-obnovlenie не сохранит
skif, пустых появляются потому что эти страницы не содержат признаков начала и конца блока парсинга. Юзай вайтлист или ставь галку «парсить только подходящие под шаблон страницы».
траблу с сохранениями пофиксю.
школоло, да все должно парситься нормально… Сейчас посмотрю что к чему.
Про страницы без расширений – все норм сохраняется парсится. Накосячил ты с листами или с блоками или еще какие опции выставил..
1. Да, все норм парсится. Шаблон норм. Ставь галку «Парсить только подходящие под шаблон страницы» и вперед. Ведь специально приделал, чтобы не заморачиваться с вайтлистом…
2. Убрал некоторые ограничения в алгоритме скачивания страниц. И пофиксил трабл с сохранением шаблона. Точнее, с его последующим отображением.
Качать по старой ссылке.
на 7ке к сожалению не пашет. как писали выше – селективный парсинг работает, урлы парсит в parsedURLs.txt отлично, но! когда жмёшь halt до конца парсинга – программа падает (исчезает окно, в памяти висит), выдаёт сначала system error 1400, а после закрытия этой ошибки начинает выдавать окошко с сообщением » is not integer value (вроде так). и так окошки вылезают поверх друг друга, пока не убьёшь процесс. жаль конечно, xp ставить ради парсера не хочется.
я попробовал в виртуалбоксе на XP – та же проблема, правда там у меня XP game edition была, облегчённая…может поэтому. щас какую-нить другую скачаю.
а так парсер дико отличный, спасибо! если бы пофиксили ещё работу с 7кой =))
Сейшельский, чтобы пофиксить работу на семерке, мне нужна машина с семеркой. А у меня сейчас единственный рабочий комп – это мой бук. На нем «по умолчанию» стоит виста и переставлять семерку (как и ставить ее дополнительной системой) – адский гемор. Пробовал поставить ХР, когда еще только купил бук, так весь нет облазил дров под звук и видео не нашел… И соответственно благополучно забил на неблагодарное дело переустановки систем на буке.
Но готов попробовать это сделать типа «со слов» тех кто юзает. Для этого нужны подробные описания ваших действий и как на это реагирует прога. Есть желание – пиши в аську.
ранее использовал ночной бдун- но этот парсер настраивается гораздо проще и быстрее
У меня Win7 Макс, 32bit, rus, 7600. Парсер работает ![]()
Его просто нужно запускать от имени админа + поставить совместимость с WinXpSP3
Правда, почему то сохраняет текстовку только после нажатия кнопки «HALT» Так надо?
P.S. Парсил вот эту библиотеку: allbooks.in.ua
Smiler, должен сохранять по ходу парсинга
Я повторюсь, просто я не доганяю и оно так должно быть или как? ну что в текстовх полученных файлах между текстами где были картинки остается пустое пространство можно его как то убрать?
Эм… Через блокнотик открываешь (Notepad++ или PSPad) и там есть такие функции полезные «удалить пустые строки» или «удалить лишнии пробелы» – и будет тебе счастье
ой простите я въехал в отве! ну лучше поздно чем никогда
Здравствуйте, прога действительно отличная, но у меня вот этот сайт http://www.1-property.ru парситься непонятным текстом. Наверно кодировка не та. Как это исправить?
Нажимаю HALT – закрывается, и вылазит ошибка с кодом 5.
Как бороться?
Fess, поправлю в ближайшее время. Это отголоски прошлого. «Каркас» парсера – от другой программы.
спасибо за великолепный софт!
в будущем планируется реализовать парсинг картинок?
еще бы прокси прикрутить…
Прокси для чего? майлру парсить?
Парсинг картинок – дело простое… прикрутить можно. как вариант можно собрать парсером линки на картинки и скормить полученный список download master’у
п.с. если что то предлагаете – пишите, как по-вашему мнению это должно работать.
Упорно не хочет парсить) на 2 компах с разными xp попробовал. Ссылки набирает а результат не сохраняет. тестовый – нормально
о дааа, мейл.ру еще то место контента)
согласен, с прокси погорячился. просто парсил какой-то мелкий сайт, и там по ip прикрыли.
а картинки… если возможно, то реализовать парсинг как в Bulk Image Downloader: скармливаешь урл с картинками и он выдирает все то, что в тегах img. как-то так)
и еще… иногда происходит такая штука, при настройке в селективном парсинге тест проходит на ура, то есть в test.txt есть спаршенный результат, а когда по этому же шаблону идет общий парсинг, то сохраняются пустые файлы.
возможно ли добавить сохранение парсинга в нужной кодировке?
все равно когда парситься сайт в текстовых файлах между абзацами есть большие провалы свободного места! а еще глюк с выходом из программы! есть какая-то кнопка выхода? а то программа как то не особо горит желанием закрываться когда давишь на крестик или закрываешь ее через три пальца
У проги отличный потенциал, жалко некорректно работает на семерке. Или не вовремя Halt жму или … но выскакивает 1400 ошибка, прога закрывается, но висит в процессах, само собой не давая доступа к union.txt Попробовал парсить Яндекс ))) Список ссылок выдает на ура, сейчас буду пробовать вытаскивать по ним контент.
Жаль, перечитал комменты, оказывается проблема как у иеня описана выше, ссылки сохраняет, а вот текст по ним не вытаскивает, в шаблоне тестит отлично. Не знаю что сделал, но сейчас ошибка 1400 не вылетает при нажатии halt (по моему стал запускать от администратора и в совместимости с XP) ? но тем не менее, текстов так и не парсится.
Прокси было бы очень в тему…
Но для бесплатного СОФТа и так очень круто, а с ПРОКСИ я бы даже купил…
Господа! Все будет вопросы будут рассмотрены, а меры приняты
Спасибо за парсер.
У меня семерка 32, до конца я его еще конечно не поборол, например как сделать чтобы не парсил пустые строки=)
Для тех у кого семерка:
1)не стоит запускать от администратора и в режиме совместимости – будут ошибки, работать будет хуже
2)если не меняются настройки блока для парсинга, то выходим из программы, открываем файл с настройками и вручную меняем блок.
Если пытаться изменить при открытой программы, то она не даст.
Пожелания к автору – по возможности сделать так, чтобы в урл сайта можно было вбить раздел, чтобы парсер зазря не выгребал все разделы. Я пробовал у меня не получалось, хотя возможно из за того что семерка или руки кривые=)
Забыл добавить – на halt я не нажимаю, все сохраняется по той схеме которую описал выше
Чтобы парсер не выгребал все разделы юзай блэклист. Просто пропиши туда какой-то признак раздела из урла (типа /razdel/ ) и те урлы в которых встретится /razdel/ будут проигнорены.
На выходных будет обнова, постараюсь учесть все пожелания.
Update
- устранена ошибка, связанная с завершением работы через кнопку HALT
- добавлена опция элементарная чистка (вынесена на форму настроек селективного парсинга) – удаляет пустые строки (состоящие из пробелов, табуляций и т.д.)
- добавлен файловый фильтр результатов парсинга. для тех, у кого сохраняет много пустых файлов. Однако, повторюсь, это не ошибка – это неправильные настройки!
- добавлена возможность указать разделитель статей при объединении результатов в один файл
рекомендую: когда вы отпарсили один сайт и хотите парсить другой – перезапустите программу
качаем по ссылке из поста (ссылка обновлена)
Спасибо=)
ура, работаёт на семёрке. спасибо! =)
Блин, судя по всему парсер хороший. Но у меня он все никак не хочет работать. Не могу даже спарсить по примеру, не говоря уже о других сайтах… Причем тест в селективном парсинге проходит на отлично, а при запуске START парсит только 4 урла, и то не нужные… Пробую в точности по примеру в посте, почему так может быть? =\
ааааа ужас я нажимаю на ссылку скачать здесь а она не качает! СКИНЬТЕ ПОЖАЛУЙСТА с последними доработками
пишет «404 ошибка»
все нормально качается по ссылке из поста
урааа заработало
спасибо
Stiks, поставь галочку ‘=»
Парсер просто бомба. Спасибо автору
Спасибо огромное, очень нужен был парсер ещё и бесплатный!!
У меня прога жрёт 100% цп. Как бороться с этим недугом(комп вроди не слабый)
AlkanFell, интересные дела. Парсер спецом собирался как прога работающая в фоновом режиме. У меня потребляет всего 5-15% процессорного времени. Видимо, ты набрел на пока что не отловленную ошибку алгоритма. Нужно больше инфы о проблеме.
а как сделать вывод данных спарсенных в своём формате?
я хочу чтобы было так
[block0];[block1];[block2]
[block0];[block1];[block2]
в общем разные данные с одной страницы разделённые запятой, каждая страница – 1 строка текстового файла
но если ставлю блоки в селективном парсинге друг за другом разделённые ; – то парсится только первый блок, второй нет. если переношу 2й блок на новую строку – парсятся оба.
так задумано или не? в общем это пожелание моё =)
Сейшельский, нет пока такой возможности
Хороший парсер, что то чуть получаеться а что то нет, если б мануал какой то для чайников был бы очень благодарен. Статьи парсит но много пустых, все говорят про какие то настройки , блоки а я от этого еще ой как далек.
юзаю парсер контента. настроил, тест прошел нормально. запустил парсинг, процесс идет, а тексты не сохраняются. папка \parse пустая. почему?
Теперь бы еще научить его размещать статьи на своих сайтах.
Сергей, ищи проблему в настройках.
Газификация, достойное предложение. Озвучь пути реализации
Постить в вордпресс и дле? Этот вопрос давно решен другими прогами/скриптами. Создать собственную ЦМС (под свои нужды) и в нее постить? Такое уже у меня есть, но в паблик пока не буду выкладывать. Инструмент получился довольно сильный, при правильном подходе многое можно сделать. Так что го на фриланс – заказывать цмски и постеры под них… Или если есть хрум, то просто цмс. Потом хрум научишь постить туда и все будет гут.
Отличный парсер. Гибкий, простой в использовании, бесплатный.
Блог также очень интересен, читаю с удовольствием.
Спасибо за парсер! Хорошая штука. Вот сейчас мне помогает в 1 очень нужном деле. Небольшая просьба: не мог бы ты добавить опцию, чтобы при парсинге его можно было свернуть в трей?
Вот по поводу постинга: есть такая хорошая софтина, как textkit. Она платная, но вполне должно хватить бесплатной версии. Она умеет импортировать специально размеченный html файл (а это можно сделать с помошью uniparse). И бесплатно умеет постить в wordpress и zebrum cms.
Leprekon, ok
Хоть ты тресни – ну не хочет на 7-ке сохранять результаты! Как уже выше неоднократно писалось, при тесте всё нормально, напарсеное с одной стр. сохраняется в соотв. текстовке, а вот при массовом парсинге увы.
Для примера файл настройки
http://mirsovetov.ru/
.jpg
.gif
.jpeg
.png
moemesto
google.
bobrdobr
icio.us
memori.ru
/star_rating/
/a/business-and-finance/
/a/car/
/a/digital-technique/
/a/domestic-appliances/
a/fashion/
/a/hi-tech/
/a/housing/
/a/housing/
/a/medicine
/a/miscellaneous/
/a/psychology/
/air-conditioner/
/beauty-and-health/
/choose
/otveti/
tag.php
mirsovetov.ru/a/travels/
[blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext]
Вроде, всё правильно в настройках, галки стоЯт там, где им и положено, потоки и таймауты ставились всякие, но результат всё время один и тот же. =(
опять теги повырезало – но, думаю, и так понятно, что там было, ведь они автоматом генерируются в файле настроек
ещё одна попытка
[blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext]
не…. режет теги – защита, бля…. =))))
тоже не получается сохранить данные на win7 ни в самой винде ни даже в виртуальной WinXP
также как писали Piugonen и Сергей
Парсер супер, но багов в нем еще хватает. 3 часа мучался с настройками – не хотел селективно парсить, хотя при тесте выбирал контент по заданому шаблону нормально. При этом сам шаблон не сохранялся почему-то. Не знаю где я накосячил или прога глюканула, но решилось все «переустановкой» проги – просто удалил ее и розархивировал заново – все работает.
Да, есть такая проблема. Надо удалить файл settings.txt и запусть прогу. Тогда шаблон норм сохраняется. Поправлю в ближайшее время.