Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Парсер контента. Обновление.

9 июля 2010
В рубриках: Самоделки

Введен выборочный парсинг контента по ряду признаков. Теперь парсить можно все что угодно.

Как работать с новыми настройками:

1. Ставим галку «Селективный парсинг»
2. Жмем «SelectiveParse». Окрывается окошко с настройками для селективного парсинга.
3. Жмем «add new block», добавляется новый блок для парсинга.
4. Вводим признак начала и признак конца блока, а также имя блока -может быть любым. Добавьте сколько вам угодно блоков. Важно: 1 строка = 1 блок парсинга. Нельзя один блок разбивать на несколько строк!
5. Добавляем модификаторы «[-cleantext]» – удалить из блока все тэги и прочий мусор html оформления (за исключение тэга <br>), «[-all]» – спарсить все вхождения из блока (без этого модификатора парсится только первое вхождение из исходника)
6. Протестить созданный блок парсинга. Ввести URL конкретной страницы и нажать кнопку «Test». Парсер сходит по этому адресу и попытается спарсить по шаблону. Полученные результаты парсинга сразу откроются в блокноте или вашей другой проге по просмотру текстовых файлов, параллельно сохранятся в «SelectiveParseTest\html.txt» – исходник страницы, как его видит парсер, «SelectiveParseTest\test.txt» – спарсенный текст по шаблону.
Важно: если какой-то блок парсинга не сработал, посмотрите, как он выглядит в исходнике, который сохранил парсер! Бывает так, что оформление в браузере (просмотр исходника страницы) отличается от того, как видит исходник страницы парсер.
7. Обязательно жмем «save» и закрываем окошко с настройками
8. В поле «Cайт» Пишем адрес сайта с «http://» и со слэшем на конце «/», в Вайтлист признаки адресов страниц с которых будет парситься текст – это любая последовательность символов из URL. Одна строка – один признак. Парситься по шаблонам будут только эти страницы, с остальных будут собираться только ссылки. В блэклист заносим страницы, где заведомо делать нечего – на такие страницы парсер доже за ссылками не пойдет.
9. Можно запускать парсер.

Пример настроек селективного парсинга для сайта http://mirsovetov.ru/ парсится только основная статья. Блок для парсинга у нас один (все в одну строку!):
[blockname]PageText[/blockname][start]<div id="hypercontext" align="justify" style="padding-right: 10">[/start][stop]</div>[/stop][-cleantext]

Парсер вырезает контент от <div id="hypercontext" align="justify" style="padding-right: 10"> и до </div>
модификатор [-cleantext] говорит о том, что из полученного куска надо удалить все форматирование.

в вайтлист заносим признак из урла статей /a/ все статьи находятся обязательно по таким урлам. Если нужно парсить из определенной категории добавляем и ее тоже. К примеру, Автостатьи – /a/car/ спарсятся только страницы по таким урлам (где есть такое вхождение).
В блэклист пишем расширения картинок (по дефолту стоит) и еще db.php (конкретно для этого сайта, для других сайтов, будут другие вхождения) – это просто какой-то служебный скрипт, нах нам не нужен.

Все. парсим :)

Линк – новый парсер контента. Качаем ребята.

ps вопросы и предложения – в комменты, либо в аську (есть на странице инфо, когда рядом с компом – отвечу).

Гуд лак!

зы – читаем комменты, там будут все обновы по парсеру

96 пользователя прокомментировали «Парсер контента. Обновление.»

SmeTar пишет,
9 июля 2010 в 21:34 .     

SciFi, скинь пож свое мыло. Есть поговорить. Мое в коментах. Мля, поря свой блог ставить. Сегодня же.. :)

SciFi пишет,
9 июля 2010 в 21:47 .     

пиши в аську. так вышло, что мылом пользуюсь оооочень редко

SmeTar пишет,
9 июля 2010 в 22:07 .     

Отписал. Я наоборот, в аську по первым числам месяца лезу. Время безбожно ворует.

SciFi пишет,
10 июля 2010 в 01:20 .     

UPDATE
- введена опция «таймаут потока» – убивает потоки, если они не откликаются заданное время
- добавлен чекбокс ‘ = » для сайтов, где ссылки заключены в одинарные кавычки, а не в двойные (по умолчанию парсер ищет ссылки в двойных кавычках)

качать здесь

SciFi пишет,
10 июля 2010 в 01:33 .     

SmeTar, ok

полина пишет,
10 июля 2010 в 13:03 .     

всегда искала бесплатный парсер но наконец-то наверное нашла!

SciFi пишет,
10 июля 2010 в 14:13 .     

товарищи спамеры, вы хоть айпишники меняйте, когда пишите комменты типа осмысленные… палитесь :)

Школота) пишет,
11 июля 2010 в 00:26 .     

Игорь подскажи как правильно шаблон сделать чтобы спарсить masteroff(точка)org =))) Текстов наберем, трафа достанем и на тизерах поднимемся))))))))

DeXtR пишет,
11 июля 2010 в 01:24 .     

Спасибо , это действительно крутая и простая штука, уже месяц такой ищу ;)

chayka пишет,
11 июля 2010 в 02:07 .     

Это не ко мне :)

SciFi пишет,
11 июля 2010 в 14:18 .     

Школота), а чего не понятно то? Я уже 2 примера привел. один здесь, другой на серче. ВОт третий. Учись, сынок :) Блоки парсинга вставлять каждый с овой строки. Надеюсь, это уяснили уже.

[blockname]song-info[/blockname][start]src="http://n.pay-click.ru/js/adv_out.js">[/start][stop] » <a href='[/stop][-cleantext]
[blockname]song-words[/blockname][start]<pre class='songtext'>[/start][stop]</pre>[/stop]

в вайтлист пишешь .html
в блэк добавляешь .txt
ставишь галку ' = "

bliiiiiiiiina пишет,
11 июля 2010 в 22:12 .     

Спасибо, очень хорошая программа.

11 июля 2010 в 23:51 .     

Блин, реально бесплатный парсер, который отлично справляется со своими обязанностями)
Все легко и просто настроивается, а главное хорошо работает.Спасибо огромное!

Janizary пишет,
12 июля 2010 в 23:43 .     

Отличный парсер. Гибкий, простой в использовании, бесплатный.
Блог также очень интересен, читаю с удовольствием.
Спасибо.

SciFi пишет,
13 июля 2010 в 01:17 .     

Janizary,Николай Кодий, bliiiiiiiiina, DeXtR, приятно слышать!

UPDATE

- Введена опция «исключать поддомены». Парсер не будет ходить на поддомены сайта (по дефолту ходит).
- Введена опция «парсить только подходящие под шаблон страницы». Парсер будет прасить текст (и сохранять, соответственно) только на тех страницах, где встретились ВСЕ шаблоны. В этом случае вайтлист не используется.
- Теперь парсер сохраняет последние настройки (шаблоны для парсинга, вайтлист, блэклист, адрес сайта). Будьте внимательны – состояние чек боксов не сохраняется.
- Небольшой редизайн.

ps Эта версия в «боевых» условия не тестилась – возможны баги.

Предложения/пожелания/баги – welcome!

Качаем по старой ссылке.

bliiiiiiiiina пишет,
13 июля 2010 в 18:49 .     

1) Парсер сохраняет спарсенный текст в формате:

текст

Как бы сделать так, чтобы урла страницы и тега [blockname]=
там не было. А то геморно потом это чистить.

2)

bliiiiiiiiina пишет,
13 июля 2010 в 18:51 .     

2) И еще хорошо бы было сохрянять в один файл, а то приходится kwk для обьединения юзать… )))

Макс пишет,
13 июля 2010 в 21:58 .     

Во-первых, спасибо за отличный инструмент.
Во-вторых – просьба пофиксить.
Пытаюсь парсить сайт, весь контент, нужный мне лежит в директории /dir/, на странице директории уже ссылки, в коде они прописаны как: *, значит страница имеет адрес site.ru/dir/890.html, по парсер, находя в коде ссылку, переходит по ней на страницу site.ru/890.html (минуя папку /dir/, т.к. в коде ссылки она не указана). Поэтому не могу распарсить сайт, а очень хочется) Буду крайне благодарен за фикс.

Макс пишет,
13 июля 2010 в 22:00 .     

в прошлом комменте вырезались коды ссылок, дублирую: коды ссылок в контенте (a href=»890.html»)*(/a) вместо скобок теги конечно же.

SciFi пишет,
13 июля 2010 в 22:08 .     

Макс, посмотрю в чем там дело. Неплохо было бы скинуть урл сайта. В комментах не отобразится.

SciFi пишет,
13 июля 2010 в 22:10 .     

bliiiiiiiiina, учту пожелания. :) сегодня-завтра обновлю.

SciFi пишет,
14 июля 2010 в 23:46 .     

UPDATE

Новые чекбоксы в окошке SelectiveParse Settings:
- «Размечать результаты парсинга» если стоит будет с разметкой (именами блоков и урлом старицы)
- «Сохранять тэг br» если стоит парсер не вырезает этот тэг
а так же:
- Добавлен джойнер результатов парсинга (объединяет спарсенные текста в один файл)
- «Относительная адресация» (для сайтов, где она нужна, по умолчанию адресация – абсолютная) выведена как отдельная опция, так так потестить мне это дело толком не удалось, просьба тем, кто будет это юзать отписаться о результатах, дабы я мог поправить косяки

Качаем по старой ссылке

по-прежнему принимаются предложения о доработке

Che пишет,
19 июля 2010 в 01:33 .     

А при объединении файлов можно добавить какой-то разделитель для статей? например окошко сделать и чтобы туда вписывать разделитель который нужно..

SciFi пишет,
19 июля 2010 в 17:58 .     

Che, сделаю

rebenn пишет,
21 июля 2010 в 12:36 .     

Привет SciFi! Спасибо за отличные программы!
Вчера при работе с программой, заметил интересность: отсутствовало окно с добавлением witelist.Надпись была :) Система windows 7

rebenn пишет,
21 июля 2010 в 13:06 .     

SciFi, не могу изменить данные в selective parse а также добавить новый блок: сохранён только первый шаблон блока, теперь он постоянно один и тот-же, чтобы я не делал..

SciFi пишет,
21 июля 2010 в 18:06 .     

rebenn, сорри, на семерке потестить нет никакой возможности… Хотя у меня Виста и все пашет без нареканий. Попробуй удалить файл settings.txt из одноименной папки. Почему не видно вайтлиста – так же загадка. Не иначе как подглюкивает VCL делфячий.

bonbon пишет,
22 июля 2010 в 23:52 .     

На 7 не хочет парсить( Хотя тестовый селективный парсинг на ура

chayka пишет,
23 июля 2010 в 01:54 .     

Если честно – не пойму всех этих 7-ор и вист… На хрюше все отлично работает, но люди ставят другие оси, что бы у них раб стол выглядел красивее, какой-то дополнительный плагин-будильник работал, но потом приходилось парить мозги с десятком прог, которые не так отрабатывают :)

skif пишет,
23 июля 2010 в 12:46 .     

тут вопрос такой появился! я парсю например один сайт все зашибись тестирую нормально, но когда запускаю то половина полученных текстовых файлов пусты, а когда начинаю парсить следующий сайт, то программа парсит его по старым критериям! то есть я добавляю новые блоки, удалив старые нажимаю сэйв а когда туда обратно захожу, там опять старые! че за дела? где я туплю?

skif пишет,
23 июля 2010 в 12:53 .     

а и еще в текстовх полученных файлах между текстами где были картинки остается пустое пространство можно его как то убрать?

школоло пишет,
23 июля 2010 в 19:04 .     

SciFi, Хочу спарсить этот сайт http://www.azbuka-zdorovja.ru. Всё вроде правильно делаю, выставляю такой блок [blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext], в тесте всё четко покзывает, начинает парсить. а вот результаты в папку parse не сохраняет, она просто пустая. Как это можно исправить? :)

школоло пишет,
23 июля 2010 в 19:05 .     

ой чори , такой блок выставляю [blockname]PageText[/blockname][start]div class=»post-entry-in»[/start][stop]/sape_index[/stop][-cleantext] ( теги я убрал )

школоло пишет,
23 июля 2010 в 19:26 .     

Извини за комменты, но я так понял парсер не сохраняет т страницы которые без расширения, тоесть вот такую http://ru-net-biz.ru/index.php/2010/07/09/parser-kontenta-obnovlenie не сохранит :(

SciFi пишет,
23 июля 2010 в 22:05 .     

skif, пустых появляются потому что эти страницы не содержат признаков начала и конца блока парсинга. Юзай вайтлист или ставь галку «парсить только подходящие под шаблон страницы».
траблу с сохранениями пофиксю.

SciFi пишет,
23 июля 2010 в 22:06 .     

школоло, да все должно парситься нормально… Сейчас посмотрю что к чему.

Про страницы без расширений – все норм сохраняется парсится. Накосячил ты с листами или с блоками или еще какие опции выставил..

1. Да, все норм парсится. Шаблон норм. Ставь галку «Парсить только подходящие под шаблон страницы» и вперед. Ведь специально приделал, чтобы не заморачиваться с вайтлистом…
2. Убрал некоторые ограничения в алгоритме скачивания страниц. И пофиксил трабл с сохранением шаблона. Точнее, с его последующим отображением.
Качать по старой ссылке.

25 июля 2010 в 12:30 .     

на 7ке к сожалению не пашет. как писали выше – селективный парсинг работает, урлы парсит в parsedURLs.txt отлично, но! когда жмёшь halt до конца парсинга – программа падает (исчезает окно, в памяти висит), выдаёт сначала system error 1400, а после закрытия этой ошибки начинает выдавать окошко с сообщением » is not integer value (вроде так). и так окошки вылезают поверх друг друга, пока не убьёшь процесс. жаль конечно, xp ставить ради парсера не хочется.

я попробовал в виртуалбоксе на XP – та же проблема, правда там у меня XP game edition была, облегчённая…может поэтому. щас какую-нить другую скачаю.

а так парсер дико отличный, спасибо! если бы пофиксили ещё работу с 7кой =))

SciFi пишет,
25 июля 2010 в 14:23 .     

Сейшельский, чтобы пофиксить работу на семерке, мне нужна машина с семеркой. А у меня сейчас единственный рабочий комп – это мой бук. На нем «по умолчанию» стоит виста и переставлять семерку (как и ставить ее дополнительной системой) – адский гемор. Пробовал поставить ХР, когда еще только купил бук, так весь нет облазил дров под звук и видео не нашел… И соответственно благополучно забил на неблагодарное дело переустановки систем на буке.

Но готов попробовать это сделать типа «со слов» тех кто юзает. Для этого нужны подробные описания ваших действий и как на это реагирует прога. Есть желание – пиши в аську.

Pensioner пишет,
26 июля 2010 в 23:37 .     

ранее использовал ночной бдун- но этот парсер настраивается гораздо проще и быстрее

Smiler пишет,
27 июля 2010 в 15:59 .     

У меня Win7 Макс, 32bit, rus, 7600. Парсер работает :)
Его просто нужно запускать от имени админа + поставить совместимость с WinXpSP3 :) Правда, почему то сохраняет текстовку только после нажатия кнопки «HALT» Так надо?
P.S. Парсил вот эту библиотеку: allbooks.in.ua

SciFi пишет,
27 июля 2010 в 18:23 .     

Smiler, должен сохранять по ходу парсинга

skif пишет,
28 июля 2010 в 01:10 .     

Я повторюсь, просто я не доганяю и оно так должно быть или как? ну что в текстовх полученных файлах между текстами где были картинки остается пустое пространство можно его как то убрать?

chayka пишет,
28 июля 2010 в 01:15 .     

Эм… Через блокнотик открываешь (Notepad++ или PSPad) и там есть такие функции полезные «удалить пустые строки» или «удалить лишнии пробелы» – и будет тебе счастье :)

skif пишет,
28 июля 2010 в 01:29 .     

ой простите я въехал в отве! ну лучше поздно чем никогда :)

28 июля 2010 в 18:47 .     

Здравствуйте, прога действительно отличная, но у меня вот этот сайт http://www.1-property.ru парситься непонятным текстом. Наверно кодировка не та. Как это исправить?

Fess пишет,
2 августа 2010 в 07:49 .     

Нажимаю HALT – закрывается, и вылазит ошибка с кодом 5.
Как бороться?

SciFi пишет,
2 августа 2010 в 18:31 .     

Fess, поправлю в ближайшее время. Это отголоски прошлого. «Каркас» парсера – от другой программы.

­ пишет,
2 августа 2010 в 20:01 .     

спасибо за великолепный софт!
в будущем планируется реализовать парсинг картинок?

­ пишет,
2 августа 2010 в 20:59 .     

еще бы прокси прикрутить…

SciFi пишет,
2 августа 2010 в 23:59 .     

Прокси для чего? майлру парсить?
Парсинг картинок – дело простое… прикрутить можно. как вариант можно собрать парсером линки на картинки и скормить полученный список download master’у

п.с. если что то предлагаете – пишите, как по-вашему мнению это должно работать.

bonbon пишет,
3 августа 2010 в 00:40 .     

Упорно не хочет парсить) на 2 компах с разными xp попробовал. Ссылки набирает а результат не сохраняет. тестовый – нормально

­ пишет,
3 августа 2010 в 02:13 .     

о дааа, мейл.ру еще то место контента)
согласен, с прокси погорячился. просто парсил какой-то мелкий сайт, и там по ip прикрыли.
а картинки… если возможно, то реализовать парсинг как в Bulk Image Downloader: скармливаешь урл с картинками и он выдирает все то, что в тегах img. как-то так)

­ пишет,
3 августа 2010 в 02:54 .     

и еще… иногда происходит такая штука, при настройке в селективном парсинге тест проходит на ура, то есть в test.txt есть спаршенный результат, а когда по этому же шаблону идет общий парсинг, то сохраняются пустые файлы.

404 пишет,
3 августа 2010 в 17:10 .     

возможно ли добавить сохранение парсинга в нужной кодировке?

skif пишет,
3 августа 2010 в 20:50 .     

все равно когда парситься сайт в текстовых файлах между абзацами есть большие провалы свободного места! а еще глюк с выходом из программы! есть какая-то кнопка выхода? а то программа как то не особо горит желанием закрываться когда давишь на крестик или закрываешь ее через три пальца

Internetchik пишет,
4 августа 2010 в 02:47 .     

У проги отличный потенциал, жалко некорректно работает на семерке. Или не вовремя Halt жму или … но выскакивает 1400 ошибка, прога закрывается, но висит в процессах, само собой не давая доступа к union.txt Попробовал парсить Яндекс ))) Список ссылок выдает на ура, сейчас буду пробовать вытаскивать по ним контент.

Internetchik пишет,
4 августа 2010 в 04:00 .     

Жаль, перечитал комменты, оказывается проблема как у иеня описана выше, ссылки сохраняет, а вот текст по ним не вытаскивает, в шаблоне тестит отлично. Не знаю что сделал, но сейчас ошибка 1400 не вылетает при нажатии halt (по моему стал запускать от администратора и в совместимости с XP) ? но тем не менее, текстов так и не парсится.

Alex пишет,
4 августа 2010 в 12:09 .     

Прокси было бы очень в тему…

Но для бесплатного СОФТа и так очень круто, а с ПРОКСИ я бы даже купил…

SciFi пишет,
4 августа 2010 в 20:31 .     

Господа! Все будет вопросы будут рассмотрены, а меры приняты :)

Lev1athan пишет,
6 августа 2010 в 20:23 .     

Спасибо за парсер.
У меня семерка 32, до конца я его еще конечно не поборол, например как сделать чтобы не парсил пустые строки=)
Для тех у кого семерка:
1)не стоит запускать от администратора и в режиме совместимости – будут ошибки, работать будет хуже
2)если не меняются настройки блока для парсинга, то выходим из программы, открываем файл с настройками и вручную меняем блок.
Если пытаться изменить при открытой программы, то она не даст.
Пожелания к автору – по возможности сделать так, чтобы в урл сайта можно было вбить раздел, чтобы парсер зазря не выгребал все разделы. Я пробовал у меня не получалось, хотя возможно из за того что семерка или руки кривые=)

Lev1athan пишет,
6 августа 2010 в 20:27 .     

Забыл добавить – на halt я не нажимаю, все сохраняется по той схеме которую описал выше

SciFi пишет,
7 августа 2010 в 00:54 .     

Чтобы парсер не выгребал все разделы юзай блэклист. Просто пропиши туда какой-то признак раздела из урла (типа /razdel/ ) и те урлы в которых встретится /razdel/ будут проигнорены.

На выходных будет обнова, постараюсь учесть все пожелания.

SciFi пишет,
7 августа 2010 в 14:09 .     

Update
- устранена ошибка, связанная с завершением работы через кнопку HALT
- добавлена опция элементарная чистка (вынесена на форму настроек селективного парсинга) – удаляет пустые строки (состоящие из пробелов, табуляций и т.д.)
- добавлен файловый фильтр результатов парсинга. для тех, у кого сохраняет много пустых файлов. Однако, повторюсь, это не ошибка – это неправильные настройки!
- добавлена возможность указать разделитель статей при объединении результатов в один файл

рекомендую: когда вы отпарсили один сайт и хотите парсить другой – перезапустите программу :)

качаем по ссылке из поста (ссылка обновлена)

Lev1athan пишет,
7 августа 2010 в 17:19 .     

Спасибо=)

8 августа 2010 в 15:12 .     

ура, работаёт на семёрке. спасибо! =)

Stiks пишет,
8 августа 2010 в 19:20 .     

Блин, судя по всему парсер хороший. Но у меня он все никак не хочет работать. Не могу даже спарсить по примеру, не говоря уже о других сайтах… Причем тест в селективном парсинге проходит на отлично, а при запуске START парсит только 4 урла, и то не нужные… Пробую в точности по примеру в посте, почему так может быть? =\

skif пишет,
9 августа 2010 в 23:09 .     

ааааа ужас я нажимаю на ссылку скачать здесь а она не качает! СКИНЬТЕ ПОЖАЛУЙСТА с последними доработками

skif пишет,
9 августа 2010 в 23:11 .     

пишет «404 ошибка»

SciFi пишет,
10 августа 2010 в 02:06 .     

все нормально качается по ссылке из поста

skif пишет,
10 августа 2010 в 11:32 .     

урааа заработало :) спасибо

AcidX пишет,
12 августа 2010 в 13:37 .     

Stiks, поставь галочку ‘=»

AcidX пишет,
12 августа 2010 в 13:38 .     

Парсер просто бомба. Спасибо автору

Diamond пишет,
14 августа 2010 в 23:41 .     

Спасибо огромное, очень нужен был парсер ещё и бесплатный!! ;)

AlkanFell пишет,
15 августа 2010 в 04:58 .     

У меня прога жрёт 100% цп. Как бороться с этим недугом(комп вроди не слабый)

SciFi пишет,
15 августа 2010 в 10:46 .     

AlkanFell, интересные дела. Парсер спецом собирался как прога работающая в фоновом режиме. У меня потребляет всего 5-15% процессорного времени. Видимо, ты набрел на пока что не отловленную ошибку алгоритма. Нужно больше инфы о проблеме.

17 августа 2010 в 14:41 .     

а как сделать вывод данных спарсенных в своём формате?
я хочу чтобы было так
[block0];[block1];[block2]
[block0];[block1];[block2]
в общем разные данные с одной страницы разделённые запятой, каждая страница – 1 строка текстового файла

но если ставлю блоки в селективном парсинге друг за другом разделённые ; – то парсится только первый блок, второй нет. если переношу 2й блок на новую строку – парсятся оба.

так задумано или не? в общем это пожелание моё =)

SciFi пишет,
17 августа 2010 в 18:27 .     

Сейшельский, нет пока такой возможности

Юрий пишет,
19 августа 2010 в 12:01 .     

Хороший парсер, что то чуть получаеться а что то нет, если б мануал какой то для чайников был бы очень благодарен. Статьи парсит но много пустых, все говорят про какие то настройки , блоки а я от этого еще ой как далек.

Сергей пишет,
21 августа 2010 в 12:56 .     

юзаю парсер контента. настроил, тест прошел нормально. запустил парсинг, процесс идет, а тексты не сохраняются. папка \parse пустая. почему?

22 августа 2010 в 08:17 .     

Теперь бы еще научить его размещать статьи на своих сайтах.

SciFi пишет,
22 августа 2010 в 16:27 .     

Сергей, ищи проблему в настройках.

SciFi пишет,
22 августа 2010 в 16:33 .     

Газификация, достойное предложение. Озвучь пути реализации :) Постить в вордпресс и дле? Этот вопрос давно решен другими прогами/скриптами. Создать собственную ЦМС (под свои нужды) и в нее постить? Такое уже у меня есть, но в паблик пока не буду выкладывать. Инструмент получился довольно сильный, при правильном подходе многое можно сделать. Так что го на фриланс – заказывать цмски и постеры под них… Или если есть хрум, то просто цмс. Потом хрум научишь постить туда и все будет гут. :)

24 августа 2010 в 11:57 .     

Отличный парсер. Гибкий, простой в использовании, бесплатный.
Блог также очень интересен, читаю с удовольствием.

Leprekon пишет,
29 августа 2010 в 16:19 .     

Спасибо за парсер! Хорошая штука. Вот сейчас мне помогает в 1 очень нужном деле. Небольшая просьба: не мог бы ты добавить опцию, чтобы при парсинге его можно было свернуть в трей?

Leprekon пишет,
29 августа 2010 в 16:24 .     

Вот по поводу постинга: есть такая хорошая софтина, как textkit. Она платная, но вполне должно хватить бесплатной версии. Она умеет импортировать специально размеченный html файл (а это можно сделать с помошью uniparse). И бесплатно умеет постить в wordpress и zebrum cms.

SciFi пишет,
29 августа 2010 в 19:41 .     

Leprekon, ok

Piugonen пишет,
4 сентября 2010 в 15:37 .     

Хоть ты тресни – ну не хочет на 7-ке сохранять результаты! Как уже выше неоднократно писалось, при тесте всё нормально, напарсеное с одной стр. сохраняется в соотв. текстовке, а вот при массовом парсинге увы.
Для примера файл настройки
http://mirsovetov.ru/
.jpg
.gif
.jpeg
.png
moemesto
google.
bobrdobr
icio.us
memori.ru
/star_rating/
/a/business-and-finance/
/a/car/
/a/digital-technique/
/a/domestic-appliances/
a/fashion/
/a/hi-tech/
/a/housing/
/a/housing/
/a/medicine
/a/miscellaneous/
/a/psychology/
/air-conditioner/
/beauty-and-health/
/choose
/otveti/
tag.php

mirsovetov.ru/a/travels/

[blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext]
Вроде, всё правильно в настройках, галки стоЯт там, где им и положено, потоки и таймауты ставились всякие, но результат всё время один и тот же. =(

Piugonen пишет,
4 сентября 2010 в 15:39 .     

опять теги повырезало – но, думаю, и так понятно, что там было, ведь они автоматом генерируются в файле настроек

Piugonen пишет,
4 сентября 2010 в 15:42 .     

ещё одна попытка
[blockname]PageText[/blockname][start][/start][stop][/stop][-cleantext]

Piugonen пишет,
4 сентября 2010 в 15:43 .     

не…. режет теги – защита, бля…. =))))

seoneophyte пишет,
7 сентября 2010 в 21:20 .     

тоже не получается сохранить данные на win7 ни в самой винде ни даже в виртуальной WinXP

также как писали Piugonen и Сергей

10 сентября 2010 в 04:35 .     

Парсер супер, но багов в нем еще хватает. 3 часа мучался с настройками – не хотел селективно парсить, хотя при тесте выбирал контент по заданому шаблону нормально. При этом сам шаблон не сохранялся почему-то. Не знаю где я накосячил или прога глюканула, но решилось все «переустановкой» проги – просто удалил ее и розархивировал заново – все работает.

SciFi пишет,
12 сентября 2010 в 17:26 .     

Да, есть такая проблема. Надо удалить файл settings.txt и запусть прогу. Тогда шаблон норм сохраняется. Поправлю в ближайшее время.

Trackback & Pingback
10 июля 2010 в 23:56 с 78.159.102.89    
CEO™ » Бесплатный парсер контента рекомедует эту публикацию,
11 августа 2010 в 04:28 с 69.175.50.62    
Бесплатный seo софт рекомедует эту публикацию,
13 сентября 2011 в 08:47 с 78.46.66.121    

О проекте

Проект админят: chayka
SciFi