Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Массовый чекер бэклинков по yahoo!

27 апреля 2010
В рубриках: Самоделки

Приветствую.
Не так давно появилась необходимость прочекать массово довольно-таки большой объем сайтов на бэклинки по яху. Из существующих решений не нашел ничего внятного. Какие-то кустарные методы и способы. Например, зачем использовать парсинг ссылок со страниц siteexplorer (и так на протяжении 10 страниц), если можно заюзать ссылку на скачку первых 1к результатов в формате TSV сразу же с первой страницы? Это быстрее в разы и банят не так быстро…
Многопоточности в такого рода программах я также нигде не нашел (а там, где многопоточность – там и прокси по-любому нужны). Пришлось писать самому :)

Вот что из этого получилось: скачать программу для массовой проверки ссылок по Яху (Yahoo!)

Как с ней работать:

если вам надо прочекать много сайтов на бэки, то для этого понадобятся прокси, где их брать – это уже ваша забота (сайтов с бесплатным доступом, на самом деле хватает – найти не так сложно). Программа работает только с HTTP-проксями, так что будьте внимательны, socks-прокси не подойдут. Собираете список проксей в обычном формате PROXY_IP:PROXY_PORT (например, 123.123.123.123:80), кладете в файл proxy.txt в папке с программой, одна строка – один прокси. Далее в файл sites.txt кладете список сайтов (без «http://»), которые нужно чекнуть. Особенность одна – домены с «www» и без «www» – это, обычно, разные домены, так что сами решайте, что вам нужно чекнуть. Далее запускаете программку, выбираете использовать или нет прокси (если сайтов для чека мало – прокси можно не юзать), объединять или нет результаты проверки в один файл по окончании, выставляете нужное количество потоков и вперед! Результаты парсинга отображаются в т.н. «мониторе потоков».

Результаты чека будут складываться в папку results в виде sitename___links_threadid.txt, threadid – это номер потока (а не количество распарсенных ссылок), сделано в целях избежания ошибок при попадании в список дубликатов сайтов.

Вопросы есть? Или нужны еще какие-то специфические программы? Тогда, го в камменты

13 пользователя прокомментировали «Массовый чекер бэклинков по yahoo!»

Велосипедист пишет,
28 апреля 2010 в 15:25 .     

:horosho:

udi пишет,
9 мая 2010 в 23:03 .     

спс ;)

gibrid пишет,
10 мая 2010 в 10:05 .     

а почему именно по яху мы вроде работаем под гугл, и чем отличается эта разница?

Dimo$$ пишет,
23 июля 2010 в 15:20 .     

спасибо

Диман пишет,
25 июля 2010 в 20:36 .     

Вопрос такой возник. Программа парсит бэки любых адресов(домен.com/user/название/index.html) или только домены второго/третьего уровня?

SciFi пишет,
25 июля 2010 в 22:26 .     

Диман, бэки доменов

Nikolay Shnaider пишет,
14 октября 2010 в 01:01 .     

Програмка супер. Как раз то, что искал. Хорошо бы еще сделать сортировку доменов на выходе: у которых бэков много – в одну папку если мало – в другуюю если нет вообще – в третью… Ну и список доменов в каждой папке.

SciFi пишет,
14 октября 2010 в 02:20 .     

Nikolay Shnaider, ok

Abusov пишет,
13 января 2011 в 18:30 .     

Всё так интересно спасиб – нужна программа для создания любых баз урлов для спама, как форумов так так и каталогов. Я так и не нашол подходящей! Принцип должен быть прост: Вводим запрос в поисковик любой. И уже в самой строке обозревателя копируем вставляем в программу и она вытаскивала бы эти урлы или подскажите чем их взять от туда кто умный.

SciFi пишет,
13 января 2011 в 21:07 .     

Abusov, мда. Даже не знаю что и посоветовать. Ни разу не сталкивался с такими программами. :) го в гугл, короче. учиться.

0866 пишет,
1 сентября 2011 в 15:31 .     

А когда в списке прокси заканчиваются как программа себя ведет, начинает сначали или останавливается?

И пожелание …
- можешь добавить кнопку паузы?
- было бы классно если бы сохранялись не все урлы которые выдал Яху! а только УНИКАЛЬНЫЕ с одного домена как на la0.ru
- можно добавить для ускарения процесса чтобы не парсил а сохранял файл tsv

скоро яху лавочку прикроет, божет обновишь софт?

0866 пишет,
2 сентября 2011 в 07:10 .     

И еще где-то на 10 000 домене программа подвисла(500 потоков).
В диспетчере задач показывало 296МБ ОЗУ, и 52ЦП.

2)Когда проверяются домены программа останавиться может, если прибавить еще один поток опять продолжиться проверка, через минут 10 опять зависнет (имеется ввиду не сама программа зависает а там где показывает количество успешных счетчик останавливается)

3)Можно прикрутить чтобы работал через API, соответственно без прокси , а значит быстрее.

SciFi пишет,
4 сентября 2011 в 06:11 .     

0866, навряд ли что то буду обновлять. уже не вижу смысла, сори

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi