Публикация
Массовый чекер бэклинков по yahoo!
Приветствую.
Не так давно появилась необходимость прочекать массово довольно-таки большой объем сайтов на бэклинки по яху. Из существующих решений не нашел ничего внятного. Какие-то кустарные методы и способы. Например, зачем использовать парсинг ссылок со страниц siteexplorer (и так на протяжении 10 страниц), если можно заюзать ссылку на скачку первых 1к результатов в формате TSV сразу же с первой страницы? Это быстрее в разы и банят не так быстро…
Многопоточности в такого рода программах я также нигде не нашел (а там, где многопоточность – там и прокси по-любому нужны). Пришлось писать самому
Вот что из этого получилось: скачать программу для массовой проверки ссылок по Яху (Yahoo!)
Как с ней работать:
если вам надо прочекать много сайтов на бэки, то для этого понадобятся прокси, где их брать – это уже ваша забота (сайтов с бесплатным доступом, на самом деле хватает – найти не так сложно). Программа работает только с HTTP-проксями, так что будьте внимательны, socks-прокси не подойдут. Собираете список проксей в обычном формате PROXY_IP:PROXY_PORT (например, 123.123.123.123:80), кладете в файл proxy.txt в папке с программой, одна строка – один прокси. Далее в файл sites.txt кладете список сайтов (без «http://»), которые нужно чекнуть. Особенность одна – домены с «www» и без «www» – это, обычно, разные домены, так что сами решайте, что вам нужно чекнуть. Далее запускаете программку, выбираете использовать или нет прокси (если сайтов для чека мало – прокси можно не юзать), объединять или нет результаты проверки в один файл по окончании, выставляете нужное количество потоков и вперед! Результаты парсинга отображаются в т.н. «мониторе потоков».
Результаты чека будут складываться в папку results в виде sitename___links_threadid.txt, threadid – это номер потока (а не количество распарсенных ссылок), сделано в целях избежания ошибок при попадании в список дубликатов сайтов.
Вопросы есть? Или нужны еще какие-то специфические программы? Тогда, го в камменты
13 пользователя прокомментировали «Массовый чекер бэклинков по yahoo!»
:horosho:
спс
а почему именно по яху мы вроде работаем под гугл, и чем отличается эта разница?
спасибо
Вопрос такой возник. Программа парсит бэки любых адресов(домен.com/user/название/index.html) или только домены второго/третьего уровня?
Диман, бэки доменов
Програмка супер. Как раз то, что искал. Хорошо бы еще сделать сортировку доменов на выходе: у которых бэков много – в одну папку если мало – в другуюю если нет вообще – в третью… Ну и список доменов в каждой папке.
Nikolay Shnaider, ok
Всё так интересно спасиб – нужна программа для создания любых баз урлов для спама, как форумов так так и каталогов. Я так и не нашол подходящей! Принцип должен быть прост: Вводим запрос в поисковик любой. И уже в самой строке обозревателя копируем вставляем в программу и она вытаскивала бы эти урлы или подскажите чем их взять от туда кто умный.
Abusov, мда. Даже не знаю что и посоветовать. Ни разу не сталкивался с такими программами.
го в гугл, короче. учиться.
А когда в списке прокси заканчиваются как программа себя ведет, начинает сначали или останавливается?
И пожелание …
- можешь добавить кнопку паузы?
- было бы классно если бы сохранялись не все урлы которые выдал Яху! а только УНИКАЛЬНЫЕ с одного домена как на la0.ru
- можно добавить для ускарения процесса чтобы не парсил а сохранял файл tsv
скоро яху лавочку прикроет, божет обновишь софт?
И еще где-то на 10 000 домене программа подвисла(500 потоков).
В диспетчере задач показывало 296МБ ОЗУ, и 52ЦП.
2)Когда проверяются домены программа останавиться может, если прибавить еще один поток опять продолжиться проверка, через минут 10 опять зависнет (имеется ввиду не сама программа зависает а там где показывает количество успешных счетчик останавливается)
3)Можно прикрутить чтобы работал через API, соответственно без прокси , а значит быстрее.
0866, навряд ли что то буду обновлять. уже не вижу смысла, сори