Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а

4 декабря 2010
В рубриках: О блоге

Т.к. в сети существует не только англоговорящие юзеры, но и немножко других =), задумался как бы достать ресурсы созданные на их родном языке.

Собственно решение оказалось, как всегда, простым. У нас ведь есть переводчик гугла с его хорошим набором языков. Беда только в том, что символы то там – сплошной юникод да и только. Возмите, например, японский или китайский, а может есть любители арабского? А ведь арабский сегмент нета – наиболее стремительно развивающийся.

Так вот, хрефер создан таким образом что при парсинге он не юзает такую функцию как URLENCODE, дабы перевести все символы из «ероглифов» в понятный формат для ПС. И о такой вещи как кодировка юникод он тоже почему то не слышал. Так что пришлось немного помочь программе :) И да, содержание словаря: 1к существительных, 1к прилагательных, 1к глаголов – топовые по частоте употребления в русском языке.

В общем, результатом проделанной работы является полностью готовый к использованию набор словарей для hrefer’а на таких языках:

- китайский
- японский
- корейский
- испанский
- французский
- немецкий
- португальский
- арабский
- итальянский
+ микс-словарь из всех словарей, отфльтрованный на дубли

т.е. 9 самых распространенных языков в онлайне. Скачать можно тута. Расширяйте свои базы, камрады. Приятного парсинга :)

ps если нужны какие-то еще нативные словари для парсинга – пишите, постораюсь сделать

1 пользователь прокомментировали «Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а»

21 декабря 2010 в 14:15 .     

отлично, спасибо)

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi