MegaIndex начал определять языки сайта для улучшения оценок ссылочных профилей и сбора данных по тИЦ
10 ноября 2017

MegaIndex начал определять языки сайта для улучшения оценок ссылочных профилей и сбора данных по тИЦ

Робот от MegaIndex обходит весь интернет для сбора важных для поисковой оптимизации данных, включая данные необходимые для определения языка сайта. Данные о языке сайта применимы в поисковом продвижении.

Польза от данных о языке:

  • Повышение точности оценки качества ссылочного профиля сайта. Значение языка является параметром для оценки ссылочного профиля сайта. Например, если сайт на русском языке продвигался с использованием спаммных технология, то огромное количество внешних ссылок с англоязычных площадок будет указывать на заспамленный ссылочный профиль сайта;
  • Информация про язык может быть использована как дополнительный фильтр при массовом размещении ссылок;
  • Язык может использовать как один из элементов для анализа топа поисковой выдачи;
  • Поиск сайтов на определенном языке (например, на русском) в международных доменных зонах (например, .com);
  • Данные о языке можно использовать при поиске свободных и освобождающихся доменных имен для создания выборки русскоязычных сайтов в международной зоне. Поиск свободных доменов с учетом языка вскоре можно будет провести в приложении Поиск доменов.

MegaIndex определяет язык используя собственный подход, комбинируя разные способы определения языка сайта. Полученные данные о языке будут использованы в разных приложениях MegaIndex для усовершенствования приложений. Например, MegaIndex начал сбор данных по тИЦ для всех сайтов на русском, украинском, белорусском и казахском языках во всех доменных зонах мира.

Есть простые способы определить язык сайта самостоятельно.

Способы определения языка сайта


Определить язык можно разными способами. Например:

  • Провести сбор данных из тега html;
  • При парсинге сайта отправлять специальный запрос accept-language;
  • Анализ ссылок в документа сайта на предмет значения параметра lang;
  • Использовать системы Google или Yandex для определения языка.

Провести точное определение языка на основе символьного анализа текста практически невозможно, поскольку множество языков очень близки по семантике.

Определение языка на основе запроса accept-language


Отправляя запрос accept-language на сайт можно получить данные о языках сайта в виде списка значений.

Документация доступна на сайте W3.

language

Определение языка на основе ссылок с параметром lang


Определить язык можно на основе значения параметра lang, задаваемого для тега ссылок.

Пример:

<a lang="es"></a>

Параметр lang используется редко, поэтому на глобальном индексе эффективность от использования будет низкая.

Определение языка на основе сервисов с Google, Yandex


Посредством текстового анализа в Google Translate можно быстро определить язык, но использование Google является наиболее дорогим среди способов определения языка.

Определение языка на основе тега html


Наиболее простым способом определения языка байта являются парсинг и анализ документа на предмет значения в атрибуте lang.

Согласно правилам поисковой оптимизации язык сайта должен быть указан в теге html. Пример разметки:

<html lang="fr">

<html lang="uk" prefix="og: http://ogp.me/ns#">

<html xml:lang="ru" xmlns="http://www.w3.org/1999/xhtml">

Список кодов стран собран в таблице.

Коды языков



LanguageCode 2Code 3
Abkhazianababk
Afaraaaar
Afrikaansafafr
Albaniansqalb/sqi*
Amharicamamh
Arabicarara
Aragoneseanarg
Armenianhyarm/hye*
Assameseasasm
Avestanaeave
Aymaraayaym
Azerbaijaniazaze
Bashkirbabak
Basqueeubaq/eus*
Belarusianbebel
Bengalibnben
Biharibhbih
Bislamabibis
Bosnianbsbos
Bretonbrbre
Bulgarianbgbul
Burmesemybur/mya*
Catalancacat
Chamorrochcha
Chechenceche
Chinesezhchi/zho*
Church Slavic; Slavonic; Old Bulgariancuchu
Chuvashcvchv
Cornishkwcor
Corsicancocos
Croatianhrscr/hrv*
Czechcscze/ces*
Danishdadan
Divehi; Dhivehi; Maldiviandvdiv
Dutchnldut/nld*
Dzongkhadzdzo
Englisheneng
Esperantoeoepo
Estonianetest
Faroesefofao
Fijianfjfij
Finnishfifin
Frenchfrfre/fra*
Gaelic; Scottish Gaelicgdgla
Galicianglglg
Georgiankageo/kat*
Germandeger/deu*
Greek, Modern (1453-)elgre/ell*
Guaranigngrn
Gujaratiguguj
Haitian; Haitian Creolehthat
Hausahahau
Hebrewheheb
Hererohzher
Hindihihin
Hiri Motuhohmo
Hungarianhuhun
Icelandicisice/isl*
Idoioido
Indonesianidind
Interlingua (International Auxiliary Language Association)iaina
Interlingueieile
Inuktitutiuiku
Inupiaqikipk
Irishgagle
Italianitita
Japanesejajpn
Javanesejvjav
Kalaallisutklkal
Kannadaknkan
Kashmirikskas
Kazakhkkkaz
Khmerkmkhm
Kikuyu; Gikuyukikik
Kinyarwandarwkin
Kirghizkykir
Komikvkom
Koreankokor
Kuanyama; Kwanyamakjkua
Kurdishkukur
Laololao
Latinlalat
Latvianlvlav
Limburgan; Limburger; Limburgishlilim
Lingalalnlin
Lithuanianltlit
Luxembourgish; Letzeburgeschlbltz
Macedonianmkmac/mkd*
Malagasymgmlg
Malaymsmay/msa*
Malayalammlmal
Maltesemtmlt
Manxgvglv
Maorimimao/mri*
Marathimrmar
Marshallesemhmah
Moldavianmomol
Mongolianmnmon
Naurunanau
Navaho, Navajonvnav
Ndebele, Northndnde
Ndebele, Southnrnbl
Ndongangndo
Nepalinenep
Northern Samisesme
Norwegiannonor
Norwegian Bokmalnbnob
Norwegian Nynorsknnnno
Nyanja; Chichewa; Chewanynya
Occitan (post 1500); Provencalococi
Oriyaorori
Oromoomorm
Ossetian; Osseticososs
Palipipli
Panjabipapan
Persianfaper/fas*
Polishplpol
Portugueseptpor
Pushtopspus
Quechuaquque
Raeto-Romancermroh
Romanianrorum/ron*
Rundirnrun
Russianrurus
Samoansmsmo
Sangosgsag
Sanskritsasan
Sardinianscsrd
Serbiansrscc/srp*
Shonasnsna
Sichuan Yiiiiii
Sindhisdsnd
Sinhala; Sinhalesesisin
Slovakskslo/slk*
Slovenianslslv
Somalisosom
Sotho, Southernstsot
Spanish; Castilianesspa
Sundanesesusun
Swahiliswswa
Swatissssw
Swedishsvswe
Tagalogtltgl
Tahitiantytah
Tajiktgtgk
Tamiltatam
Tatartttat
Telugutetel
Thaiththa
Tibetanbotib/bod*
Tigrinyatitir
Tonga (Tonga Islands)toton
Tsongatstso
Tswanatntsn
Turkishtrtur
Turkmentktuk
Twitwtwi
Uighuruguig
Ukrainianukukr
Urduururd
Uzbekuzuzb
Vietnamesevivie
Volapukvovol
Walloonwawln
Welshcywel/cym*
Western Frisianfyfry
Wolofwowol
Xhosaxhxho
Yiddishyiyid
Yorubayoyor
Zhuang; Chuangzazha
Zuluzuzul


Практика


Наиболее эффективными и дешевыми способами самостоятельного определения языка являются анализ html и http-запрос.

MegaIndex обладает глобальным индексом. Применяя полученные данные на практике, MegaIndex совершенствует систему закупки ссылок и приложения сервиса.

Список поддерживаемых языков:

  • Afrikaans
  • Albanian
  • Arabic
  • Armenian
  • Azerbaijani
  • Basque
  • Belarusian
  • Bengali
  • Bihari
  • Bulgarian
  • Catalan
  • Cebuano
  • Cherokee
  • Croatian
  • Czech
  • Chinese
  • Chinese_T
  • Danish
  • Dhivehi
  • Dutch
  • English
  • Estonian
  • Finnish
  • French
  • Galician
  • Ganda
  • Georgian
  • German
  • Greek
  • Gujarati
  • Haitian_Creole
  • Hebrew
  • Hindi
  • Hmong
  • Hungarian
  • Icelandic
  • Indonesian
  • Inuktitut
  • Irish
  • Italian
  • Javanese
  • Japanese
  • Kannada
  • Khmer
  • Kinyarwanda
  • Korean
  • Laothian
  • Latvian
  • Limbu
  • Lithuanian
  • Macedonian
  • Malay
  • Malayalam
  • Maltese
  • Marathi
  • Nepali
  • Norwegian
  • Oriya
  • Persian
  • Polish
  • Portuguese
  • Punjabi
  • Romanian
  • Russian
  • Scots_Gaelic
  • Serbian
  • Sinhalese
  • Slovak
  • Slovenian
  • Spanish
  • Swahili
  • Swedish
  • Syriac
  • Tagalog
  • Tamil
  • Telugu
  • Thai
  • Turkish
  • Ukrainian
  • Urdu
  • Vietnamese
  • Welsh
  • Yiddish

Для определения языков сайта можно использовать сервис MegaIndex и забирать данные из системы. Получить данные о языке для любого из сайтов можно через панель или используя метод из API.

Обсуждение

dr.vvg
07:54 7 декабря 2017
Дмитрий, отличная статья! Спасибо за полезную информацию!
Для добавления комментария, пожалуйста, авторизуйтесь