Стоп-слова в Яндекс Вордстат и в программе Букварикс

  1. Краткий список стоп-слов (служебные части речи), используемый в Буквариксе. Скачать
  2. Краткий список стоп-слов (служебные части речи), полученный из Вордстата. Скачать
  3. Расширенный список стоп-слов (служебные и значимые части речи), полученный из Вордстата. Скачать
  4. Расширенный список стоп-слов (служебные и значимые части речи) на основе Вордстата с нашими добавлениями, который вы также можете использовать в Буквариксе, если вам недостаточно базового краткого списка, который используется в настройках программы (Настройки -> Настройка поиска -> Игнорировать слова при поиске). Скачать

Для чего нужны стоп-слова в Буквариксе?

При поиске по слову или списку слов Букварикс по умолчанию использует список служебных частей речи (предлоги, союзы, частицы), которые он игнорирует, если находит в поисковых словах, т.е. запрашивает словосочетание без служебных слов. Это отключаемая настройка (Настройки -> Настройка поиска -> Игнорировать слова при поиске). Тем не менее, в подавляющем большинстве случаев от использования стоп-слов пользователь выигрывает - ведь ему не нужно корректировать фразы, построенные по правилам естественного языка, выбрасывая из них предлоги, а список полученных результатов будет включать намного больше целевых словосочетаний. Например, во фразе «отпуск на море» есть стоп-слово – предлог «на». Если предлог игнорируется, то в выборке будут встречаться также словосочетания «отпуск у моря», «в отпуск к морю» и т.д.

Как был получен список стоп-слов?

Мы решили улучшить и дополнить список наших стоп-слов, проанализировав стоп-слова Яндекса, т.е. те слова, которые Яндекс игнорирует при поиске. Выглядит это таким образом, что когда вы запрашиваете Вордстат, введя словосочетание со стоп-словом и затем его же, но без стоп-слова, то Вордстат покажет одинаковое количество просмотров этого словосочетания в обоих случаях. Мы составили список уникальных слов своей базы и запросили частотности для этих слов, затем отсортировали по количеству употреблений и выделили те слова, которые часто встречаются в различных фразах, но при этом широкая частотность в Вордстате у них равна нулю.

Полученный список включает как слова русского языка, так и английские, украинские, немецкие, болгарские и турецкие слова. На основе этих данных мы уточнили свой текущий краткий список стоп-слов русского языка, а также составили расширенный список, включающий краткий, также для русского языка.

Чем отличаются списки стоп-слов в Вордстате и Буквариксе?

При этом в кратком списке мы использовали некоторые дополнительные слова, которые Яндекс не считает стоп-словами («среди», «между», «под», «над»), и также исключали слова, которые Яндекс считает стоп-словами («не» «нет»).

Также и в расширенный список, который мы составили на основе данных Вордстата, включены некоторые дополнительные по сравнению с Вордстатом слова, отсутствие которых нам кажется нелогичным. Например, в соответствии с Вордстатом слово «сам» является стоп-словом, но при этом «сама», «само», «самой», «самому» и пр. формы стоп-словами не считаются. Также из основных словоформ глагола «быть» почему-то не является стоп-словом форма 2 лица множественного числа будущего времени «будете», хотя при этом формы «будем», «будешь», «будет» и др. являются стоп-словами. Притяжательные местоимения «мой», «наш», «его», «её», «их» с соответствующими словоформами - это стоп-слова, а «твой» и «ваш» (с их словоформами) стоп-словами не являются. В предложенном нами списке эти нелогичности исправлены.

Еще мы даем вам списки стоп-слов русского языка, которые получены с помощью анализа Вордстата без каких-либо наших дополнений. Таким образом, мы сформировали четыре списка стоп-слов, которые предлагаем вашему вниманию.

© 2014 - 2018 Букварикс