Блог Яндекса
Найдено на тему «русский язык»:
Принято считать, что «Толковый словарь живого великорусского языка» В. И. Даля содержит множество непонятных диковинных слов. Мы решили проверить, сколько слов из Даля люди реально используют в запросах к Яндексу.
Аналитики Яндекса проанализировали поисковые запросы о правописании и определили, какие темы и части речи вызывают больше всего вопросов.
Почему сервис Яндекса, а не сервис «Яндекса»?
15 октября 2013, 14:19
Время от времени пользователи спрашивают нас, почему название Яндекса и наших сервисов мы пишем без кавычек. Ссылаясь, например, на письмовник Грамоты.ру, который рекомендует заключать в кавычки названия всех «интернет-ресурсов и веб-сервисов, справочно-информационных систем и компьютерных программ».
Национальный корпус русского языка
22 апреля 2013, 13:35
Национальный корпус русского языка — крупнейшее электронное собрание текстов, включающее более 500 млн словоупотреблений. Это один из основных источников, к которому обращаются лингвисты, исследующие русский язык. Проект был запущен 9 лет назад, в апреле 2004 года. Корпус пополняется и поддерживается силами многих организаций, среди которых Институт русского языка имени В. В. Виноградова РАН, Институт проблем передачи информации РАН, МГУ и многие другие. С самого начала Яндекс разрабатывал адаптированную для НКРЯ версию поисковой машины для поиска текстов с разного рода разметкой.
Сервис Яндекс.Перевод вышел из беты
7 июня 2012, 12:09
Бета-фаза разработки сервиса Яндекс.Перевод, запущенного в марте прошлого года, завершена. Сервис выведен на полнофункциональный режим, открытое API опубликовано и стало доступно внешним разработчикам.
Грамотность поисковой машины
8 сентября 2009, 10:07
8 сентября во всем мире отмечается день грамотности. Поисковая машина – не случайный гость на празднике грамотности. Машина вместе с человеком участвует в сложном процессе поиска информации: человек набирает запрос – машина подсказывает, человек делает в запросе ошибки – машина исправляет, человек задает запрос – машина отвечает. Для быстрого и эффективного получения результатов поиска грамотность нужна обоим участникам этого «разделения труда».
Сложно сказать, как быстро и в каком направлении меняется грамотность пользовательской аудитории – для этого надо проводить специальное исследование. Оценить динамику исправления поисковых запросов намного проще – измерение основных показателей соответствующих программ является штатной процедурой контроля качества поисковых систем.
Требования, метрики и оценки «грамотности» у машин и у людей, конечно, разные. Машине не нужно писать сочинение, сдавать единый государственный экзамен и поступать в институт. Главное требование для поисковой машины – исправлять ошибки в запросах. И метрики здесь – стандартные для ИТ-отрасли полнота и точность, а оценка – кликабельность сообщений об ошибке («Быть может, вы искали…»).
Лексика и синтаксис, с которыми имеет дело машина, тоже сильно отличаются от классического литературного языка. Помимо цитат из Пушкина и Мандельштама приходится исправлять короткие и хлесткие запросы вроде «кто тебя создал токую», «скчать мп3 безплатно» и «коды на gta vise citi». Поисковой системе никогда не придется исправлять многие слова и фразы из «Анны Карениной» и «Братьев Карамазовых», но просто необходимо знать, как правильно пишутся «Дэниэл Рэдклифф» и «sony ericsson». Кроме этого, надо уметь восстанавливать текст, набранный в неправильной раскладке, например «rfhnf vjcrds» («карта москвы») и «дштуфпу 2» («lineage 2»).
Давайте посмотрим, что произошло в Рунете с «грамотностью» поиска за последние 2 года. Изменения можно смело назвать «драматическими». Все без исключения поисковики втянулись в «борьбу за грамотность». Полнота и точность программ исправления запросов непрерывно росли и у некоторых поисковиков вышли на уровень 70-80%. Это значит, что в среднем исправляются три ошибочных запроса из четырех, и в трех случаях из четырех подсказка оказывается правильной. Во всех поисковиках появились подсказки быстрого набора, большинство поисковиков исправляет часть запросов автоматически.
Прогресс в поисковой «грамотности» объясняется развитием и внедрением вероятностных методов (т.н. языковых моделей), которые пришли на смену традиционным лингвистическим подходам и быстро нашли применение практически во всех областях искусственного интеллекта (исправление ошибок, автоматический перевод, распознавание речи).
Языковые модели представляют собой статистику употребимости слов и выражений естественного языка (например, русского) в определенной сфере использования (в поисковых запросах). Основой языковой модели служит список наиболее употребимых слов и n-словных сочетаний с частотами встречаемости за определенный период времени. Если n равно 2, модель называется «двухсловной», если 3 – «трехсловной» и так далее.
Информация о совместной встречаемости слов оказала всестороннее влияние на качество: позволила находить в запросах больше ошибок, выявлять более сложные классы ошибок, давать более точные подсказки. Только применение языковой модели дало возможность исправлять ошибки, связанные со словарным окружением – это опечатки с лишним или пропущенным пробелом («lovepla net»); когнитивные ошибки слитно-раздельного написания («пост индустриализация»); контекстные ошибки – малапропизмы (неправильные замены одного слова другим, сходным по звучанию, например, «меховой слон»). Эти классы ошибок составляют почти четверть (!) всех ошибок в запросах.
Правильный выбор варианта исправления тоже зачастую невозможен без анализа сочетаемости соседних слов. Так в запросе «грюм река» слово «грюм» можно заменить на «угрюм» только при наличии слова «река». В запросе «грюм стиль» слово «грюм» надо заменять на «грум». А в запросе «аластор грюм» вообще ничего не надо исправлять (это персонаж из «Гарри Поттера»).
Высокий уровень точности, достигнутый в результате применения языковой модели, позволил сделать очень смелый и важный шаг вперед – перейти от подсказок к автоматическому исправлению запросов. Сейчас на Яндекс.Поиске около трети запросов с ошибками исправляются автоматически.
В немалой степени зависит от полноты и точности исправления запросов содержимое подсказки быстрого набора. Подсказывать опечаточные варианты нет смысла и выглядит такая подсказка неряшливо. Фильтрация подсказок быстрого набора от орфографических ошибок и опечаток является важной и сложной задачей, весьма далекой от завершения.
Возвращаясь к «человеку», можно уверенно сказать, что перечисленные выше изменения в качестве сервиса подсказочных модулей не могли остаться незамеченными и затронули всех пользователей – независимо от уровня образования. Орфографические ошибки в трудных словах («агентство», «галерея», «терраса») чаще делают те, кто плохо учился в школе. Однако случайные ошибки («биноклб», «чснок», «марафонн») делают все – от детсадовца до академика.
Делать прогнозы развития программ исправления запросов достаточно сложно. Резервы языковой модели далеки от исчерпания, но обычно после мощных и резких рывков наступает затишье – до следующего прорыва в области искусственного интеллекта. Интересно, что это будет за прорыв и что все это время будет происходить с грамотностью пользовательской аудитории? Об этом – в следующих выпусках.
Алексей Байтин, группа исправления опечаток
Делайте грамотные сайты с API Яндекс.Спеллера
16 июля 2009, 15:25
Яндекс предоставил открытый доступ к API сервиса Яндекс.Спеллер, созданного для проверки правописания. Теперь каждый желающий может установить этот сервис у себя на сайте.
Технология Яндекс.Спеллера применяется в Яндекс.Почте и в Яндекс.Баре. Инструмент содержит самый большой в Рунете словарь русского языка – 3,6 млн словоформ.
Анализ статистики употребления слов, лежащий в основе сервиса, помогает максимально точно проверять слова и выбирать варианты для подсказки. У Спеллера – очень широкий для интернет-приложений набор опций, благодаря чему вы можете выбрать удобные для себя настройки.
Одной из особенностей Спеллера, как и других API-инструментов Яндекса, является простота в использовании и управлении. Чтобы встроить на свой сайт веб-клиент, требуется выполнить несколько несложных действий.
Язык – живая система, поэтому в будущем функционал инструмента будет расширяться и дополняться.
Сделайте свой сайт не только интересным, но и грамотным.
Алексей Байтин и команда исправления опечаток
Новые книги в Яндекс.Словарях
2 июня 2009, 13:54
Яндекс.Словари, а точнее раздел словарей русского языка, пополнился новыми изданиями, став еще полезнее.
Увидев противоположное значение слова «абстрактно» легче понять его собственное значение, чем и предлагает воспользоваться «Словарь антонимов русского языка». Антонимические пары проиллюстрированы цитатами из художественной, научной литературы и публицистики.
Если кто-то сказал, что вы «как свинья в апельсинах», это совсем не означает, что вы превратились в животное и сидите среди фруктов. Что в действительности имел в виду говорящий, может пояснить «Фразеологический словарь русского литературного языка». Часть фразеологизмов в нем сопровождается исторической справкой, объясняющей их происхождение.
Еще одно издание — «Русский орфографический словарь» — хранит в себе около 180 тысяч слов с указанием ударений и необходимой грамматической информацией.
Желаю приятного изучения, Лидия Попело.
Говорим и пишем правильно
21 мая 2009, 15:35
Книжная полка Яндекс.Словарей росла, росла и стала большая-пребольшая, почти девяносто изданий, часть из которых — многотомные. Такая библиотека, конечно же, требует порядка, который мы и решили навести, чтобы вам было удобнее и проще искать нужную информацию. Так появился раздел словарей русского языка.
Если вы не знаете или забыли, как пишется слово или где правильно поставить в нем ударение, какие у него синонимы и откуда оно произошло, просто поищите его в разделе «Русский язык». Направление поиска можно выбрать прямо под поисковой строкой. И даже если вы набрали слово с ошибкой или опечатались, вы все равно получите нужную словарную статью, т.к. ваш запрос будет автоматически исправлен: «стекляный» на «стеклянный», «милиорация» на «мелиорация», а «фторнек» на «вторник». Удобно, не правда ли?
Кроме того, мы позаботились о пользователях, которые чаще используют какой-то один раздел словарей, например, перевод. Теперь в настройках вы можете выбрать, какое направление поиска использовать в словарях по умолчанию.
Ваш буквоед, Лидия Попело.
опечатка? возможно, имелось в виду: «афтар»
5 августа 2005, 16:03
Нам задают вопросы про Query-based speller, который наряду со словарным орфографическим корректором работает на поиске Яндекса с начала июля.
> Однако меня все равно не устраивает, когда в ответ на запрос "афтор"
> с одной опечаткой мне говорят, что возможно следует писать "афтар",
> а не "автор"
> http://yandex.ru/yandsearch?text=%E0%F4%F2%EE%F0
Отвечаем: [автор] и [афтар] — два разных слова, они принадлежат к двум разным пластам языка, имеют разную сочетаемость.
По ассоциациям запросов видно, что такую опечатку делают т.н. «падонки», которые намеренно пишут это слово через «ф». Нормальный человек не поставит случайно вместо «в» букву «ф» — и по звучанию не похоже, и расположена на клавиатуре не рядом.
Иными словами замену [афтор] -> [афтар] мы считаем вполне адекватной. Более того, по-видимому, орфографической ошибкой является написание [автор жжот]. Правильно [афтар жжот].
Удачного поиска!
Илья Сегалович, директор по технологиям и разработке
Теперь пользователи Яндекса сами создают Орфографический словарь
14 июля 2005, 20:26
На этой неделе была запущена новая проверка орфографии на поиске. Раньше, если введенное слово оказывалось «плохим» (его не было в словаре, в интернете находилось мало страниц, содержащих это слово), то Яндекс брал на себя смелость предлагать исправить это «плохое», по его мнению, слово на «хорошее». В этом случае под строкой поиска появлялась фраза «опечатка? возможно, имелось в виду: [предлагаемое «хорошее» слово]».
«Обычный» словарь – это, конечно, хорошо. Но в наше время, когда новые слова появляются чуть ли не каждый день, поддерживать актуальность словаря невозможно. Сами посудите, ежедневно регистрируются новые фирмы, появляются новые музыкальные группы, новые спортсмены выигрывают новые соревнования. Возникающие при этом новые слова часто бывают непроизносимыми, нечитаемыми и даже непечатными.
Например, все знают, что такое тхэквондо, а как оно правильно пишется? Тхэквондо, тайквондо, тейквондо, тхеквандо, тхеквондо, тэйквондо? Какое слово нужно набрать в поисковой строке? Как учитывать новые слова и не считать их опечатками?
Разбором и анализом таких ситуаций в Яндексе как раз и занимается новый алгоритм, автоматически строящий словарь исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из наиболее распространенных в интернете. Таким образом, появляется база пар «плохих» и «хороших» слов – слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому «народному» словарю.
Сами попробуйте, любое слово из приведенного выше списка будет предложено исправить на «тхэквондо», так как именно этот вариант написания наиболее употребим в интернете. Получается, что пользователи Яндекса теперь сами создают свой Орфографический словарь.
Ошибайтесь чаще, и ваши ошибки помогут вашим товарищам!
Алексей Пяллинг, разработчик поисковых сервисов
Про русский язык
23 июня 2005, 23:38
Уже давно-давно на семинарах/конференциях показываю слушателям красивый пример, демонстрирующий богатство русского языка. Подумал, что не совсем справедливо, что те, кто на семинарах не был и лингвистикой не увлекается, не в курсе.
Яндекс, как известно, знаком с морфологией русского языка и умеет корректно склонять/спрягать слова (и искать вне зависимости от того, в какой форме задано слово). Обычно слово имеет не очень много словоформ, однако, есть слова, количество словоформ которых весьма впечатляет. Вот пример такого слова-монстра: глагол "извергать".
У него - 166 форм. Из них 152 построены по современным грамматическим правилам. 14 форм - это формы типа "извергавшИЯ" или "извергавшАГО".
Собственно, вот они:
изверг, извергав, извергавшаго, извергавшагося, извергавшая, извергавшаяся, извергавшего, извергавшегося, извергавшее, извергавшееся, извергавшей, извергавшейся, извергавшем, извергавшемся, извергавшему, извергавшемуся, извергавшею, извергавшеюся, извергавши, извергавшие, извергавшиеся, извергавший, извергавшийся, извергавшим, извергавшими, извергавшимися, извергавшимся, извергавших, извергавшихся, извергавшия, извергавшияся, извергавшую, извергавшуюся, извергаем, извергаема, извергаемаго, извергаемая, извергаемо, извергаемого, извергаемое, извергаемой, извергаемом, извергаемому, извергаемою, извергаемую, извергаемы, извергаемые, извергаемый, извергаемым, извергаемыми, извергаемых, извергаемыя, извергает, извергаете, извергается, извергаешь, извергай, извергайте, извергал, извергала, извергалась, извергали, извергались, извергало, извергалось, извергался, извергать, извергаться, извергаю, извергают, извергаются, извергающаго, извергающагося, извергающая, извергающаяся, извергающего, извергающегося, извергающее, извергающееся, извергающей, извергающейся, извергающем, извергающемся, извергающему, извергающемуся, извергающею, извергающеюся, извергающие, извергающиеся, извергающий, извергающийся, извергающим, извергающими, извергающимися, извергающимся, извергающих, извергающихся, извергающия, извергающияся, извергающую, извергающуюся, извергая, извергла, извергли, извергло, извергнем, извергнет, извергнете, извергнешь, извергни, извергните, извергну, извергнув, извергнувшаго, извергнувшая, извергнувшего, извергнувшее, извергнувшей, извергнувшем, извергнувшему, извергнувшею, извергнувши, извергнувшие, извергнувший, извергнувшим, извергнувшими, извергнувших, извергнувшия, извергнувшую, извергнул, извергнут, извергнута, извергнутаго, извергнутая, извергнуто, извергнутого, извергнутое, извергнутой, извергнутом, извергнутому, извергнутою, извергнутую, извергнуты, извергнутые, извергнутый, извергнутым, извергнутыми, извергнутых, извергнутыя, извергнуть, извергшаго, извергшая, извергшего, извергшее, извергшей, извергшем, извергшему, извергшею, извергши, извергшие, извергший, извергшим, извергшими, извергших, извергшия, извергшую
Алексей Амилющенко, главный аналитик отдела маркетинга