«Мужчины и женщины задают запросы на самые разные темы — и нет такой, которая интересовала бы только мужчин или только женщин. Тем не менее, соотношение запросов разной тематики у пользователей разных полов неодинаковое. По данным поиска Яндекса, самые «мужские» темы — то есть такие, которыми мужчины интересуются сильнее, чем женщины, — это ИТ и компьютерные игры, а самые «женские» — отношения между людьми, дети и поиск работы». ¶ Навигационные запросы в основном связаны с поиском сайтов, компаний и организаций — чаще всего их ищут по названию, реже спрашивают про схемы проезда и конкретные адреса. Мужчины чаще вбивают в поисковую строку названия сайтов, а женщины — названия компаний и организаций.
Транзакционные запросы — такие, задавая которые, пользователь хочет совершить конкретное действие — купить слона, забронировать гостиницу и т.д. Часто такие запросы содержат характерные уточняющие слова. Например, женщины чаще мужчин хотят «смотреть онлайн» или «скачать» что-либо. Мужчины чаще интересуются покупками, причём ищут не только сами предметы, но также отзывы и тематические форумы о них.» #женщины_и_люди - × × ×
«Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей (при этом он учёл «белое», «твёрдое» — отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя. ¶
В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это — похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своём решении. Примерно так: «Я уверен на 92%, что это женщина».» - × × ×
Может все и правильно, но странно на первый взгляд: определяем пол по поисковому поведению, а поисковое поведение полов на основании пола, определенного по поисковому поведению. - \/\/\/ Срамотато