• Raul Nugis, Author |
3 mins read

Данные, сохраненные в базах данных клиентов, играют большую роль при создании решений бизнес-аналитики (англ. business intelligence), аналитики данных и машинного обучения, как в публичном, так и в частном секторе, однако нередко одной только содержащейся в них информации оказывается недостаточно. Требуются также данные, которые можно получить при интеллектуальном (глубинном) анализе данных. Привлечение дополнительных данных к уже существующим, их обогащение и повышение ценности при подготовке данных часто очень важны.

Что такое интеллектуальный анализ данных (англ. data mining)?

Википедия описывает его как автоматический процесс обнаружения полезных паттернов в больших массивах данных. Интеллектуальный анализ данных применяется во многих областях. Один из типичных примеров – сегментирование клиентов, скажем, на основании географического местоположения, степени риска или платежеспособности. Для географического сегментирования в интеллектуальном анализе данных применяется добавление координат или адресных данных, или так наз. геокодирование (англ.geocoding). На основании адресных данных можно разделить клиентов на группы, как по официальным административным единицам, так и на основании произвольно выбранных нами географических регионов.

Иллюстрация 1. Геопространственный анализ данных как часть анализа рынка (источник: KPMG Китай)

Основные источники интеллектуального анализа данных на сегодняшний день – это сохраненные в файлах архивы, частные базы и хранилища данных, но все больше используются также доступные онлайн-базы данных третьих лиц и разного рода веб-сайты. При интеллектуальном анализе данных важно, что оперируют большими массивами данных: скопировать данные с десятка сайтов или перевести в координаты десять адресов клиентов, кажется, несложно, а вот если источников или записей тысячи, то требуется программирование.

Интеллектуальный анализ сетевых данных – прочёсывание сети

Поиск информации на страницах интернета как будто бы не представляет проблемы. Но если его выполняет робот, это все же вызывает кое-какие вопросы. Возьмем пример, когда у меня есть адреса сайтов предприятий, и я хочу собрать опубликованную на этих сайтах информацию, это могут быть контактные данные, цены, описания предлагаемых изделий и услуг или любая другая информация. Хотя собираемые данные полностью открыты, их сбор с помощью робота все же регулируется необязательными специальными правилами. Почти для каждого сайта существует файл „robot.txt“, которые дает роботу известные установки. Скажем, на таком сайте, как www.delfi.ee, мы найдем эти установки по адресу www.delfi.ee/robots.txt. Конкретно в случае delfi.ee сбор некоторых новостей веб-роботу разрешается, а другие новости машинным глазам лучше не показывать. Немало и таких сайтов, где настройка robot.txt запрещает всех роботов. Правда, эти правила предназначены в первую очередь для таких поисковиков, как Google, но нельзя сказать, что так наз. приватных роботов они вообще не касаются.

Регулирование веб-роботов

Что происходит, когда мы автоматически собираем данные с помощью своего приватного робота? Придерживаемся ли мы установок robot.txt? Когда-то, в университетские времена, мне для учебы понадобилось собрать с помощью робота данные из открытых реестров документов государственных учреждений, где боты также запрещены, я попросил юридического совета у специалистов из адвокатского бюро, и они не усмотрели в этом занятии никаких проблем. И все же есть много «но». Если собственник сайта выложит персональные данные и робот соберёт и сохранит также и их, станем ли мы, приобретя такие данные, обработчиками персональных данных со всей вытекающей отсюда ответственностью? А что, если мы неумышленно соберем секретную коммерческую информацию, случайно где-нибудь опубликованную?

Больше уверенности в этих вопросах может дать будущее. В 2019 году было внесено предложение сделать официальным документом IETF неофициально существующий с 1994 года стандарт, регулирующий прочёсывание сети роботами. Соответствующий процесс идет, и остается только ждать, что это внесет ясность в этические и правовые рамки работы веб-роботов.