Компании, занимающиеся сбором открытых веб-данных для обучения моделей искусственного интеллекта, стремительно множатся. На фоне растущего дефицита качественных датасетов некоторые из них начали использовать нестандартные подходы — в том числе интеграцию в приложения для Smart TV.
По данным недавнего расследования, отдельные телевизионные приложения могут встраивать инструменты, позволяющие использовать интернет-соединение пользователей для веб-скрейпинга. Формально — с согласия владельцев устройств. Фактически — с минимальным пониманием того, что именно происходит в фоновом режиме.
Как это работает

Одна из компаний, упоминаемых в отчёте, Bright Data. Она управляет глобальной прокси-сетью, предназначенной для сбора общедоступного веб-контента.
Через встроенный SDK (набор инструментов для разработчиков) Bright Data позволяет приложениям подключать устройства пользователей к распределённой сети прокси.
Сценарий выглядит следующим образом:
- Пользователь устанавливает приложение для Smart TV.
- При запуске ему предлагается согласиться на участие в программе (например, в обмен на меньшее количество рекламы или бесплатный доступ к контенту).
- После активации устройство может использоваться как узел прокси-сети.
- Через домашнее интернет-соединение осуществляется сбор публичных веб-данных.
- Собранная информация передаётся на серверы Bright Data и далее продаётся компаниям, обучающим ИИ-модели и LLM.
Компания утверждает, что SDK не отслеживает личные данные и работает анонимно в фоновом режиме.
Масштаб сети

По заявлениям Bright Data, её прокси-сеть насчитывает около 150 миллионов клиентских узлов. В их число входят не только Smart TV, но и ПК, мобильные устройства и другие подключённые к интернету платформы.
Маркетинговые материалы компании описывают технологию как способ «структурированной доставки данных» вместо обычного веб-скрейпинга. Также заявляется, что SDK обеспечивает «100% монетизацию пользователей» без ухудшения пользовательского опыта.
Вопросы прозрачности и контроля
Хотя участие в сети позиционируется как добровольное, критики отмечают несколько проблем:
- Пользователи часто не понимают, какой объём трафика передаётся в фоновом режиме.
- Отсутствует детальная информация о характере собираемых данных.
- Сложно отследить, насколько активно используется интернет-канал устройства.
- Распределённая модель с использованием резидентных IP-адресов затрудняет мониторинг.
Bright Data заявляет, что SDK активируется только тогда, когда ресурсы устройства и сети «не используются критически». Также компания подчёркивает, что отключиться можно в два шага.
Реакция технологических гигантов
На фоне растущей обеспокоенности крупные платформы начали ужесточать требования:
- Google, по данным источников, запрещает приложениям запускать постоянные фоновые SDK-процессы.
- Amazon блокирует приложения, использующие сторонние прокси-механизмы.
- Ранее Google также способствовала ликвидации масштабной китайской прокси-сети IPIDEA.
Тем не менее, Bright Data продолжает сотрудничество с экосистемами Smart TV на базе Tizen OS и webOS, где, как сообщается, сотни приложений могут содержать интеграции прокси-механизмов.
Почему это происходит сейчас

Главная причина — дефицит данных для обучения ИИ.
С ростом генеративных моделей, включая большие языковые модели (LLM), компаниям требуется всё больше текстовых и веб-источников. Поскольку прямой доступ к данным всё чаще ограничивается владельцами платформ, бизнес переходит к распределённым сетям сбора информации.
Smart TV становятся удобной точкой входа:
- миллионы устройств постоянно подключены к интернету;
- пользователи редко анализируют фоновые процессы;
- мотивация в виде бесплатного контента выглядит привлекательной.
Итог
Сбор публичных данных сам по себе не является незаконным. Однако использование пользовательских устройств в качестве элементов прокси-сетей поднимает вопросы прозрачности, приватности и цифровой безопасности.
По мере ужесточения регулирования и роста внимания к обучению ИИ можно ожидать дальнейших ограничений со стороны платформ и, возможно, новых требований к информированному согласию пользователей.
В эпоху ИИ даже ваш телевизор может участвовать в обучении нейросетей — зачастую без вашего полного осознания этого факта.
