Логотип Оргцентр5
Приложения Smart TV тайно используют интернет пользователей для обучения ИИ
← Назад к статьям

Приложения Smart TV тайно используют интернет пользователей для обучения ИИ

Категория: Новости

Опубликовано: · 1 мин на чтение

Приложения Smart TV тайно используют интернет пользователей для обучения ИИ

Компании, занимающиеся сбором открытых веб-данных для обучения моделей искусственного интеллекта, стремительно множатся. На фоне растущего дефицита качественных датасетов некоторые из них начали использовать нестандартные подходы — в том числе интеграцию в приложения для Smart TV.

По данным недавнего расследования, отдельные телевизионные приложения могут встраивать инструменты, позволяющие использовать интернет-соединение пользователей для веб-скрейпинга. Формально — с согласия владельцев устройств. Фактически — с минимальным пониманием того, что именно происходит в фоновом режиме.


Как это работает

Bright Data

Одна из компаний, упоминаемых в отчёте, Bright Data. Она управляет глобальной прокси-сетью, предназначенной для сбора общедоступного веб-контента.

Через встроенный SDK (набор инструментов для разработчиков) Bright Data позволяет приложениям подключать устройства пользователей к распределённой сети прокси.

Сценарий выглядит следующим образом:

  1. Пользователь устанавливает приложение для Smart TV.
  2. При запуске ему предлагается согласиться на участие в программе (например, в обмен на меньшее количество рекламы или бесплатный доступ к контенту).
  3. После активации устройство может использоваться как узел прокси-сети.
  4. Через домашнее интернет-соединение осуществляется сбор публичных веб-данных.
  5. Собранная информация передаётся на серверы Bright Data и далее продаётся компаниям, обучающим ИИ-модели и LLM.

Компания утверждает, что SDK не отслеживает личные данные и работает анонимно в фоновом режиме.


Масштаб сети

Smart TV

По заявлениям Bright Data, её прокси-сеть насчитывает около 150 миллионов клиентских узлов. В их число входят не только Smart TV, но и ПК, мобильные устройства и другие подключённые к интернету платформы.

Маркетинговые материалы компании описывают технологию как способ «структурированной доставки данных» вместо обычного веб-скрейпинга. Также заявляется, что SDK обеспечивает «100% монетизацию пользователей» без ухудшения пользовательского опыта.


Вопросы прозрачности и контроля

Хотя участие в сети позиционируется как добровольное, критики отмечают несколько проблем:

  • Пользователи часто не понимают, какой объём трафика передаётся в фоновом режиме.
  • Отсутствует детальная информация о характере собираемых данных.
  • Сложно отследить, насколько активно используется интернет-канал устройства.
  • Распределённая модель с использованием резидентных IP-адресов затрудняет мониторинг.

Bright Data заявляет, что SDK активируется только тогда, когда ресурсы устройства и сети «не используются критически». Также компания подчёркивает, что отключиться можно в два шага.


Реакция технологических гигантов

На фоне растущей обеспокоенности крупные платформы начали ужесточать требования:

  • Google, по данным источников, запрещает приложениям запускать постоянные фоновые SDK-процессы.
  • Amazon блокирует приложения, использующие сторонние прокси-механизмы.
  • Ранее Google также способствовала ликвидации масштабной китайской прокси-сети IPIDEA.

Тем не менее, Bright Data продолжает сотрудничество с экосистемами Smart TV на базе Tizen OS и webOS, где, как сообщается, сотни приложений могут содержать интеграции прокси-механизмов.


Почему это происходит сейчас

Smart TV

Главная причина — дефицит данных для обучения ИИ.

С ростом генеративных моделей, включая большие языковые модели (LLM), компаниям требуется всё больше текстовых и веб-источников. Поскольку прямой доступ к данным всё чаще ограничивается владельцами платформ, бизнес переходит к распределённым сетям сбора информации.

Smart TV становятся удобной точкой входа:

  • миллионы устройств постоянно подключены к интернету;
  • пользователи редко анализируют фоновые процессы;
  • мотивация в виде бесплатного контента выглядит привлекательной.

Итог

Сбор публичных данных сам по себе не является незаконным. Однако использование пользовательских устройств в качестве элементов прокси-сетей поднимает вопросы прозрачности, приватности и цифровой безопасности.

По мере ужесточения регулирования и роста внимания к обучению ИИ можно ожидать дальнейших ограничений со стороны платформ и, возможно, новых требований к информированному согласию пользователей.

В эпоху ИИ даже ваш телевизор может участвовать в обучении нейросетей — зачастую без вашего полного осознания этого факта.

Автор: Сергей Пивоваров 60 просмотров