# Система аналізу медіа-контенту. Аналіз предметної області

# Вступ

В цьому документі ми аналізуємо нашу тему курсової роботи. Визначаємо, що являє собою система аналізу медіа-контенту, її призначення, коротку характеристику методів, моделей і підходів вирішення завдання. Також ми проводимо порівняльну характеристику різних засобів вирішення завдання.

# Основні визначення

Медіа-моніторинг, аналіз медіа-імідж - гапів-автоматизоване та автоматизоване відстежування в інформаційному потоці ЗМІ контексту згадування брендів, партій, політиків чи інших суб’єктів, що цікавлять замовника.

Моніторинг — система постійних спостережень, оцінки та прогнозу змін стану будь-якого технічного, природного, соціального та інших об'єктів.

Контент-аналіз — метод кількісного вивчення великих обсягів текстів в широкому розумінні (документів, відео-, аудіоматеріалів, зображень).

Медіа-контент – це змістовно значуще наповнення цифрових ресурсів, що інтегрує різну за формою подання та кодування інформацію (текстову, графічну, аудіовізуальну тощо), орієнтовану на задоволення соціальних, інформаційних та емоційних потреб людини.

Засоби масової інформації (ЗМІ), масмедіа — різновид медіа, орієнтований на одночасне передавання інформації великим групам людей.

Аналіз сприйняття і засвоєння медійної інформації - виявлення в інформаційному потоці ЗМІ найпоширеніших месседжів, пов’язаних з брендами, партіями, політиками чи іншими суб’єктами, що цікавлять замовника.

PR метрика дозволяє кількісно виміряти аудиторію всіх публікацій, в яких компанія або бренд згадувалися за звітний період.

Google Analytics — зручний і багатофункціональний сервіс від компанії Google для аналізу інтернет-сайтів та мобільних додатків, що озволяє вебмайстрам перевірити стан індексування, створити детальну статистику аудиторії сайту та оптимізувати видимість своїх вебсторінок.

Кодування — процес категоризації зібраних даних згідно визначених дослідником правил.

Big Data - група технологій та методів, за допомогою яких аналізують та обробляють величезну кількість даних, як структурованих так і неструктурованих, для отримання якісно нових знань.

Machine Learning - великий підрозділ штучного інтелекту, що вивчає методи побудови алгоритмів, здатних навчатися.

Text Mining — вид ефективного аналізу тексту, який за допомогою обчислювальних потужностей виявляє відношення, які можуть призвести до відкриття нових знань.

Зацікавлені особи - бренди, компанії і т.д.

Система - в данній роботі це платформа для аналізу медіа-контенту.

Запит — формулювання своєї інформаційної потреби користувачем деякої бази даних або інформаційної системи, наприклад, пошукової системи.

Адміністратор - це особа, що здійснює роботу з ефективного і культурного обслуговування відвідувачів.

Комп'ютерна система - інформаційно-технічний комплекс метою якого є обробка, збереження, ввід-вивід інформації.

Зацікавлені сторони, зацікавлені особи — фізичні та юридичні особи, які мають легітимний інтерес у діяльності організації, тобто певною мірою залежать від неї або можуть впливати на її діяльність.

# Підходи та способи вирішення завдання

Популярність контент-аналізу ґрунтується на тому, що цей метод дозволяє виміряти людську поведінку. На відміну від опитувань, контент-аналіз вимірює не те, що люди говорять, що зробили чи зроблять, а те, що вони справді зробили.

Може використовуватися як основний метод дослідження (наприклад, контент-аналіз тексту при дослідженні політичної спрямованості газети), в поєднанні з іншими методами (наприклад, в дослідженні ефективності функціонування засобів масової інформації), допоміжний або контрольний (наприклад, при класифікації відповідей на відкриті запитання анкет).

# Виділяють два основних типи контент-аналізу:

  • кількісний - націлений на виявлення частоти окремих тем, слів або символів, що містяться у тексті;

  • якісний - фіксує нетривіальні висловлювання, мовні інтонації з розумінням цінності змісту повідомлення;

# Виділяють такі стадії аналізу:

  1. Підготовка програми аналізу документів;
  2. Відбір джерел аналізу;
  3. Визначення емпіричних моделей аналізу, проведення вибірки;
  4. Розробка методики даного конкретного аналізу;
  5. Пілотажне дослідження, перевірка надійності методики;
  6. Збір первинної емпіричної інформації;
  7. Кількісна обробка зібраних даних;
  8. Обробка здобутих результатів, висновки дослідження.

Data mining - процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування. Застосовується зазвичай для обробки природної мови та реферування. Методи data mining можуть бути застосовані як для роботи з великими даними, так і для обробки порівняно малих обсягів даних. Знання, що видобуваються методами data mining, прийнято представляти у вигляді закономірностей (патернів). Серед таких виступають: асоціативні правила, дерева рішень, кластери, математичні функції.

Text mining - напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.

Natural Language Processing - загальний напрямок штучного інтелекту і математичної лінгвістики. Воно вивчає проблеми комп'ютерного аналізу і синтезу природних мов. Стосовно до штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію грамотного тексту. Вирішення цих проблем буде означати створення більш зручної форми взаємодії комп'ютера і людини.

Tokenization - процес заміни конфіденційного елемента даних на неконфіденційну еквівалент, званий токеном, який не має самостійного сенсу / значення для зовнішнього або внутрішнього використання. Токен - це посилання (тобто ідентифікатор), яка зіставляється з конфіденційними даними через систему токенізаціі. Зіставлення вихідних даних з токеном використовує методи, які унеможливлюють зворотне перетворення токенов в вихідні дані поза системою токенізаціі, наприклад, з використанням токенов, створених за допомогою випадкових чисел.

Named-entity recognition - є підзадачею на вилучення інформації, яка спрямована на пошук та класифікацію названих осіб, згаданих у неструктурованому тексті, за заздалегідь визначеними категоріями, такими як імена осіб, організації, місцезнаходження, медичні коди, вирази часу, кількості, грошові значення, відсотки тощо.

Emotions Detection - це процес ідентифікації людських емоцій. Точність розпізнавання емоцій інших людей різниться. Використання технологій для допомоги людям з розпізнаванням емоцій є відносно новим напрямком досліджень. Як правило, технологія найкраще працює, якщо вона використовує різні умови в контексті. На сьогоднішній день найбільше роботи проведено щодо автоматизації розпізнавання міміки з відео, розмовних виразів з аудіо, письмових виразів з тексту та фізіології, виміряних носіями.

Rule Based AI - це спосіб, який використовується для зберігання та маніпулювання знаннями для корисної інтерпретації інформації. Він часто використовується в програмах штучного інтелекту та дослідженнях. Зазвичай термін "Rule Based" застосовується до систем, що включають створені людиною або куровані набори правил. Системи, засновані на правилах, побудовані з використанням автоматичного виведення правил, такі як машинне навчання на основі правил, зазвичай виключаються з цього типу системи.

Word2vec - це техніка для обробки природної мови. Алгоритм word2vec використовує модель нейронної мережі для вивчення асоціацій слів із великого корпусу тексту. Після навчання така модель може виявляти слова-синоніми або пропонувати додаткові слова для часткового речення. Як випливає з назви, word2vec представляє кожне окреме слово з певним списком чисел, який називається вектором.

Deep learning - сукупність методів машинного навчання (з учителем, з частковим залученням вчителя, без учителя, з підкріпленням), заснованих на навчанні уявленням, а не спеціалізованим алгоритмам під конкретні завдання. Метод допомогає створювати складні технологічні архітектури нейронних мереж, що володіють достатньою продуктивністю і дозволяють вирішувати широкий спектр завдань, які не піддавалися ефективному вирішенню раніше, наприклад, в комп'ютерному зорі, машинний переклад, розпізнаванні мови, причому якість рішення в багатьох випадках тепер можна порівняти, а в деяких випадках перевершує ефективність людини

Full text search - це більш вдосконалений спосіб пошуку в базі даних. Full text search швидко знаходить усі екземпляри терміна (слова) у таблиці, не потребуючи сканування рядків і не знаючи, в якому стовпці зберігається термін. Full text search працює за допомогою текстових індексів.

# Порівняльна характеристика існуючих засобів вирішення завдання

# Існуючі програми для аналізу медіа-контенту:

Meltwater (opens new window) - Онлайн-сервіс Meltwater дозволяє просівати новини, публікації в соціальних мережах і інші типи повідомлень, щоб користувач могли відслідковувати все, що має відношення до контрольованого бренду, конкурентам і галузі. Технологія моніторингу ЗМІ Meltwater на основі штучного інтелекту в поєднанні з глобальною мережею партнерств забезпечує клієнтам доступ до контенту на місцевому, національному та глобальному рівнях.

M-Brain (opens new window) - це інтернет-сервіс інформаційного моніторингу та медіа-аналізу в глобальному масштабі. Відстежує публікації в онлайн-ЗМІ, на форумах, в соціальних мережах на 68 мовах, по будь-якій кількості тем і ключових слів. Інструмент показує дані на 100 інтерактивних графіках з подальшим експортом даних.

Mediascope (opens new window) - Компанія Mediascope виробляє дослідження обсягу і демографічний аналіз аудиторії ТВ, радіостанцій, преси та Інтернетy.

SemanticForce (opens new window) - платформа для моніторингу та аналізу інтернет ЗМІ, соціальних мереж, відео, форумів, блогів, вакансій та інших видів онлайн-медіа. Унікальність системи полягає в наявності ряду інноваційних пошукових і семантичних технологій, а також інтеграції з різними зовнішніми системами, наприклад, KLOUT, Copiny або Google Analytics. Архітектура платформи і її аналітичні можливості спеціально розроблені для моніторингу та аналізу високочастотних об'єктів в режимі реального часу.

IQBuzz (opens new window) - це сервіс для моніторингу соціальних медіа та онлайн ЗМІ. Цей інструмент допомагає детально аналізувати і управляти репутацією в Мережі. При цьому інструмент здатний оптимізувати роботу відділів з маркетингу та PR, скорочуючи час і розширюючи можливості при пошуку інформації. Система IQBuzz здатна обробляти дані з понад 10 тисяч джерел онлайн-ЗМІ, захоплюючи повідомлення з Facebook, Twitter, ВКонтакте, Мій Світ, Instagram, 4sq, LiveJournal, LiveInternet, Google+, YouTube, RuTube і безлічі інших. Компанія розуміє під своїми перевагами величезну видачу по соцмедіа, визначення тональності повідомлень, хорошу підтримку користувачів і роботу сервісу на мобільних пристроях.

Brand Analytics (opens new window) - це онлайн-сервіс моніторингу і проведення медіа-аналізу ЗМІ, що сприяє актуалізації маркетингових активностей і позиціонування бренду.

Babkee (opens new window) - це інтернет-сервіс систематичного аналізу та моніторингу згадок інформаційних об'єктів (брендів, персон, гео-об'єктів) в соціальних медіа та ЗМІ, що дозволяє досліджувати репутацію, думки клієнтів, сигнали ринку і положення конкурентів.

Крібрум (opens new window) - це інтернет-сервіс пошуку інформації в соціальних медіа, призначений для пошуку інформаційних об'єктів в повідомленнях онлайн-ЗМІ і постах соціальних мереж.

[Розділ містить опис існуючих програм, інформаційних систем, сервісів, тощо, призначених для вирішення завдання. Дається порівняльна характеристика властивостей FURPS:

Вимоги Критерії Meltwater M-Brain Mediascope SemanticForce IQBuzz Brand Analytics Babkee Крібрум
Функціональність Моніторинг ЗМІ + + + + + + + +
Фільтр за ключовими словами + + + + + + + +
Багатокористувацький доступ + - - - - - - -
Візуалізація даних + + + + + - - -
Наявність АРІ + + + + + - - -
Пошук по зображенням + - - - - - - -
Додаткові послуги Безперервний аналіз медіа-контенту в реальному часі з повідомленнями; Є додаток для мобільних пристроїв Стратегічний аналіз конкретного бізнес-ринку Вимір чисельності аудиторії Вимір тенденції зміни поведінки корустувачів щодо продукту По результатам аналізу створюється найефективніша SMM стратегія для просування продукту Автоматичне визначення тональності повідомлень із точністю 85-90%; Є додаток для мобільних пристроїв Автоматичне групування та відсіювання дубльованої інормації Аналіз зміни рейтингу та впливу авторів
Зручність Мови Англійська, німецька, французька, фінська, японська, китайська Англійська, німецька, французька, фінська, португальська, китайська, шведська Англійська, російська Англійська, російська Російська Російська, казахська, англійська Російська Російська
Умови реєстрації Базова особиста інформація; Бажана мова Базова особиста інформація; Бажана мова Базова особиста інформація; Бажана мова Базова особиста інформація Мінімальна базова особиста інформація Базова особиста інформація Мінімальна базова особиста інформація Мінімальна базова особиста інформація
Цінова політика Залежить від запиту Залежить від запиту Залежить від запиту Залежить від запиту Від 135$ Від 359$ Безкоштовно Безкоштовно
Інтерфейс платформи Простий у використанні; Сучасний дизайн; Є гайд по роботі з сайтом Простий у використанні; Сучасний дизайн Простий у використанні; Простий дизайн Простий у використанні; Простий дизайн Простий у використанні; Сучасний дизайн; Є розширене навігаційне меню Простий у використанні; Сучасний дизайн; Є розширене навігаційне меню Простий у використанні; Мінімалістичний дизайн Простий у використанні; Мінімалістичний дизайн
Експорт даних Через АРІ Через АРІ Через АРІ; Спеціальні клієнтські софти; DataLab; BI-система Tableau Через АРІ Через АРІ У форматі Excel, CSV, JSON У форматі Excel, CSV, JSON У форматі Excel, CSV
Наявність демо-доступу + - - - + + - -
Надійність Клієнторська база Є досвід співпраці з малими та великими компаніями(напр. Google, Puma) Є досвід співпраці з малими та великими компаніями(напр. Coca Cola, Deloitte) Є досвід співпраці з малими та великими компаніями(напр. Starlink, Сбер Маркетинг) Є досвід співпраці з малими та великими компаніями(напр. Укрпошта, Samsung) Є досвід співпраці з малими та великими компаніями, але здебільшого з російськими(напр. Литрес, 2КОМ) Є досвід співпраці з малими та великими компаніями, але здебільшого з російськими(напр. Магнит, YOTA) Не вказана Не вказана
Ступінь захисту інформації Відповідає вимогам безпеки ЄС General Data Protection Regulation (GDPR) (Regulation (EU) 2016/679) Не вказана Не вказана Не вказана Не вказана Не вказана Не вказана Компанія не здійснює передачу персональної інформації користувачів третім особам, але може бути надана відповідно до чинного законодавства РФ
Продуктивність Об'єм аналізованих джерел Не зазначений ~600 друкованих видань; об'єм інтернет-джерел не зазначений Виключно російські ТВ-, радіо-, інтернет- та преса-джерела Близько 250 тис. ЗМІ ресурсів у 150 країнах Понад 10 тис. ЗМІ ресурсів Виключно російські ЗМІ та російські сегменти міжнародних ЗМІ Виключно російські ЗМІ та російські сегменти міжнародних ЗМІ Виключно російські ЗМІ та російські сегменти міжнародних ЗМІ
Підтримка Служба підтримки Можна заповнити форму для подальшого зв'язку Можна подзвонити; Можна надіслати лист; Можна заповнити форму для подальшого зв'язку Можна подзвонити; Можна надіслати імейл-запит Можна подзвонити; Можна надіслати імейл-запит; Можна заповнити форму для подальшого зв'язку Можна подзвонити; Можна надіслати імейл-запит; Є вкладка для поставлення питання онлайн Можна подзвонити; Можна надіслати імейл-запит; Можна заповнити форму для подальшого зв'язку Можна надіслати імейл-запит -
FAQ -, але є окремий гайд по роботі з ресурсом - - - - - + -

# Висновки

Проаналізувавши предметну область, можна зробити висновки щодо доцільності розробки нової інформаційної системи аналізу медіа-контенту.

# Посилання

Останнє оновлення: 10/28/2021, 11:32:49 AM