2. Что такое качество текста?
Хороший текст: пользователи читают.
Плохой текст: пользователи не читают.
Метрики: доля прочитавших, длина сессии к длине текста.
4. No user data
Почему текст может быть плохим?
• Нерелевантен.
• Тяжело читаем.
• Скучный.
5. Как роботу оценить текст?
• Релевантность
• По ключевым словам
• Без ключевых слов
• Readability
• Индекс читаемости
• Ритмичность
• Не спам
6. Релевантность по ключевикам
• Вхождения слов запроса
• Межсловные расстояния
• Вхождения пар слов
• Расстояние левенштейна
• Точные/Лексеммы/Синсеты
10. Сложность восприятия текста
• Чем больше букв – тем сложнее слово
• Чем больше слогов – тем сложнее слово
• Чем длиннее предложения – тем сложнее текст
• Чем больше сложных слов – тем более сложен текст
11. Метрики
• Средняя длина предложения в словах
• Доля длинных предложений
• Средняя длина слова в слогах
• Доля сложных слов (с большим числом слогов).
12. Пример метрики
Gunning fog index:
𝐹𝑜𝑔 𝑖𝑛𝑑𝑒𝑥 = 0,4
𝑤𝑜𝑟𝑑𝑠
𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠
+ 100
𝑐𝑜𝑚𝑝𝑙𝑒𝑥 𝑤𝑜𝑟𝑑𝑠
𝑤𝑜𝑟𝑑𝑠
Complex words – слова из 3 и более слогами.
13. Disclaimer
• Ctrl+c – ctrl+v формул с английского в русский невозможен.
• В русском языке длинее слова, но короче предложения.
• Необходимо перевзвешивать коэффициенты.
14. Ритм текста
Текст должен постоянно держать читателя в тонусе. Вызывать
образы. Ощущения. Вести читающего по авторской линии и делать
неожиданные повороты. Захватывать его внимание.
С другой стороны, если использовать длинные
сложноподчиненные предложения, деепричастные обороты и
высокую долю слов с большим числом слогов, вероятно, читатель к
концу предложения забудет с чего оно начиналось.
15. Ритм текста – метрики?
Чередование предложений разной длины
Короткие: до 4 слов
Средние: 5-7 слов
Длинные: 7-10 слов
Совсем длинные предложения резко снижают читаемость текста.
16. Спам или не спам?
Хочешь, чтобы тебя оценили – будь Спамные тексты.
Сегодня, когда во всем цивилизованном мире нелегальное
распространение спамные тексты преследуется чуть ли
не серьезнее, чем торговля наркотиками, по-настоящему
удивительно слышать слова благодарности пиратам от...
Спамные тексты. Любая подобная беседа должна
начинаться с маркетинговых исследований. Помимо всего
прочего, необходимо определить характеристики
выбранного сегмента, в данном случае, Спамные тексты.
Спамные тексты.
17. Примеры спам-метрик
- Доля/дисперсия по частям речи
- Доля/дисперсия по длине слов (+части речи)
- Доля/дисперсия по длинам предложений
- Ципф по частям речи
- Сжимаемость текста
- LDA-based: topic diversity, 𝜒2 LDA score
18. Что важно понимать
• Все метрики обладают плохой точностью и/или полнотой
• There is no silver bullet
• Оценка спам/не спам – результат ML
19. Что это значит?
Нужно подгонять по ципфу..
Тошнотность большая..
Дисперсию длин предложений подтянуть..