SlideShare una empresa de Scribd logo
1 de 21
Оценка качества текста
Алексей Чекушин
just-magic.org
Ostrovok.ru
Что такое качество текста?
Хороший текст: пользователи читают.
Плохой текст: пользователи не читают.
Метрики: доля прочитавших, длина сессии к длине текста.
Но не всё так просто 
No user data
Почему текст может быть плохим?
• Нерелевантен.
• Тяжело читаем.
• Скучный.
Как роботу оценить текст?
• Релевантность
• По ключевым словам
• Без ключевых слов
• Readability
• Индекс читаемости
• Ритмичность
• Не спам
Релевантность по ключевикам
• Вхождения слов запроса
• Межсловные расстояния
• Вхождения пар слов
• Расстояние левенштейна
• Точные/Лексеммы/Синсеты
Релевантность без ключевых слов
• Векторное представление
• Метод близости векторов
• Сжатие размерности
Визуализация представления
(с) модуль «Акварель» из just-magic.org, по запросу SEO-текст
Readability
Насколько
тяжело
читать
Текст
?
Сложность восприятия текста
• Чем больше букв – тем сложнее слово
• Чем больше слогов – тем сложнее слово
• Чем длиннее предложения – тем сложнее текст
• Чем больше сложных слов – тем более сложен текст
Метрики
• Средняя длина предложения в словах
• Доля длинных предложений
• Средняя длина слова в слогах
• Доля сложных слов (с большим числом слогов).
Пример метрики
Gunning fog index:
𝐹𝑜𝑔 𝑖𝑛𝑑𝑒𝑥 = 0,4
𝑤𝑜𝑟𝑑𝑠
𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠
+ 100
𝑐𝑜𝑚𝑝𝑙𝑒𝑥 𝑤𝑜𝑟𝑑𝑠
𝑤𝑜𝑟𝑑𝑠
Complex words – слова из 3 и более слогами.
Disclaimer
• Ctrl+c – ctrl+v формул с английского в русский невозможен.
• В русском языке длинее слова, но короче предложения.
• Необходимо перевзвешивать коэффициенты.
Ритм текста
Текст должен постоянно держать читателя в тонусе. Вызывать
образы. Ощущения. Вести читающего по авторской линии и делать
неожиданные повороты. Захватывать его внимание.
С другой стороны, если использовать длинные
сложноподчиненные предложения, деепричастные обороты и
высокую долю слов с большим числом слогов, вероятно, читатель к
концу предложения забудет с чего оно начиналось.
Ритм текста – метрики?
Чередование предложений разной длины
Короткие: до 4 слов
Средние: 5-7 слов
Длинные: 7-10 слов
Совсем длинные предложения резко снижают читаемость текста.
Спам или не спам?
Хочешь, чтобы тебя оценили – будь Спамные тексты.
Сегодня, когда во всем цивилизованном мире нелегальное
распространение спамные тексты преследуется чуть ли
не серьезнее, чем торговля наркотиками, по-настоящему
удивительно слышать слова благодарности пиратам от...
Спамные тексты. Любая подобная беседа должна
начинаться с маркетинговых исследований. Помимо всего
прочего, необходимо определить характеристики
выбранного сегмента, в данном случае, Спамные тексты.
Спамные тексты.
Примеры спам-метрик
- Доля/дисперсия по частям речи
- Доля/дисперсия по длине слов (+части речи)
- Доля/дисперсия по длинам предложений
- Ципф по частям речи
- Сжимаемость текста
- LDA-based: topic diversity, 𝜒2 LDA score
Что важно понимать
• Все метрики обладают плохой точностью и/или полнотой
• There is no silver bullet
• Оценка спам/не спам – результат ML
Что это значит?
Нужно подгонять по ципфу..
Тошнотность большая..
Дисперсию длин предложений подтянуть..
Fin
Ваши вопросы?
a.chekushin@just-magic.org
a.chekushin@ostrovok.ru
Баден-баден
Что мы про него знаем?
• Это документная санкция
• Действует не на все запросы документа
• Встроена в алгоритм ранжирования

Más contenido relacionado

Más de Alexey Chekushin

презентация F1 #12
презентация F1 #12презентация F1 #12
презентация F1 #12Alexey Chekushin
 
Как островок работает с семантикой
Как островок работает с семантикойКак островок работает с семантикой
Как островок работает с семантикойAlexey Chekushin
 
Автоматическая классификация запросов
Автоматическая классификация запросовАвтоматическая классификация запросов
Автоматическая классификация запросовAlexey Chekushin
 
Кластеризация и текстовый анализ
Кластеризация и текстовый анализКластеризация и текстовый анализ
Кластеризация и текстовый анализAlexey Chekushin
 
Текст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаТекст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаAlexey Chekushin
 
Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Alexey Chekushin
 
Непорочное продвижение
Непорочное продвижениеНепорочное продвижение
Непорочное продвижениеAlexey Chekushin
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практикаAlexey Chekushin
 

Más de Alexey Chekushin (8)

презентация F1 #12
презентация F1 #12презентация F1 #12
презентация F1 #12
 
Как островок работает с семантикой
Как островок работает с семантикойКак островок работает с семантикой
Как островок работает с семантикой
 
Автоматическая классификация запросов
Автоматическая классификация запросовАвтоматическая классификация запросов
Автоматическая классификация запросов
 
Кластеризация и текстовый анализ
Кластеризация и текстовый анализКластеризация и текстовый анализ
Кластеризация и текстовый анализ
 
Текст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаТекст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успеха
 
Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015
 
Непорочное продвижение
Непорочное продвижениеНепорочное продвижение
Непорочное продвижение
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практика
 

Методы оценки качества текстов

  • 1. Оценка качества текста Алексей Чекушин just-magic.org Ostrovok.ru
  • 2. Что такое качество текста? Хороший текст: пользователи читают. Плохой текст: пользователи не читают. Метрики: доля прочитавших, длина сессии к длине текста.
  • 3. Но не всё так просто 
  • 4. No user data Почему текст может быть плохим? • Нерелевантен. • Тяжело читаем. • Скучный.
  • 5. Как роботу оценить текст? • Релевантность • По ключевым словам • Без ключевых слов • Readability • Индекс читаемости • Ритмичность • Не спам
  • 6. Релевантность по ключевикам • Вхождения слов запроса • Межсловные расстояния • Вхождения пар слов • Расстояние левенштейна • Точные/Лексеммы/Синсеты
  • 7. Релевантность без ключевых слов • Векторное представление • Метод близости векторов • Сжатие размерности
  • 8. Визуализация представления (с) модуль «Акварель» из just-magic.org, по запросу SEO-текст
  • 10. Сложность восприятия текста • Чем больше букв – тем сложнее слово • Чем больше слогов – тем сложнее слово • Чем длиннее предложения – тем сложнее текст • Чем больше сложных слов – тем более сложен текст
  • 11. Метрики • Средняя длина предложения в словах • Доля длинных предложений • Средняя длина слова в слогах • Доля сложных слов (с большим числом слогов).
  • 12. Пример метрики Gunning fog index: 𝐹𝑜𝑔 𝑖𝑛𝑑𝑒𝑥 = 0,4 𝑤𝑜𝑟𝑑𝑠 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 + 100 𝑐𝑜𝑚𝑝𝑙𝑒𝑥 𝑤𝑜𝑟𝑑𝑠 𝑤𝑜𝑟𝑑𝑠 Complex words – слова из 3 и более слогами.
  • 13. Disclaimer • Ctrl+c – ctrl+v формул с английского в русский невозможен. • В русском языке длинее слова, но короче предложения. • Необходимо перевзвешивать коэффициенты.
  • 14. Ритм текста Текст должен постоянно держать читателя в тонусе. Вызывать образы. Ощущения. Вести читающего по авторской линии и делать неожиданные повороты. Захватывать его внимание. С другой стороны, если использовать длинные сложноподчиненные предложения, деепричастные обороты и высокую долю слов с большим числом слогов, вероятно, читатель к концу предложения забудет с чего оно начиналось.
  • 15. Ритм текста – метрики? Чередование предложений разной длины Короткие: до 4 слов Средние: 5-7 слов Длинные: 7-10 слов Совсем длинные предложения резко снижают читаемость текста.
  • 16. Спам или не спам? Хочешь, чтобы тебя оценили – будь Спамные тексты. Сегодня, когда во всем цивилизованном мире нелегальное распространение спамные тексты преследуется чуть ли не серьезнее, чем торговля наркотиками, по-настоящему удивительно слышать слова благодарности пиратам от... Спамные тексты. Любая подобная беседа должна начинаться с маркетинговых исследований. Помимо всего прочего, необходимо определить характеристики выбранного сегмента, в данном случае, Спамные тексты. Спамные тексты.
  • 17. Примеры спам-метрик - Доля/дисперсия по частям речи - Доля/дисперсия по длине слов (+части речи) - Доля/дисперсия по длинам предложений - Ципф по частям речи - Сжимаемость текста - LDA-based: topic diversity, 𝜒2 LDA score
  • 18. Что важно понимать • Все метрики обладают плохой точностью и/или полнотой • There is no silver bullet • Оценка спам/не спам – результат ML
  • 19. Что это значит? Нужно подгонять по ципфу.. Тошнотность большая.. Дисперсию длин предложений подтянуть..
  • 21. Баден-баден Что мы про него знаем? • Это документная санкция • Действует не на все запросы документа • Встроена в алгоритм ранжирования