Описание методики контент-анализа

Программы контент-анализа текста для определения соционического ТИМа создавались социониками и ранее, но "Типодром" - первый проект, который воплотил этот способ типирования в виде онлайн-сервиса, сделав его легкодоступным для всех людей.

Методика

Есть разные методики контент-анализа. В этом сервисе сейчас используется метод частотного анализа слов. Т.е. программа подсчитывает частоты слов в тексте и оценивает их схожесть с эталонными частотами ТИМов.

Настройка

Для обучения программы (т.е. для вычисления эталонных частот) использовались сообщения с соционических форумов socionik.com и socionik-light.com. Среди пользователей этих форумов было отобрано более 1000 человек, имеющих более-менее достоверный ТИМ и написавших больше всех сообщений. Этим людям принадлежит больше половины сообщений этих форумов, что составляет более 100 миллионов знаков чистого (без цитат) текста. Это примерно 30 увесистых романов "Война и мир" Толстого. Такого объема текста достаточно для хорошего обучения программы.

Также для более универсальной настройки использовались тексты нефорумной стилистики (блоги, статьи, художественная литература), присылаемые социониками в ответ на призыв сдавать тексты (прием текстов продолжается, участвуйте!).

Достоинства методики

Она проста, поэтому соционики любят воплощать ее в виде программы.

Она проста, поэтому быстро работает.

Недостатки методики

Одно и то же слово в разных ситуациях может иметь разные смыслы. Поэтому подсчет лишь частот слов не дает точной картины личности автора. За это метод частотного анализа слов некоторые соционики критикуют и считают малодостоверным.

Точность

Этот сервис контент-анализа участвовал в эксперименте по типированию, проведенном "Клубом Квадра". И показал там точность типирования на уровне среднего человека-типировщика.

И это при том, что программа типирует в тысячу раз быстрее человека.

Перспективы

Сервис контент-анализа планируется совершенствовать и дальше:

  • перейти от анализа частот слов к анализу более сложных элементов текста, что позволит еще больше увеличить точность типирования;
  • создать сервис для определения психоежных типов.
Ссылающаяся страница: 
Соционический контент-анализ