Алгоритм проверки достоверности текста
Новый алгоритм, разработанный инженерами Google, автоматически извлекает факты с web-страниц, определяет фактологические ошибки в тексте и вычисляет общий уровень достоверности текста. Данная оценка будет напрямую влиять на место сайта в поисковой выдаче. Таким образом, Google хочет задвинуть подальше «жёлтые» новостные сайты в пользу более надёжных источников информации.
Извлечение фактов из текста происходит с использованием 16 различных методов извлечения триад данных – субъект, утверждение, объект – с web-страниц. Субъект и утверждение принадлежат к множеству из открытой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой. Если триада в полном составе присутствует в базе, материал считается правдивым. Если же какая-то часть триады отсутствует в Freebase – достоверность материала ставится под вопрос.
Технологию опробовали на выборке в 119 млн страниц и 5,6 млн сайтов, которые сравнили с базой из 2,9 млрд фактов, собранных в интернете. Проверка продемонстрировала, что алгоритм практически безупречно отличает факты от вымысла. Предполагается, что технология будет внедряться в поисковую систему постепенно – в данный момент инженеры говорят о необходимости её дальнейшего совершенствования.
Извлечение фактов из текста происходит с использованием 16 различных методов извлечения триад данных – субъект, утверждение, объект – с web-страниц. Субъект и утверждение принадлежат к множеству из открытой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой. Если триада в полном составе присутствует в базе, материал считается правдивым. Если же какая-то часть триады отсутствует в Freebase – достоверность материала ставится под вопрос.
Технологию опробовали на выборке в 119 млн страниц и 5,6 млн сайтов, которые сравнили с базой из 2,9 млрд фактов, собранных в интернете. Проверка продемонстрировала, что алгоритм практически безупречно отличает факты от вымысла. Предполагается, что технология будет внедряться в поисковую систему постепенно – в данный момент инженеры говорят о необходимости её дальнейшего совершенствования.