Исправление орфографии в Python с помощью TextBlob

Первая программа, реализующая проверку орфографии, была написана в 1971 году для DEC PDP-10. Названный SPELL, он был способен выполнять только простые сравнения слов и обнаруживать различия в одной или двух буквах. По мере развития аппаратного и программного обеспечения появляются и средства проверки орфографии. Современные средства проверки правописания способны обрабатывать морфологию и использовать статистику для улучшения предложений.

Python предлагает множество модулей для этих целей, что делает написание простой проверки орфографии легким 20-минутным испытанием.

Одной из этих библиотек является TextBlob, которая используется для обработки естественного языка и предоставляет интуитивно понятный API для работы.

В этой статье мы рассмотрим, как реализовать исправление орфографии в Python с помощью TextBlob.

Установка

Во-первых, нам нужно установить TextBlob, поскольку он не предустановлен. Откройте консоль и установите его с помощью pip:

Это должно установить все, что нам нужно для этого проекта. По окончании установки вывод консоли должен включать что-то вроде:

TextBlob построен на основе NLTK, поэтому он также поставляется с установкой.

Функция correct()

Кроме того, мы добавим несколько умышленных орфографических ошибок:

Это полный орфографических ошибок текст, почти в каждом слове. Давайте напишем простой скрипт, используя TextBlob, чтобы исправить эти ошибки и распечатать их обратно в консоль:

Затем мы запускаем функцию correct() в этом экземпляре для исправления орфографии.

После запуска приведенного выше сценария вы должны получить примерно такой результат:

Насколько верна коррекция орфографии TextBlob?

Следующий фрагмент кода представляет собой простой сценарий, который проверяет, насколько хорошо TextBlob исправляет ошибки, на основе этого примера:

Теперь, используя эти две функции, давайте проведем быстрый анализ:

Запустив его, вы распечатаете:

Как мы видим, методу correct удалось уменьшить процент орфографических ошибок с 60,6% до 15,9%, что довольно неплохо, однако есть небольшая загвоздка. Он исправил 54,7% слов, так почему все еще остается 15,9% ошибок?

Не существует идеального корректора орфографии, потому что большая часть разговорной речи зависит от контекста, так что имейте это в виду. В большинстве случаев ошибок гораздо меньше, чем в нашем примере, поэтому TextBlob должен работать достаточно хорошо для обычного пользователя.

Обучающий TextBlob с настраиваемыми наборами данных

Что, если вы хотите проверить орфографию на другом языке, который не поддерживается TextBlob из коробки? Или, может быть, вы хотите быть немного точнее? Что ж, может быть способ добиться этого. Все сводится к тому, как работает проверка орфографии в TextBlob.

Попробуем сделать такой для нашего примера Дарвина. Мы будем использовать все слова из «Происхождения видов» для обучения. Вы можете использовать любой текст, просто убедитесь, что в нем достаточно слов, имеющих отношение к тексту, который вы хотите исправить.

В нашем случае остальная часть книги предоставит отличный контекст и дополнительную информацию, которая потребуется TextBlob для более точного исправления.

Обратите внимание, что это может быть медленнее, поэтому проверяйте орфографию слово за словом, так как сброс огромных объемов данных может привести к сбою:

И теперь это приведет к:

Это исправляет примерно 2 из 3 слов с ошибками, что довольно хорошо, учитывая запуск без особого контекста.

Исправление ошибок в Chrome: лучшие расширения

Каждый день мы пишем много сообщений, электронных писем и текстов. Хотя все они выполняют свою функцию общения друг с другом, иногда мы совершаем опечатками которые затрудняют чтение и, таким образом, понимают его значение.

Сегодня мы посмотрим, какие инструменты Google Chrome предлагает решить эту проблему как изначально, так и с помощью расширений. Кроме того, по конкретным вопросам мы предложим вам несколько очень полезных словарей.

Исправление ошибок в Chrome: лучшие расширения

Активируйте проверку Google Chrome

Чтобы начать решать наши проблемы с опечатками мы должны запустить проверку орфографии, которая установлена ​​по умолчанию в браузере Google. Опция появляется в меню конфигурации.

После настройки мы выбираем Расширенную конфигурацию, между При запуске и Расширениями.

И из открывшегося меню мы выбираем первый вариант: «языки»

Появившееся меню включает в себя две опции. С одной стороны, у нас есть базовая программа проверки правописания Chrome, которая исправит орфографические ошибки используя ресурсы, включенные в браузер.

Если мы хотим более эффективную коррекцию, мы можем активировать опцию » улучшена проверка орфографии «. Благодаря этой утилите Google активирует проверку орфографии, которую он использует для своих поисков, и работа браузера даст лучший результат. Однако наши тексты всегда будут отправляться в Google, что может повлиять на нашу конфиденциальность.

Независимо от того, выбираем мы базовый или улучшенный вариант, Chrome позволяет нам настраивать проверку орфографии. Вы можете увидеть это в конце предыдущего меню.

Благодаря этой возможности мы можем вводить те слова, которые либо из-за технических сложностей, либо ссуд с других языков, либо по другим причинам не появляются в ресурсах Google. Кроме того, Google предложит нам список этих сохраненных слов, чтобы мы могли прочитать, изменить или удалить их.

Корректор ортографического агрегара палабра

Как только мы добавим новые слова в программу проверки, мы можем снова сделать ошибку, и нам нужно будет их удалить. Это очень просто, просто выберите крестик в правом столбце.

Корректор персонализадо устранения палабры

Еще один шаг, расширения

Теперь у нас есть Google Chrome проверка орфографии Установлено, будь то простой или расширенный, нам может потребоваться более детальное исправление или поиск значения определенных слов. Для тех нужд, которые наш браузер не покрывает, мы предложим вам четыре бесплатных расширения, которые вы можете загрузить из Интернет-магазина Chrome.

Редактор Microsoft, наиболее полный вариант

Была основана Microsoft Ассистент не только проверяет наши орфография но также обратите внимание на грамматику и пунктуацию. После активации он будет просматривать тексты, которые мы пишем на любом веб-сайте, будь то Gmail, Facebook или LinkedIn. Кроме того, он позволяет вам изменять язык, если мы пишем тексты на других языках, поскольку он проверяет орфографию более чем на 80 и предлагает свои расширенные утилиты на более чем 20 языках.

Источники:

https://dev-gang. ru/article/ispravlenie-orfografii-v-python-s-pomosczu-textblob-t4oqnf1x1i/

https://itigic. com/ru/fix-misspellings-in-chrome-best-extensions/

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: