Эти приемы я буду демонстрировать на подопытной капче. В качестве подопытной я выбрал капчу некоего Rafontes на которую я набрел когда искал материалы для предыдущей статьи .

Пример сгенерированной капчи:

Фон мне пришлось использовать другой, так как автор не выложил оригинальный (или я не нашел), но это не повлияет на результат.

Препроцесс

В результате этого действия мы получим масимально обрезанный участок монохромного изображения с текстом.

В первую очередь нам надо отделить фон от текста . Анализируем картинку и код генерации изображения. Налицо первые ошибки:

Используется один цвет для всего теста с кодом
Цвет для текста генерируется в диапазоне rand(0, 200), 0, rand(0, 200), для R G B соответственно (достаточно выделить цвета только в этом диапазоне)
Фон с большим количеством разных цветов (не сможет повлиять на статистику самого часто используемого цвета)

Теперь на основе этих фактов анализируем цвет каждого пикселя во всем изображении и выделяем самый часто-используемый. Получился 8C0074 (в hex-виде). Задаем от него небольшую погрешность и выделяем этот цвет и немного похожие на него с учетом погрешности. Все выделенные закрашиваем черным, остальные белым. Получается такая картинка:

Как видите, мы получили текст, практически без искажений. Правда осталась одна линия, но у нас хитрый алгоритм обрезки (о нем ниже), на который эта линия повлиять не сможет.

Теперь выделяем участок с кодом .
Так как наш текст это самое темное пятно, то и пытаемся алгоритмически найти это пятно. Сначала определяем границы по горизонтали:

Теперь определяем границы по вертикали:

Линия осталась тут потому что то тот участок до сих пор воспринимается функцией как очень темный участок. Но теперь на основе этих границ уточняем их по второму кругу, по горизонтали:

А почему теперь эта линия убралась спросите вы? Потому что теперь анализировалось меньше «столбцов пикселей» и при анализе алгоритмом выявилось что в данном участке слишком много столбцов с одним черным пикселем, а следовательно это шум. Теперь уточняем границу по вертикали:

Так как область определения стала меньше то, теперь тот та линия что была шумом стала недостаточно темным пятном и была удаленна совсем. Вот мы и получили участок с текстом. Конечно этот алгоритм иногда не совсем верно выделяет нужную область. Но по моим тестам число НЕверных определений не превышает 5%, чем собственно можно пренебречь.

Сегментация

Теперь наша задача разбить полученное изображение на отдельные участки с символами.

Конечно можно расчитывать, искать границы символов, и тд. Но если опять проанализировать код генерации, то можно найти еще одну ошибку.

Отступ между каждым символом всегда равен 15 пикселям

Конечно иногда из за размера символов они выходять за рамки пятнадцати пикселей, тогда приходится откусывать от соседнего символа еще один-два пикселя. Но это не критично. Вообщем разбиваем картинку:

Теперь как мы видим вокруг некоторых символов есть пустая область. А нам все таки нужен именно сам символ. Применяем функцию обрезки для каждого символа, и полученные изображения вписываем в прямоугольники размером 17×27:

Именно такие изображения по отдельности будут подаваться на распознавание.

Распознавание

Распознавание мы будет производить БЕЗ всяких новомодных нейронных сетей. Почему? Решающую роль сыграло то что, нет ни одной достойной библиотеки под винду. Пользоваться будем обычным распознаванием по маскам символов.

Для этого мы, имея доступ к исходным кодам, нагенерируем кучу черно-белых картинок для каждого символа с разными углами поворотов (от двух до четырех градусов), и разными размерами шрифта (от 20pt до 30pt). Каждую полученную картинку, как вы догадались, вписываем в прямоугольник размером 17×27. Каждое полученное изображение называется маской.

Для каждой буквы я нагенерировал по 10-15 масок. Впринципе этого достаточно, но если увеличить количество масок, то можно увеличить процент распознавания.

Вообщем все изображения подающиеся на вход, сравниваются с масками, и алгоритм определяет какая маска больше всего соответствует нашему изображению, на основе этого делая вывод о том какой символ написан на картинке.

Результаты

Для теста я получил с помощью генерации картинки и ее разбиения на символы 200 зашумленных символов. И програмно запустил тест. И внимание!
Итог: Удачных: 172 Ошибок: 28 Процент: 86%
То есть каждый символ на капче будет распознан успешно с вероятностью в 86% !

Немного математики. Посчитаем процент вероятности успешного распознавания капчи:
Для 4-символьных капч: 0.86^4=54%
Для 5-символьных капч: 0.86^5=47%

В среднем каждая вторая капча будет успешно распознанна.

Если учесть что на каждую капчу приходится около 1 секунды, а 2 секунды в среднем будет приходится на успешное распознавание. То это очень отличный результат.

Исходники

Скрипт сам генерирует, и сам же распознает капчу. Пример работы скрипта на картинке приведенной в качестве примера автором капчи:

(Картинка кликабельна)

Самое ожидаемое и масштабное обновление этого года: обновлены механизмы обработки новых версий форумных и блог платформ, база ответов на антибот-вопросы (тексткапчи) увеличена на 60.000 новых тексткапч, благодаря чему эффективность XRumer выросла в десятки раз, что наглядно показали сравнительные тесты. Обновление включает в себя свыше 100 улучшений и исправлений.

20 августа 2019

XRumer 18.0 — 18.0.1

Масштабное обновление программы XRumer, в котором значительно эволюционировала логика регистрации профилей на самых разных платформах, улучшена работа с платформами Bitrix, Joomla, WordPress Forum, MyBB, VBulletin, XenForo, добавлен механизм модификации отправляемого текста в зависимости от тематики сайта-реципиента (новый макрос #theme), обновлены и увеличены прилагаемые базы - общий объём превысил 8 миллионов сайтов, улучшена работа с HTTPS и Google ReCaptcha-2, и многое другое...

26 января 2019

XRumer 16.0.18 + SocPlugin 4.0.63

Прилагаемые базы проверены и обновлены, общий объём увеличен до 8 (!) миллионов поддерживаемых ресурсов — блогов, форумов, гостевых книг, досок, BBS, CMS, и прочих платформ. База известных тексткапч увеличена более чем на 2000 новых ответов на антибот-вопросы и теперь составляет 324000 тексткапч. Существенно повышена стабильность и скорость работы, оптимизирован расход ресурсов: потолок достигает до 500 и более потоков (в зависимости от режима работы). Улучшена работа с HTTPS. И основное, ключевое улучшение: многократно повышена эффективность рассылок личных сообщений — режим MassPM. Плюс, многие другие улучшения и исправления:)

14 сентября 2018

Необходимо включить JavaScript для того, чтобы сайт работал корректно

Распознавание капчи / автоматический ввод капчи

Наверняка уже почти каждый сталкивался с надписью при регистрации на каком-либо сайте: "Введите число, которое Вы видите" и искаженная картинка. Это капча (CAPTCHA, пиктокод, тикет) — графическая защита, предназначенная для различения людей и программ.

В процессе своей работы программа XRumer способна распознавать капчи, автоматически скачивая картинку и расшифровывая её. Как показала практика, на расшифровку такого рода капчей уходит не более 1-1,5 секунды, а обычно и того меньше на компьютере с процессором с рабочей частотой 1 ГГц. Траффика на это уходит совсем немного, т.к. такие картинки "весят" не более 3-5 Кб.

Но и это ещё не всё! Новый XRumer 19.0.3 Elite теперь способен распознавать и обходить даже такие виды капчи, как ReCaptcha и DLE! А общий список распознаваемых типов увеличился более чем вдвое по сравнению с XRumer 5.0:

И это далеко не все виды, здесь не приведены совсем тривиальные капчи, которые использовались в ранних версиях форумов и до сих пор остались на многих из них. XRumer автоматически распознает тип капчи и использует соответствующий для этого типа алгоритм.

В предыдущих видео мы научились создавать . При этом, капча вводилась вручную. Сейчас мы покажем, как автоматизировать процесс обработки капчи с помощью сервиса Antigate.

Antigate — это сервис для автоматического распознавания капчи. Если мы его подключаем к сценарию, то при нахождении капчи Datacol не будет выдавать ее для ввода пользователю, а отправит в сервис для распознавания. Обычно Antigate обрабатывает изображение от 7 до 15 секунд, после чего возвращает результат обработки.

Не хотите каждый раз вводить капчу вручную? Посмотрев данную видеоинструкцию вы сможете автоматизировать процесс обработки капчи и значительно ускорить скорость парсинга.

Напомним, что в Datacol Вы так-же найдете уже готовые парсера:

Изменим ранее созданный сценарий, чтобы подключить к нему Antigate. Выбираем действие обработки капчи. Устанавливаем Метод распознавания Antigate. Теперь очень важно задать свойства текущей капчи. Благодаря этому процесс автоматического распознавания будет явно быстрее, а главное корректнее. Капча у нас русская. Кроме того, капча чувствительна к регистру символов.

Теперь осталось ввести ключ от API сервиса антигейт. Он задается в параметре сценария antigate_key. Напомним, этот параметр, был автоматически создан при добавлении стандартного блока обработки капчи. Ключ от сервиса можно получить в пользовательской панели сервиса.

Рекомендую увеличить настройку максимальная ставка хотя бы до 10$ за 1000 распознаваний. Подробнее об этой и других настройках сервиса можно почитать в пользовательской панели. Ну и не забудьте пополнить свой баланс.

Осталось протестировать созданный сценарий. Напомню, что для распознавания каптчи сервису потребуется какое то время. Все отработало отлично! Обратите внимание, что в некоторых случаях сервис может некорректно распознать капчу. Однако благодаря условия повторения, которые мы настроили в сценарии, распознавание для каждой страницы может запускаться до 3 раз.

Сохраним сценарий. Запустим кампанию. Видим, что капча была автоматически обработана и мы получили нужные данные. Заметим, что на большинстве сайтов после ввода правильной капчи, она не появляется еще длительное время.

Для большего заработка на рукапче, скачайте специальную программу, которая позволит решать не только обычные капчи, но и дорогие "рекапчи галочкой".
Многие работники работают исключительно через программу.
При работе с программой рекомендуется авторизоваться в Gmail через программу (для этого нужно нажать на конвертик или кнопку "перейти на GMAIL.COM). С некоторой вероятностью после этого Вы будете получать более лёгкие рекапчи.

Устаревшая версии программы:
Для Windows 7, 8, 10:
Для Windows XP:
Для iOS, MacOS, *nix: разработка пока не планируется

Картинки очень медленно появляются
К сожалению, таков алгоритм рекапчи, исправить это невозможно

У меня не работает программа
К сожалению, мы не можем помочь. Ждите следующую версию программы

Когда приходит рекапча я выбираю верную картинку, а на её место появляется новая, что мне делать?
В задании такой рекапчи Вам написано: выберайте нужные картинки, пока их не останется, после чего нажмите "отправить". Т.е. вам нужно выбрать все подходящие картинки и нажать кнопку "отправить". Если вы сделали всё верно - рекапча засчитает ответ. Если сделали не верно - даст Вам новую капчу.

Я решил рекапчу и тут же получил новую, а ответ мне не засчитали
Рекапча может выдавать несколько капчей подряд, если подозревает что Вы робот или если Вы плохо решаете капчи (ошибаетесь и выбираете не те квадраты), мы оплатим решение, когда рекапча засчитает ответ. Дабы рекапча меньше думала, что Вы робот, нажмите кнопку "Авторизоваться в GMAIL" и войдите там в свой Gmail.com аккаунт. Желательно, что бы это был ваш обычный gmail аккаунт, которым Вы пользуетесь. Мы не получаем доступа к Вашему GMAIL аккаунту.

Я заработал в программе 12 рублей, а когда захожу в аккаунт через браузер, то на балансе их нет, почему?
Потому что в программе Вы работали с одного аккаунта, а через браузер вошли в другой аккаунт.

На сегодняшний день обход ввода капчи с помощью специальных программ превратился в целую индустрию заработка - многие сервисы предлагают свои услуги , другие выпускают автоматические программы для ввода капчи, однако все еще человек справляется с распознанием капчей намного быстрее и точнее, чем бот. Поэтому если вам необходимо лучшее решение для обхода капчи, в этой статье вы найдете ссылки на несколько сервисов для массового и эффективного ввода капчи.

Когда и как можно воспользоваться автоматическим вводом капчи?

Капча является одним из самых популярных в интернете способов проверки пользователя, который позволяет отличить программу-бота от настоящего человека.

Если вы лишь изредка сталкиваетесь с капчами, вам не потребуется решение для обхода этой проверки в интернете. Однако когда требуется массовое распространение рекламы, множественная регистрация на сайтах или другие действия, которые обычно блокируются сайтами с помощью проверки-капчи, в этом случае просто не обойтись без программы, предлагающей автоматическое распознавание капчи.

Сегодня используется два основных способа обхода капчи с помощью программ:

это полностью автоматизированные решения-боты;
полуавтоматические программы, в которых непосредственно распознание доверяется человеку

В целом, иногда полезными оказываются полностью автоматизированные программы, при работе которых распознание обеспечивает специальный бот. Распознание происходит либо благодаря непосредственной расшифровке символов, замаскированных на рисунке капчи, либо с помощью взлома сайта или подбора правильных вариантов ответа из базы данных. Впрочем, автоматические программы-боты не гарантируют 100%-ное распознание и даже сталкиваясь с несложными капчами обеспечивают распознание на уровне 70-75%.

Как работают программы по вводу капчи?

Самые лучшие на сегодняшний день программы по распознанию капчи - полуавтоматические , для работы которых используется специальный скрипт. Для их работы необходимо зарегистрироваться на сайте-поставщике услуг, определить задачу, например это скрипт массовой регистрации на определенном сайте или распространение заданной информации в интернете, после чего программа запускается и начинает свою работу. Она является полуавтоматической, потому что все капчи проходят через работников сайта, которые вручную распознают изображения. Однако сам процесс выполнения заданной задачи программой выполняется автоматически .

На распознание капчи обычно уходит около 15 секунд. Сразу после распознания программа направляет человеку следующую капчу и процесс повторяется, пока не достигается нужное количество распознаний. Боты не способны выполнить такую задачу столь быстро и эффективно.

Смотрите видео - Как ZennoPoster 5 может распознавать сложные капчи

Антикапча-сервис ручного распознавания Над распознаванием капчи работают живые люди, поэтому сервису подвластно все, что способен распознать человек:

текстовые капчи, графические капчи: ReCaptcha V2, KeyCaptcha, FunCaptcha и др.

Зарегистрироваться>>>

Какие сервисы предлагают лучшие решения для обхода капчи?

В интернете существует множество сервисов, предлагающие программы, использующие эффективный скрипт для обхода капчи.

Лучшие из них:

Rucaptcha.com ;
Anti-captcha.com;
MegaTypers.com.

Все они предлагают качественные услуги по автоматическому вводу капчи. Новейший скрипт позволяет вводить капчи еще быстрее, а система оплаты за работу скрипта учитывает качество распознания, то есть сложные капчи для распознания могут стоит 10 копеек, а самые элементарные всего 1 копейку. Помните, что программы по вводу капчи не могут обойтись одними лишь скриптами, все капчи распознают люди, поэтому если решите использовать один из предложенных сервисов, учтите человеческий фактор, вовремя оплачивая услуги сервиса.