Megaupload captcha database.

[UPDATE]: Comprobad el Update Manager, porque ha habido una actualizacion del servicio Megaupload.

Como bien sabréis Megaupload ha cambiado el captcha varias veces. La primera fue rápido arreglarlo, pero esta ultima con los caracteres girados, ha sido imposible usar el OCR para resolverlo.

Después de mas de una semana probando filtros de imagen e intentando implementar un algoritmo para resolver los nuevos captchas, tuve que darme por vencido. Así que he pasado a implementar una solución fácil pero muy poco eficiente, crear una base de datos online con todos los captchas de Megaupload.
Al parecer los gestores de descarga importantes implementaron esta solución desde un principio y como tienen una comunidad de usuarios grande ya es funcional.

Lo único que cambia ahora al usar Megaupload anónimo es que a veces se deberá introducir el captcha manualmente, pero solo si este no esta en la base de datos. Al introducirlo, este se guardara automaticamente en la base de datos para poder ser usado en las siguientes peticiones.

2009-03-03-210729_1024x600_scrot

¡Necesitamos tu colaboración introduciendo captchas!

Para los usuarios que esto les parezca una molestia tienen la opción de usar Mediafire. Este servicio no pone limites de descarga ni en tiempo ni en descargas simultaneas, por lo que decidí implementarlo.

Todo este lío con Megaupload me ha hecho reflexionar sobre lo absurdo de tener que sacar nuevas versiones por problemas con los servicios y no cuando se realizan cambios significativos en la aplicación. Update Manager soluciona este problema. En preferencias, pestaña de servicios podréis buscar actualizaciones y nuevos servicios que se descargaran automaticamente.

2009-03-03-210652_1024x600_scrot

Finalmente, indicaros que podéis descargar la versión 0.3.5.

Un saludo, Crak.

36 comments so far

  1. rui on

    Me parece perfecto el sistema para Megaupload, y me gusta mucho como avanza el proyecto.
    Felicitaciones!

    Saludos.

  2. Pez on

    Perfecto, ahora puedo volver a usar Tucan, la verdad que no me puedo acostumbrar a otro gestor de descargas en Linux. Mientras no funcionaba Tucan con Megaupload estuve usando FreeRapid y la verdad que no quiero volver a usarlo.
    ¡Gran proyecto!

  3. netamego on

    Seguro que me estoy equivocando (no se mucho de programación),
    pero me ha parecido ver que la base de datos de captchas se hace
    con el “hash” de la url de descarga del gif, por ejemplo:
    De la url:

    Se utiliza como hash o referenciado único
    38fab15138e5d5c8
    He observado que los gifs se repiten mucho y que un solo gif
    tiene múltiples “links”, por lo que la base de datos habría
    que hacerla con hash md5 de las imágenes propiamente dichas.
    Por ejemplo:


    Son el mismo captcha y si tienen un hash md5 único que es
    1dae5bc728b1de9b99cf3149be9ff2e3

  4. tucaneando on

    Si, si esa era la idea desde un principio, una clave univoca, pero al implementarlo se me paso.

    Actualizado el plugin, puedes usar Update Manager para descargar la actualizacion.

    Un saludo, Crak.

  5. genkou on

    Gracias Crak,

    Coincido con Pez; Tucan me encanta, es ligero, funcional, se integra perfectamente en mi gnome, y el problema con megaupload me hizo volver a probar otros gestores pero definitivamente ninguno como el tuyo (al final me decidí a parar de descargar hasta que arreglases el problema, que sabría que sería en breve :)).

    De nuevo, muchísimas gracias por tu trabajo y aquí tienes a un usuario más, contento de poder aportar captchas a la base de datos.

    Un saludo.

  6. viodream on

    Me ha encantado el programa! Yo tambien colaborare con lo de captchas. Se podria hacer que en al añadir descargas no tenga que comprobarlas sino que empezara a bajarlas y salte algo si no existe el fichero?

    Gracias por el trabajo, una gozada la verdad.

  7. Manuel on

    Un detalle sobre el funcionamiento de las descargas de Gigasize:

    Le paso un link al “comprobar enlaces”, le doy a comprobar, y me lo reconoce como gigasize, pero me sale un iconito de advertencia… al final no descarga nada ni añade la desarga…

    El link es

    http://www.gigasize.com/get.php/3197138399/%5BNK%5D_Full_Metal_Alchemist_-_Especial_Reflexiones_-_%5BSoulSociety%5D.avi

    Saludos, gracias

  8. Santa on

    Ya era hora que alguien hiciera un programa como este!

    Ya que las otras opciones, o bien han dejado de funcionar como resultado de los últimos cambios en megaupload, o bien la instalación es muy liada y al final no se integran tan bien como Tucan.

    Felicidades por el proyecto!!

  9. a-slack on

    Manuel el link de gigasize que has puesto ahora mismo ya no existe, con Tucan no pasa el “Check Links” y si lo abres desde un navegador entre otras cosas sale:

    —–
    Error en la descarga

    El archivo ha sido borrado

    El archivo que está buscando no está disponible.Esto puede deberse a una de las razones siguientes:

    * el archivo ha pasado un largo periodo de inactividad, lo que dio lugar a que fuera borrado.
    * La URL que recibió no es válida.
    —–

    Puede que estuviera en proceso de borrado justo en el momento que le diste a “Chek Links”.

  10. mudlet on

    It would be nice if you could cancel tucan’s update manager check, because while it’s checking it completely freezes and ‘Cancel’ doesn’t work.

    There also will be confusion between Ubuntus Update Manager and Tucans…

  11. vimacoa on

    Pensaste en ver el codigo de jdownloader?
    Por que tucan no usa twisted en vez de usar un hilo aparte para bajar los archivos?

  12. soullost on

    ¿Pondrás el ebuild para gentoo?. Lo he buscado por https://forja.rediris.es/plugins/scmsvn/viewcvs.php/trunk/packages/gentoo/?root=cusl3-tucan&pathrev=470 y no aparece.

    Saludos.

  13. betic0 on

    Soullost ya existe un ebuild para gento, lo tienes en :
    https://forja.rediris.es/svn/cusl3-tucan/trunk/packages/gentoo/tucan-0.3.5.ebuild

    Saludos.

  14. Poseidon on

    Hace algún tiempo hice un programa con la misma pero mucho más sencillo. Ahora estoy en problemas por esto de las letras giradas y superpuestas. Me gustaría ayudar a crear la base de datos, para el beneficio de todos. ¿Podrías decirme como consultar y añadir captchas?

    Saludos.

  15. a-slack on

    Poseidon el tarball de la última versión estable (http://forja.rediris.es/frs/download.php/1135/tucan-0.3.5.tar.gz) dentro del directorio proof_of_concept/ tiene un script que se llama “megaupload_query.py”, sirve para poder resolver captchas sin tener que hacer ninguna descarga, sin tener que ejecutar Tucan.

    También se puede descargar online:
    https://forja.rediris.es/svn/cusl3-tucan/trunk/proof_of_concept/megaupload_query.py

    se ejecuta con
    $ python megaupload_query.py
    ó
    $ python proof_of_concept/megaupload_query.py

    Al resolver los captchas se van añadiendo automáticamente a la base de datos online, es mas o menos la misma “ventana” que sale actualmente en Tucan al usarlo con megaupload anónimo.

  16. Kitt on

    Llevo usando Tucan un tiempo, y la verdad me parece un muy buen programa. Mi problema viene desde que Megaupload cambió el captcha y toda la historia, me bajé la versión 0.3.5 y ahora se queda “pausada” esperando a descargar. He probado a ejecutar el update manager (tanto desde el programa como por terminal) y me tira este error:
    Traceback (most recent call last):
    File “/home/kitt/tucan-0.3.5/update_manager.py”, line 172, in
    x = UpdateManager(Config())
    TypeError: __init__() takes exactly 3 arguments (2 given)

    Supongo que será este el motivo por el que no arrancan las descargas. Mi sistema operativo es Mandriva One 2009 con Gnome 2.24, por si esto influyera de alguna manera.

    Saludos.

  17. David Prieto on

    Crak, ¿puedes aclararme una duda? Al introducir un captcha éste se guarda en una base de datos, pero ¿es una base local, en mi PC, con las captchas que YO he introducido? ¿O hay una base central con todas las que hemos introducido todos los usuarios? Si por ejemplo el usuario Kitt introduce una captcha, y después me sale la misma a mí, ¿tendré que introducirla?

    Otra pregunta: ¿Sería posible que si sale el diálogo para introducir la captcha, y no introduzco ninguna en un tiempo prudencial (por ejemplo porque no estoy delante del PC) Tucan vuelva a cargar una captcha diferente? De ese modo, si da con una que ya está en la base de datos, puede empezar a descargar en vez de quedarse horas esperando a que llegue yo.

  18. tucaneando on

    La base de datos es ONLINE, por eso tarda un poco antes de mostrar la ventana y un poco despues de introducir el captcha, porque tiene que acceder al servidor.

    Eso esta implementado, cuando pasa un minuto, el captcha se cancela y pasa a la siguiente descarga para que descargas de otros servicios no se vean afectadas. Cuando termine de procesar el resto volvera con la que se cancelo.

    Un saludo, Crak.

  19. RiverDD on

    Has pensado utilizar redes neuronales para resolver el captcha?

    Hay otro proyecto que participa en el concurso que se llama libgann. Es una biblioteca para trabajar con redes neuronales.
    Aquí tienes un video donde se ve que trabaja bien reconociendo caracteres.
    http://libgann.wordpress.com/2008/12/04/video-de-calculadora-rpn-implementada-sobre-libgann/

    Podría pedirle ayuda al creador del proyecto. Creo que si es posible dividir el gif en los cuatro caracteres que lo forman (aunque sea con cierto margen de error) la red podría obtener buenos resultados, sobre todo después de entrenarlo con los 10.000 captchas que ya tienes.

    Otra ventaja es que la solución sería un poco más genérica que una base de datos de captchas, ya que si en algún momento pasan a generar los captchas de forma dinámica en lugar de cargar unos ya generados la solución actual se iría al traste.

    Por último felicitar a los dos proyectos, Tucan y Libgann. Muy buenos los dos.

  20. a-slack on

    RiverDD: teniendo en cuenta que megaupload esta cambiando a intervalos muy cortos de tiempo el captcha cualquier solución (OCR ó bbdd ó redes neuronales ó …) se rompe en esos cambios.

    OCR: cambios en la imagen (cambiando el tipo de letra ó girando los caracteres ó solapandolos ó combinaciones de todas estas) implica tener que cambiar los filtros/transformaciones que se hacen a la imagen para después echarsela de comer al OCR. Cualquier cambio en la imagen hace inutil los filtros/transformaciones que se hacen a la imagen hasta ese momento (y los cambios son poco menos que impredecibles).
    —–
    bbdd: lo que se estaba almacenando era principalmente los pares: hash de la imagen solución asociada a la imagen (no se estaban almacenando imagenes por lo que no se podria usar la bbdd para otra posible solución como redes neuronales o lo que sea). Cualquier cambio en la imagen (bien en contenido o bien en las dimensiones) hace que el hash de la imagen asociado a una misma solución del captcha cambie lo que implica que un cambio en la imagen hace inútil los datos almacenas en la bbdd hasta ese momento (hay que empezar otra vez la bbdd de cero).
    —–
    redes neuronales: esta tipo de solución no se ha planteado aun en el proyecto Tucan, a lo mejor puede solucionar el problema pero es muy complicado “entrenar” la red neuronal por todo lo comentado en los otros tipos de soluciones que si se han probado (OCR y bbdd). Si la imagen del captcha cambia (y encima con los intervalos de tiempo en los que esta cambiando) hace inutil el “entrenamiento” de la red neuronal hasta ese momento, habria que volver a “entrenar” la red de cero.

    La “solución” pasa por hacer una especie de boicot megaupload, en su dia rapidshare estaba a la cabeza en este tipo de servicios, cuando empezaron a tener muchos usuarios (premium y anónimos) empezaron a dificultar mucho el captcha para los usuarios anónimos (poniendo gatitos con las letras y cosas asi) y con el tiempo abandonaron el captcha y frenan con tiempos. Cuando todo eso ocurrió con rapidshare la gente empezó a boicotear en cierto modo rapidshare y pasarse a otras soluciones como megaupload… bien pues a lo mejor ha llegado el momento de tener que empezar a usar otras soluciones distintas a megaupload (ya que pone tantas trabas a los usuarios anónimos) por ejemplo pasarse a mediafire.

  21. RiverDD on

    Parece que te han escuchado los de megaupload, jeje.

  22. mariano on

    Se podria implementar un migrador de la base de datos de jdownloader ya que ellos tienen una gran cantidad de captchas resultos. Lo que si me parece es que los de el megaupload cambian las tipografias no?.
    El grado de inclinacion de las letras es siempre el mismo?

  23. Antonio on

    Hola amigos de la web y de este magnifico programa.

    Ante todo les quiero decir que este programa aun no lo uso pero al porecer esta magnifico, sabes creo que este programa tambien le podran implematar un habiente web, creo que seria de gran utilidad

  24. maicho on

    Estimados:
    Yo actualmente utilizo Jdownloader y me ha ido muy bien, especialmente por que lo puedo utilizar tanto en window$ como en linux además soporta al rededor de 130 host con anticaptchas para la mayoría de ellos incluido MegaUpload. Lo otro, que es mejor aún, es que permiten utilizar softwares anticaptchas de otros sitios para complementar el software.

    Me gustaría saber que ventajas tiene este tucan para probarlo.

  25. MTG Cracked on

    Este programa es, sencillamente, increible. No solo me permite ahora bajar de megaupload automàticamente, sino que tambien me baja a una velocidad de 200 kb/s. En canvio si me lo bajo manualmente, me baja a 15 kb/s.

    Muy bueno el programa. Gran trabajo ! Sigue asi😉

  26. jasvazquez on

    Cuento con la versión 0.3.7 Alpha de Tucan pero a pesar de haber actualizado los plugins no hay forma de conseguir descargar de Megaupload.

    Se que es una “lata” tener que estar actualizando el programa cada vez que cambian el captcha pero ¿sabíais que es posible descargar de Megaupload sin tener que esperar?

    Parece increíble pero los chicos de MU han cometido, a mi modesto entender, una “pequeño” error😉

    ¿Alguna solución a los captchas?

    Gracias por tan fantástico programa

  27. a-slack on

    @jasvazquez: no has dicho que sistema operativo estas usando…

    En la versión de Windows el problema mas común es la instalación de Tucan en una ruta con espacios en blanco lo que hace que los servicios que tienen captcha no funcionen (el típico C:\Archivos de programa\Tucan\ no funciona).
    Tucan en Windows se debe instalar en una ruta _sin_ espacios en blanco (ejemplos: C:\Tucan\ ó D:\Tucan\ ó E:\Tucan\ ó …).

    https://forja.rediris.es/svn/cusl3-tucan/trunk/docs/FAQ.es
    4.2 – ¿ Cómo se instala en Windows ?
    8 – Tucan arranca pero no me comprueba los enlaces ¿ qué sucede ?

    —–

    Fuera de Windows el problema mas común es la _no_ instalación de todas las dependencias. Si no se instalan todas las dependencias Tucan es posible que arranque y que en servicios donde no hay captcha o con cuentas premium funcione pero no funcionarán los servicios que necesitan captcha.
    Fuera de Windows (GNU/Linux, FreeBSD, OpenSolaris…) se deben instalar todas las dependencias “a mano”.

    https://forja.rediris.es/svn/cusl3-tucan/trunk/README.es

  28. a-slack on

    @jasvazquez: este no es el mejor sitio para la resolución de problemas, el proyecto tiene un foro oficial http://forums.tucaneando.com/

  29. jasvazquez on

    Perdona por no haberlo hecho @a-slack y gracias por la completa información a pesar de no ser éste el lugar apropiado para resolver problemas.

    En realidad, cuando hice el comentario fue precisamente eso (por comentar que no me funcionaba el tema pero sin buscar solución).

    Por si sirve de algo decir que cuento con varios sistemas operativos (todos ellos libres ;)) y en todos ocurre lo mismo (no poder descargar de Megaupload). Por mencionar algunos: Xubuntu 7.10, Xubuntu 9.04, Debian Lenny, …

    Probaré con la lista de dependencias como mencionas y, si lo tienes a bien, ya comentaré cómo me ha ido.

    Salu2 y nuevamente gracias por la información.

  30. jasvazquez on

    Miles de gracias @a-slack, el problema como bien mencionaste estaba en las dependencias (ni me plantee mirarlo pues estoy mal acostumbrado a que las librerías se instalen solas en mis Debians).

    La que me faltaba (no podía ser otra) era la tesseract-ocr que como es de suponer, es la encargada del reconocimiento de carácteres en los captchas.

    Nuevamente muchas gracias compañero.

  31. […] Gracias a @a-slack por ponerme en la pista del origen del problema. […]

  32. angel on

    Pues yo no se que es lo que voy a hacer ya….

    no veo opcion para introducirle la cuenta premium de ninguno:
    Megaupload
    Rapidshare

    No se como es que se usa la cuenta premium en conjunto con Tucan

    ===================

    no me puedo quejar, considero que este software es lo maximo…. esta muy bien, pero creo que seria bueno si toman en cuenta que desde megaupload se pueden resumir las descargas cuando ocurre una desconexion y se queda a la mitad..

    solo es tomar un link, aunque sea nuevo (diferente en hash) se puede hacer lo siguiente siempre que sea el mismo archivo con mismo nombre:

    wget -c http://megaupload.com/muchascosas/miarchivo.zip

    hasta donde he visto TUCAN no hace este tipo de cosas aun!😥

    pero como dije…. todo lo demas, lo hace muy, asi que no me puedo quejar es mi favorito y mas cuando trabajo si cuentas premium…

  33. Pablo Rosatti on

    Se podría usar una base de datos online de captchas (alojada en un servidor), o compartir la información de captchas a través de P2P, por ejemplo incluyendo un sistema de comunicación en Tucan (Jabber?) para pedir a otros usuarios de Tucan si ya han descifrado correctamente el captcha (esto se podría hacer sin interacción del usuario), en vez de usar las imagenes se podría obtener el hash (md2, md4, md5, sha1, snefru, haval, tiger, whirlpool, ripemd) y trabajar de esta forma para ahorrar espacio ya sea en el disco como en el ancho de banda.

  34. a-slack on

    No se si la gente se da cuenta pero al hacer comentarios en entradas muy viejas del blog hace bastante dificil que obtengan respuestas de forma rápida y si les llega respuesta ésta puede estar totalmente “caducada” …

    —————

    @angel: Tucan soporta cuentas premium tanto de rapidshare como de megaupload.

    Si eres capaz de postear en un tema de Marzo como en el que estamos (http://blog.tucaneando.com/2009/03/04/megaupload-captcha-database/) no veo pq no puedes llegar a un tema de Enero (http://blog.tucaneando.com/2009/01/26/premium_accounts/) donde se comenta que Tucan tiene soporte para cuentas premium y donde hay capturas de pantalla que seguro que ayudan a entender como se configuran ese tipo de cuentas (ventana Preferencias > Servicios > doble click sobre el servicio y en la ventana emergente que se abre -> configurar la cuenta premium).

    Si tienes algún problema es mejor que acudas al foro oficial (http://forums.tucaneando.com/).

    Respecto al tema de resumir las descargas Tucan aún no tiene implementada esa característica, ok, puede que se añada en el futuro, pero lo que te puedo asegurar es que wget no resume descargas de megaupload (no al menos de la manera que has puesto).

    Para cualquier comentario al respecto es mejor usar el foro oficial (http://forums.tucaneando.com/).

    —————

    @Pablo Rosatti: hace muchos meses que ya no se usa nada relacionado con bases de datos en Tucan.

    Parte del problema de hacer comentarios en entradas muy viejas del blog es que, si uno no se da cuenta, comenta cosas que estan totalmente en desuso.

    Para evitar estas cosas recomiendo leer todos los comentarios de este tema (fijandose en las fechas) para saber mas o menos que cosas se han intentado y que cosas no y enterarse que problemas aparecen con unas cosas y con otras.

    Actualmente se esta usando la “solución OCR” en Tucan.

    Para cualquier comentario al respecto es mejor usar el foro oficial (http://forums.tucaneando.com/).

  35. ariel on

    tengo el problma de q uso ubuntu en 600×800 y tucan no permite redimensionarlo para q sea mas chiquito hay alguna forma de lograrlo

    desde ya muchas gracias

  36. captchaocr on

    Amazing issues here. I am very glad to peer your article.
    Thanks a lot and I am taking a look forward to contact you.
    Will you kindly drop me a e-mail?


Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: