¿Qué puedes hacer con este complemento?
Crawlomatic Multisite Scraper Post Generador Complemento para WordPress es un borde de ruptura Rastreo y raspado de sitios web, complemento de autoblogging del generador de publicaciones que utiliza el rastreo y el raspado de sitios web para convertir su sitio web en un autoblogging o incluso en una máquina de hacer dinero.
¡Obtenga contenido de casi cualquier página web! Ya no necesita API, que requiere registro y proporciona acceso limitado, también puede recuperar datos de sitios web que no proporcionan API. ¡Prográmelo por una vez y déjelo en piloto automático sus publicaciones 7/24 para usted como un maestro!
¿Como funciona?
Este complemento rastreará la URL inicial que le proporcione (rastrear significa que buscará todos los enlaces que contiene la página web) y visitará y extraerá contenido de cada URL rastreada. El proceso de rastreo es personalizable: puede establecer la profundidad de rastreo, la tasa de rastreo, el recuento máximo de artículos rastreados, rastrear solo enlaces con una clase o ID específica y muchas más personalizaciones.
Actualización de Crawlomatic v2.0
En la actualización v2.0, se agregó un nuevo código abreviado de raspador en vivo al complemento: [crawlomatic-scraper]. Esta nueva característica hace que este complemento sea un extractor de datos web fácil de implementar para WordPress. Como resultado, se puede usar para mostrar datos en tiempo real de cualquier sitio web directamente en sus publicaciones, páginas o barra lateral. También almacena en caché temporalmente el contenido raspado, por lo que su sitio web no utilizará demasiado los recursos. ¡Puede usar este complemento para incluir cotizaciones de acciones en tiempo real, puntajes de cricket o fútbol o cualquier otro contenido genérico de dominios públicos!
Nuevas características incluidas en esta actualización:
La salida raspada se puede mostrar a través de una etiqueta de plantilla personalizada, código abreviado en la página, publicación y barra lateral (a través de un widget de texto).
- Almacenamiento en caché configurable de datos raspados. El tiempo de espera de la memoria caché se puede definir en minutos para cada dato extraído.
- El agente de usuario configurable para su raspador se puede configurar para cada raspado.
- Configuraciones predeterminadas configurables como habilitación, agente de usuario, tiempo de espera, almacenamiento en caché, manejo de errores.
- Múltiples formas de consultar contenido: selector CSS, XPath o Regex, detección automática.
- Una amplia gama de argumentos para analizar el contenido.
- Opción para pasar argumentos de publicación a una URL para raspar.
- Conversión dinámica de contenido raspado a una codificación de caracteres específica para raspar datos de un sitio usando un juego de caracteres diferente.
- Cree páginas extraídas sobre la marcha utilizando la generación dinámica de URL para raspar o publicar argumentos en función de los argumentos de obtención o publicación de su página.
- Función de devolución de llamada para análisis avanzado de datos raspados.
Consulte la documentación oficial de la actualización v2, explore los ejemplos y consulte las preguntas frecuentes para crear un web scraper perfectamente optimizado.
Más sobre el complemento
Puede extraer contenido de casi todos los sitios web que abra en su navegador. Si el contenido se carga con JavaScript, el complemento se puede combinar con PhantomJS para raspar también el contenido generado por JavaScript.
Además, puede generar automáticamente una cantidad ilimitada de rastreo y raspado de sitios web personalizados.
Otras características del complemento:
- actualización v2.5.1: Raspe las variantes de productos WooCommerce de otras tiendas WooCommerce/Shopify
- actualización v2.5.0: Extraiga los resultados del motor de búsqueda para sus búsquedas de palabras clave personalizadas, de Google o de Bing. Consulta el vídeo tutorial de esta nueva función.
- actualización v2.4.1: Scrape galerías de imágenes de productos para productos de WooCommerce (para tipos de publicaciones que no sean productos, los archivos adjuntos de las publicaciones se crearán a partir de las imágenes raspadas)
- actualización v2.3.5: Ejecute su propio código JavaScript en el HTML raspado y raspe los resultados: esta función solo está disponible cuando se utilizan navegadores sin cabeza para raspar (Puppeteer/Tor/PhantomJS) o HeadlessBrowserAPI
- actualización v2.2.1: Rastrear fuentes RSS para encontrar enlaces y raspar los artículos enumerados en ellos
- actualización v2.2.0: Use HeadlessBrowserAPI para extraer contenido HTML generado por JavaScript de cualquier sitio web en Internet sin la necesidad de instalar nada (además de este complemento) en su servidor: video tutorial
- actualización v2.1.0: ¡Elimine los sitios web .onion de la Dark Web usando Tor Browser y Puppeteer! – vídeo tutorial
- actualización v2.0.0: Código abreviado de Live Scraper agregado para aún más control de rastreo y poder de raspado: [crawlomatic-scraper]
- actualización v1.7.1: Compatibilidad con el rastreo del mapa del sitio: videotutorial
- actualización v1.6.5: Se agregó compatibilidad con el selector de contenido visual: video tutorial
- actualización v1.6.0: Se agregó la capacidad de hacer capturas de pantalla de páginas rastreadas y usarlas en el contenido de la publicación generada: video tutorial
- actualización v1.5.2: Capacidad para acortar enlaces salientes (publicar fuente) (y monetizarlos), utilizando el servicio de acortador de enlaces Shorte.st: ejemplo de enlace acortado
- actualización v1.4.8: Se agregó soporte de ejecución de JavaScript para páginas rastreadas; requiere PhantomJS instalado en el servidor. ¿Cómo instalar PhantomJs? – videotutorial
- actualización v1.4.4: Se agregó la capacidad de configurar múltiples proxies para rastrear páginas. El complemento seleccionará uno al azar en cada acceso a la página.
- actualización v1.4.0: Se agregó la capacidad de paginar el rastreo (el rastreo de artículos continuará en la página siguiente de la página inicial).
- actualización v1.4.0: Se agregó la capacidad de importar precios de productos para productos rastreados (compatible con WooCommerce) + modificación automática de precios de dropshipping – video tutorial
- actualización v1.4.0: Se agregó la capacidad de aumentar el precio del producto importado por un número fijo o multiplicarlo por un número predefinido (¡gran valor para dropshipping!)
- actualización v1.2.8: Se agregó compatibilidad con la importación de publicaciones paginadas (en una sola publicación rastreada) Verificar: VIDEO.
- actualización v1.2.4: Se agregó la capacidad de configurar proxies para rastrear páginas.
- actualización v1.2.3: Se agregó una opción para rastrear la página desde el caché de Google cuando falla el rastreo directo (bloqueado)
Soporte de Google Translate: seleccione el idioma en el que desea publicar sus artículos
Compatibilidad con Text Spinner: modifique automáticamente el texto generado, cambie las palabras con sus sinónimos: incorporado, The Best Spinner, SpinRewriter, WordAI, TurkceSpin y otros: ¡gran valor de SEO!
estado de publicación generado personalizable (publicado, borrador, pendiente, privado, papelera)
shortcode para enumerar todas las publicaciones generadas por este complemento: [crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ => ’’, ‘ruleid’ => ’’]
el rastreo y el raspado se pueden configurar para respetar los archivos robots.txt de los sitios web y los encabezados HTML de los robots de las páginas raspadas
generar automáticamente categorías de publicaciones o etiquetas a partir de elementos del mercado
agregar manualmente categorías de publicaciones o etiquetas a los elementos
elige si quieres actualizar la publicación si ya está publicada
enviar cookies personalizadas con la solicitud a la página web rastreada (autenticación)
generar publicación o página o cualquier tipo de publicación personalizada
incrusta videos de YouTube, Vimeo, Flickr, IGN, Ustream.tv y DailyMotion mediante el rastreo y el raspado de sitios web
definir restricciones de publicación: no publicar publicaciones que no tengan imágenes, publicaciones con título/contenido corto/largo
generar automáticamente una imagen destacada para la publicación
habilitar/deshabilitar comentarios, pingbacks o trackbacks para la publicación generada
personalice el título y el contenido de la publicación (con la amplia variedad incluida de códigos cortos de publicación relevantes)
‘Herramienta de reemplazo de palabras clave’: su propósito es definir palabras clave que se sustituyen automáticamente con sus enlaces de afiliados, en cualquier lugar donde aparezcan en el contenido de su sitio. Por ejemplo, puede definir una palabra clave ‘codecanyon’ y sustituirla por un enlace a http://www.codecanyon.net/?ref=user_name en cualquier lugar donde aparezca en el contenido de su sitio.
‘Herramienta generadora de oraciones aleatorias’ (oraciones relevantes, tal como las defina)
opción para eliminar automáticamente las publicaciones generadas después de un período de tiempo
registro detallado de la actividad del complemento
ejecuciones de reglas programadas
soporte de campo personalizado para publicaciones generadas
soporte de taxonomías personalizadas para publicaciones generadas
Importación ilimitada de variables rastreadas (partes importadas ilimitadas de las páginas rastreadas)
opción para copiar o no imágenes localmente
capacidad de analizar datos JSON usando Regex
opción para agregar una metaetiqueta canónica a las publicaciones generadas
Limitación de publicación de longitud máxima/mínima del título
Limitación máxima/mínima de publicación de contenido
Agregar publicación solo si se encuentran palabras clave requeridas predefinidas en el título/contenido
Agregar publicación solo si las palabras clave prohibidas predefinidas no se encuentran en el título/contenido
Guarde y restaure la lista de reglas de complementos desde un archivo
Probando este complemento
Puede probar la funcionalidad del complemento utilizando el ‘Generador de sitio de prueba’. Aquí puede probar la funcionalidad completa del complemento. Tenga en cuenta que el blog de prueba generado se eliminará automáticamente después de 24 horas.
Requisitos del complemento
- PHP DOM -> cómo instalarlo (si no lo tiene, pero probablemente ya lo tenga): http://php.net/manual/es/dom.setup.php
PHP 5.0 o superior
Extensiones dom, mbstring, iconv y json (habilitadas de forma predeterminada)
Para obtener más información sobre cómo configurar el complemento, consulte también este video tutorial de 1 hora de duración, que cubre el conjunto completo de funciones del complemento.
¿Necesita ayuda?
Consulte nuestra base de conocimientos, es posible que tenga la respuesta a su pregunta o una solución para su problema. De lo contrario, envíeme un correo electrónico a support@coderevolution.ro y le responderé tan pronto como pueda.
Registro de cambios:
Versión 1.0 Fecha de lanzamiento 2017-08-15
First version released!
Versión 1.1 Fecha de lanzamiento 2017-08-16
Fixed some small issues
Versión 1.2 Fecha de lanzamiento 2017-08-17
Added the ability to crawl page by div class or id
Versión 1.2.1 Fecha de lanzamiento 2017-08-18
Fixed incompatibility with some WordPress installs
Versión 1.2.2 Fecha de lanzamiento 2017-08-22
Added a shortcode to display post generated by this plugin
Versión 1.2.3 Fecha de lanzamiento 2017-08-30
Added an option to crawl the page from Google cache when direct crawling fails (blocked)
Versión 1.2.4 Fecha de lanzamiento 2017-08-31
Added the ability to set proxies for crawling pages
Versión 1.2.5 Fecha de lanzamiento 2017-09-04
Added the canonicalization for generated articles
Versión 1.2.6 Fecha de lanzamiento 2017-09-13
Made the plugin timezone aware
Versión 1.2.7 Fecha de lanzamiento 2017-09-14
Fixed post date for non gmt blogs
Versión 1.2.8 Fecha de lanzamiento 2017-09-23
Added paginated post importing support
Versión 1.2.9 Fecha de lanzamiento 2017-09-27
Bugfixes
Versión 1.3.0 Fecha de lanzamiento 2017-09-28
Fixed rule restore
Versión 1.3.1 Fecha de lanzamiento 2017-10-20
Fixed featured image generation
Versión 1.3.2 Fecha de lanzamiento 2017-10-22
Added crawling helper
Versión 1.3.3 Fecha de lanzamiento 2017-11-06
Fixed a memory issue
Versión 1.3.4 Fecha de lanzamiento 2017-11-07
Bugfixes
Versión 1.3.5 Fecha de lanzamiento 2017-12-14
Fixed class selector not working in all cases
Versión 1.3.6 Fecha de lanzamiento 2017-12-18
Added the ability to specify a custom user agent for each crawled webpage
Versión 1.3.7 Fecha de lanzamiento 2018-01-20
Added a new text spinner service: Spinrewriter
Versión 1.3.8 Fecha de lanzamiento 2018-01-22
Plugin can now continuously import content
Versión 1.3.9 Fecha de lanzamiento 2018-02-02
Fixed issue when multiple crawl classes where specified
Versión 1.4.0 Fecha de lanzamiento 2018-02-22
Major update: added the ability to crawl imported product prices (WooCommerce compatible) Added the ability to crawl serial content (paged crawling - crawling for articles will continue on the next page)
Versión 1.4.1 Fecha de lanzamiento 2018-03-07
Bugfixes
Versión 1.4.2 Fecha de lanzamiento 2018-03-21
Fixed a duplicate posting issue
Versión 1.4.3 Fecha de lanzamiento 2018-03-22
Fixed a critical issue with multiple rule running
Versión 1.4.4 Fecha de lanzamiento 2018-04-04
Added the ability to define multiple proxies. The plugin will select one at random at each page access
Versión 1.4.5 Fecha de lanzamiento 2018-07-13
Updated built-in readability module
Versión 1.4.6 Fecha de lanzamiento 2018-07-16
Critical bugfixes
Versión 1.4.7 Fecha de lanzamiento 2018-07-19
Added the ability to not translate links
Versión 1.4.8 Fecha de lanzamiento 2018-09-05
Added JavaScript execution support for crawled pages - requires PhantomJS installed on server
Versión 1.4.9 Fecha de lanzamiento 2018-09-18
Bugfixes
Versión 1.5.0 Fecha de lanzamiento 2018-09-24
Added the ability to add custom post taxonomies from crawled content Added the ability to add unlimited crawled variables to posts's content/ meta/ taxonomies
Versión 1.5.1 Fecha de lanzamiento 2018-10-16
Fixed issue when importing large pages
Versión 1.5.2 Fecha de lanzamiento 2018-10-24
Added the ability to shorten links using Shorte.st
Versión 1.5.3 Fecha de lanzamiento 2018-10-29
Fixed issue when importing paginated posts
Versión 1.5.4 Fecha de lanzamiento 2018-11-06
Added the ability to strip HTML elements by tag name (div,a,span,etc.)
Versión 1.5.5 Fecha de lanzamiento 2018-11-07
Added WooCommerce product category creation support
Versión 1.5.6 Fecha de lanzamiento 2018-12-16
Added nested importing support - import mixed content into a single post, from multiple plugins created by CodeRevolution
Versión 1.5.7 Fecha de lanzamiento 2018-12-16
Added the ability to define a list of URLs to skip from crawling and importing
Versión 1.5.8 Fecha de lanzamiento 2019-01-08
Added the ability to import royalty free images for created posts
Versión 1.5.9…




