Looking for rubygems Answers? Try Ask4KnowledgeBase
Looking for rubygems Keywords? Try Ask4Keywords

rubygemsAnémona


Sintaxis

  • Use Anemone :: Core.new (url, opciones) para inicializar el rastreador
  • Utilice el bloque on_every_page para ejecutar el código en cada página visitada
  • Utilice el método .run para iniciar el rastreo. Ningún código de antemano iniciará realmente ninguna llamada GET.

Parámetros

Parámetro Detalles
url URL (incluido el protocolo a rastrear)
opciones hash opcional, ver todas las opciones aquí

Observaciones

  • El rastreador solo visitará los enlaces que se encuentran en el mismo dominio que la URL de inicio. Esto es importante saber cuando se trata de subdominios de contenido, tales como media.domain.com ya que se ignoran cuando se arrastra domain.com
  • El rastreador es HTTP / HTTPS y permanecerá por defecto en el protocolo inicial y no visitará otros enlaces en el mismo dominio.
  • El objeto de page en el bloque on_every_page anterior tiene un método .doc que devuelve el documento de Nokogiri para el cuerpo HTML de la página. Esto significa que puede usar los selectores de on_every_page dentro del bloque page.doc.css('div#id') como page.doc.css('div#id')
  • Otra información para comenzar se puede encontrar aquí.

Anémona Ejemplos relacionados