Lemmy.one
  • Communities
  • Create Post
  • heart
    Support Lemmy
  • search
    Search
  • Login
  • Sign Up
lgsp is moving@urbanists.social to Informatica (Italy e non Italy 😁) @feddit.it · 7 months ago

Dedicato agli admin: una trappola per scraper LLM

message-square
message-square
3
fedilink
8
message-square

Dedicato agli admin: una trappola per scraper LLM

lgsp is moving@urbanists.social to Informatica (Italy e non Italy 😁) @feddit.it · 7 months ago
message-square
3
fedilink

Dedicato agli admin: una trappola per scraper LLM

Genera pagine web infinite alimentando gli scraper di merda nonsense.

Avveleniamo i pozzi, ma selettivamente!

@informatica

https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/

alert-triangle
You must log in or # to comment.
  • Paolo Redaelli@mastodon.uno
    link
    fedilink
    arrow-up
    2
    ·
    7 months ago

    @lgsp
    Ma la domanda è: come distinguere il “legittimo” crawler di un motore di ricerca da quello di una LLM? Dubito facciano la cortesia di usare un loro User Agent…
    @informatica

    • pgo@mastodon.uno
      link
      fedilink
      arrow-up
      2
      ·
      edit-2
      7 months ago

      deleted by creator

    • lgsp is moving@urbanists.socialOP
      link
      fedilink
      arrow-up
      1
      ·
      edit-2
      7 months ago

      @paoloredaelli

      Basandosi sul comportamento: se i crawler seguono quanto indicato da robots.txt, non cercando di accedere in parti del sito non consentite, non finiscono nella trappola infinita, altrimenti sì.

      EDIT: mi sbagliavo un warning avvisa proprio che non c’è modo di distiguere buoni da cattivi

      @informatica

      https://zadzmo.org/code/nepenthes/

      • Paolo Redaelli@mastodon.uno
        link
        fedilink
        arrow-up
        1
        ·
        7 months ago

        @lgsp
        Mi fatto stanno “avvelenando i pozzi”.
        @informatica

Informatica (Italy e non Italy 😁) @feddit.it

informatica@feddit.it

Subscribe from Remote Instance

Create a post
You are not logged in. However you can subscribe from another Fediverse account, for example Lemmy or Mastodon. To do this, paste the following into the search field of your instance: !informatica@feddit.it

Ecco finalmente la comunità italiana Lemmy dedicata all’informatica!

Questo è il luogo in cui condividere post sul mondo dell’informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!

Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:

  • Le Alternative, dedicata alle alternative open source ai prodotti più diffusi
  • Etica Digitale, dedicata alle implicazioni etiche della tecnologia
  • Pirati Europei, dedicata al mondo dei pirati italiani ed europei
  • Che succede nel Fediverso, dedicata alle notizie sul fediverso
  • Devol, con le notizie sulle istanze del fediverso e i servizi di decentralizzazione del collettivo Devol
  • Lavoratori Tech, dedicata al tema del lavoro tecnologico
  • Videogiochi, dedicata al gaming
  • Retrogaming, per i videogiochi vintage
  • GNU/Linux Italia, dedicata nello specifico al mondo del pinguino

Regole della comunità:

🏳️‍🌈 chiediamo educazione e rispetto per gli altri

🎃 anche se ci chiamiamo “Informatica” non banniamo gli utenti a caso 😁

🚫 trolling, shitposting e molestie sono vietati

💲 è vietato superare il confine che separa l’informazione dalla pubblicità

🔊 evitiamo il clickbait e il sensazionalismo

📖 per il resto valgono le regole dell’istanza al link https://feddit.it/post/6

Visibility: Public
globe

This community can be federated to other instances and be posted/commented in by their users.

  • 7 users / day
  • 36 users / week
  • 114 users / month
  • 321 users / 6 months
  • 3 local subscribers
  • 1.53K subscribers
  • 2.97K Posts
  • 2.38K Comments
  • Modlog
  • mods:
  • Poliverso@feddit.it
  • octt@feddit.it
  • Echomus@feddit.it
  • Informapirata@feddit.it
  • nuke86@feddit.it
  • chobeat@lemmy.ml
  • BE: 0.19.7
  • Modlog
  • Legal
  • Instances
  • Docs
  • Code
  • join-lemmy.org