How AI Is Redefining the Way We Find Content, by @Clearleft:
https://clearleft.com/thinking/how-ai-is-redefining-the-way-we-find-content
How AI Is Redefining the Way We Find Content, by @Clearleft:
https://clearleft.com/thinking/how-ai-is-redefining-the-way-we-find-content
[Перевод] Тихая смерть robots.txt
Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части. В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде. Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt . Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу. Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников. Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Cегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.
Crawl budget determines how Google crawls and indexes your website pages. Managing it properly ensures that important content gets discovered quickly. Let’s explore simple strategies to improve SEO results!
Website: https://ondigitals.com/crawl-budget/
#ondigitals #ondigitalsagency #crawlbudget #crawling
From this summer (July 2nd) until today (Dec 22nd), the OpenAI GPTbot has fetched 2,659,115 pages from my Sundial demo calendar, which has a robots.txt telling crawlers to not bother, as there is an infinite number of pages in the calendar.
The furthest back their bot has reached so far is the year -1222, and the furthest in the future they have reached so far is the year 7776...
My accidental AI crawler tarpit keeps on serving pages.
📬 Wikipedia zieht der KI den Stecker raus
#Internet #KünstlicheIntelligenz #Netzpolitik #Crawling #CreativeCommons #Endowment #KI #Spendenbanner #WikimediaFoundation #Wikipedia https://sc.tarnkappe.info/46f786
I'm (slowly, stutteringly) writing a website link checker, purely to get a bit of practice in Rust. (No use of chatbots/LLMs at any point.)
It's got to the point where I have a functional, but buggy, single-threaded site crawler which works a bit like the (perfectly good) W3C Link Checker, but runs in the console.
After bug fixing, I next want to use threading to fetch multiple pages at once, because I rarely get a chance to work with concurrency.
Felipe’s Friday Forage: Unlock SEO Secrets and Elevate Your Content’s Visibility
Felipe’s Friday Forage explores how search engines rank content through three steps: discovery and crawling, relevance and indexing, and authority and ranking. Websites must ensure easy navigation, clear content, and build trust to enhance visibility. SEO success requires patience and consistent effort, as ranking is a cumulative process, not immediate.