llms.txt - czy boty AI naprawdę to czytają?

•

Plik "llms.txt" na stronie ma teoretycznie chronić Twoje treści przed byciem pożywką dla robotów AI. Standard istnieje, a ludzie powoli go u siebie wdrażają. Pytanie tylko, czy którykolwiek z automatów odwołuje się do tego pliku? 🤔 Zrobiłem małe testy 🧵 ↓

Jestem właścicielem firmy hostingowej (serwery VPS: Mikrus). Analizowałem wczoraj logi współdzielonego serwera webowego, który obecnie obsługuje 5736 unikalnych nazw domen i subdomen (łącznie). Uruchomiłem narzędzie "grep" na danych z ostatnich 50 dni.

We wspomnianym przedziale czasu plik "llms.txt" został pobrany 1096 razy, co wygląda na przyzwoity wynik — ktoś/coś z tego pliku naprawdę korzysta. Jednak nie liczy się tylko, że "ktoś" plik pobiera, ale liczy się, kto to jest i czy ten plik jest respektowany.

Pewnie spodziewasz się, że na liście firm, które pobierają plik będzie OpenAI, Anthropic, Perplexity, Google... no to tutaj zaskoczenie, bo 55% ruchu (605 zapytań na 1096) pochodzi z platformy DataProvider, która scrapuje dane na potrzeby różnych produktów bazujących na AI.

No to przynajmniej te 45% to są ci wielcy gracze na rynku - tak? No nie do końca. Bo 24% ruchu do pliku llms.txt pochodzi z platformy BuiltWith, która zbiera statystyki na temat stacku technologicznego stron internetowych.

Czyli obecnie mamy podział: - 55% = DataProvider - 24% = BuiltWith - 21% = ??? Co stanowi brakujący kawałek tortu?

Około 18% zapytań przychodzi z dość normalnie wyglądającego user-agenta (Chrome), ale z dopiskiem "PTST" na końcu. Wszelkie ejaje mówią mi, że to skrót od "Performance Testing Stress Tool", ale nie mogę tego wiarygodnie potwierdzić. Przykład zapisu: PTST/250819.153741

Pozostałe zapytania przychodzą bez ustawionego pola user-agent. Przez 50 dni moje serwery nie otrzymały ani jednego zapytania o plik llms.txt wprost od dużych graczy z rynku wyszukiwarek i botów AI. To może te strony nie zostały odwiedzone przez OpenAI, Anthropica itp?

Oto liczba zapytań wygenerowana przez poszczególne mechanizmy AI do wspomnianych 5736 domen ↳ OpenAI = 521479 ↳ Anthropic = 124872 ↳ Gemini = 5674 ↳ Huggingface = 180 ↳ Mistral = 93 ↳ Perplexity = 12

Statystyki pokazują, że o ile scrapowanie treści następuje codziennie, 24/h na dobę, to plik llms.txt jest pobierany nie częściej niż raz na 3 dni per domena. Jeśli więc zabronisz indeksowania strony, to chwilę poczekasz, nim ktoś to zauważy.

Kto korzysta z danych dostarczanych przez platformę DataProvider? Nie jestem w stanie znaleźć jasnych powiązań tej platformy z OpenAI, Anthropic, czy Perplexity.

Mechanizm wykluczania treści przez pliki "llms.txt" faktycznie istnieje, ale liczba platform, które biorą ten plik pod uwagę, połączona z częstotliwością pobierania pliku wskazuje, że jest to raczej rozwiązanie eksperymentalne niż coś, co pozwala skutecznie zwalczyć roboty.