Plik "llms.txt" na stronie ma teoretycznie chronić Twoje treści przed byciem pożywką dla robotów AI. Standard istnieje, a ludzie powoli go u siebie wdrażają.
Pytanie tylko, czy którykolwiek z automatów odwołuje się do tego pliku? 🤔
Zrobiłem małe testy 🧵 ↓
Jestem właścicielem firmy hostingowej (serwery VPS: Mikrus).
Analizowałem wczoraj logi współdzielonego serwera webowego, który obecnie obsługuje 5736 unikalnych nazw domen i subdomen (łącznie).
Uruchomiłem narzędzie "grep" na danych z ostatnich 50 dni.
We wspomnianym przedziale czasu plik "llms.txt" został pobrany 1096 razy, co wygląda na przyzwoity wynik — ktoś/coś z tego pliku naprawdę korzysta.
Jednak nie liczy się tylko, że "ktoś" plik pobiera, ale liczy się, kto to jest i czy ten plik jest respektowany.
Pewnie spodziewasz się, że na liście firm, które pobierają plik będzie OpenAI, Anthropic, Perplexity, Google... no to tutaj zaskoczenie, bo 55% ruchu (605 zapytań na 1096) pochodzi z platformy DataProvider, która scrapuje dane na potrzeby różnych produktów bazujących na AI.
No to przynajmniej te 45% to są ci wielcy gracze na rynku - tak?
No nie do końca. Bo 24% ruchu do pliku llms.txt pochodzi z platformy
BuiltWith, która zbiera statystyki na temat stacku technologicznego stron internetowych.
Czyli obecnie mamy podział:
- 55% = DataProvider
- 24% = BuiltWith
- 21% = ???
Co stanowi brakujący kawałek tortu?
Około 18% zapytań przychodzi z dość normalnie wyglądającego user-agenta (Chrome), ale z dopiskiem "PTST" na końcu.
Wszelkie ejaje mówią mi, że to skrót od "Performance Testing Stress Tool", ale nie mogę tego wiarygodnie potwierdzić.
Przykład zapisu: PTST/250819.153741
Pozostałe zapytania przychodzą bez ustawionego pola user-agent.
Przez 50 dni moje serwery nie otrzymały ani jednego zapytania o plik llms.txt wprost od dużych graczy z rynku wyszukiwarek i botów AI.
To może te strony nie zostały odwiedzone przez OpenAI, Anthropica itp?
Oto liczba zapytań wygenerowana przez poszczególne mechanizmy AI do wspomnianych 5736 domen
↳ OpenAI = 521479
↳ Anthropic = 124872
↳ Gemini = 5674
↳ Huggingface = 180
↳ Mistral = 93
↳ Perplexity = 12
Statystyki pokazują, że o ile scrapowanie treści następuje codziennie, 24/h na dobę, to plik llms.txt jest pobierany nie częściej niż raz na 3 dni per domena.
Jeśli więc zabronisz indeksowania strony, to chwilę poczekasz, nim ktoś to zauważy.
Kto korzysta z danych dostarczanych przez platformę DataProvider? Nie jestem w stanie znaleźć jasnych powiązań tej platformy z OpenAI, Anthropic, czy Perplexity.
Mechanizm wykluczania treści przez pliki "llms.txt" faktycznie istnieje, ale liczba platform, które biorą ten plik pod uwagę, połączona z częstotliwością pobierania pliku wskazuje, że jest to raczej rozwiązanie eksperymentalne niż coś, co pozwala skutecznie zwalczyć roboty.