Šita problema mane visad varo iš proto. Man niekaip nepavyksta susidėlioti savo temų taip, kaip noriu. Ir aš turiu įtarimą, kad čia kažkokia principinė problema, o ne mano nusugebėjimas kategorizuoti. Ta problema – tai, kad temos (kategorijos) yra bent dviejų lygių – temos ir tipo. Ir turint dabartinę WP temų sistemą, man niekaip nepavyksta sukategorizuoti turinio taip, kaip norėčiau.
Pradedu nuo lengvesnė dalies – žymų (tagų). Žyma – tai raktažodis, kurį žmogus gali asociuoti su turiniu. Paprasta. Parašei apie Kalniečio dėjimus per Žalgirio rungtynes, vadinasi, sudėsi “krepšinis, sportas, Žalgiris, dėjimas, Kalnietis”, parašei apie Google Chrome, sudėsi “naršyklė, Google Chrome, Google, privatumas, EULA”, ir panašiai. Visas procesas turi realiai vieną pagrindinę paskirtį – padėti surasti turinį vėliau, t.y. jei nori teisingai sužymėti – galvok, kaip skaitytojas galėtų ieškoti tokio turinio. Įsivaizduok, kad tu sėdi už Google paieškos laukelio, ir bandai teisingai sužymėti turinį. Bet net čia man iškyla problemų.
Paimkim Kalniečio pavyzdį. Ar ten turėtų būti žyma “sportas”? Ar tikrai ten aš parašiau bent žodį apie sportą, kaip “sportą”. Taip, krepšinis yra sportas, o dėjimai vyksta krepšinio metu, bet ar žmogus, kuris Google suvedinėtų “sportas” tikrai ieškotų Kalniečio dėjimų? Ar jį sudomintų Kalniečio dėjimai? 80% – ne. Jis greičiau ieškos ko nors labiau abstrakčiame lygyje, pvz., kokie sporto privalumai, kaip jis vertinamas skirtingose kultūrose, ar dar ko. Tada man kyla dar vienas klausimas: tai kuris abstraktumo lygis visgi turėtų būti naudojamas? Ar ten turėtų būti žyma “krepšinis”? O jei parašiau įrašą apie tai, koks lėvas Karolis Pocius, ar turėtų ten būti žyma “blogosfera”? O gal turėtų būti ne tik “blogosfera”, bet ir “žmonės”?
Wikipedia šiuo atveju ne daug gelbėja. Greičiau, iškelia dar keletą problemų – naudoti vienaskaitą ar daugiskaitą? Ką daryti, jei viena žyma be konteksto gali būti įvairiai interpretuojama? Juk keista, jei peržiūrėdamas žymą “matrica”, rastum įrašą apie filmą, ir įrašą apie matematiką.
Sprendimo kaip ir nėra – bent jau aš neradau nė vieno tikro patarimo. Triukšmo problemos (daugiskaita vs. vienaskaita, neteisingos žymos,) kaip ir gali būti sprendžiamos rekomendacijų sistemomis. Vienos jų bando analizuoti turinį, ir pasiūlyti pačios (techninis sprendimas), kitos išnaudoja vartotojų bazę, rodydamos tik pačius populiariausias žymas. Problema ta, kad nė vienas iš sprendimų realiai netinka lietuviškam tinklaraščiui, ar tinklaraščio įrašui iš principo. Žymos iš vartotojų susikaupia per laiką (jei tinklaraštis populiarus), o techniniai sprendimai veikia ne taip jau ir gerai , ypač, jei turinys ne aglų kalba.
Tai ką daryti? Aš bandau visą laiką laikytis principo – galvok, kaip šito turinio gali ieškoti skaitytojas. Užtikrink, kad iš visų žymų jis supras, apie tekstas. Ir galiausiai – laikykis sistemos. Įsidiek žymų rekomendacijų sistemą, ir žiūrėk, kad nebūtų žymų “bulvė” ir “bulvės” vienu metu.
Bet vis vien lieka bent keturios problemos: iki kokio abstraktumo lygio turėtų siekti žymos? Ar žymos iš principo turėtų būti skirtinguose lygiuose (juk atsidaręs “tag cloud” turėtum matyti vientisą vaizdą, o ne “Obama” ir “politika” vienu metu)? Ar žymos turi atspindėti tik turinį? O gal ir turinio tipą? (t.y. ar tai komentaras, ar tai naujiena, ir pan)? Ir galiausiai, kaip užtikrinti, kad tavo žymos yra tokios pat, kaip kito žmogaus, kuris rašo panašia tema? Juk nuėjęs į bet kurią svetainę, kur yra skirtingų autorių turinio, tu nori viena paieška surasti viską, kas domina.
Tipo vs. turinio temą palieku antram įrašui, kur kankinsiuos bandydamas nuspręsti, kaip dirbti su kategorijomis. Pasižaidimui siūlau pabandyti neseniai blogeriai.lt atsiradusią paiešką (gaila, kad ne tik žymų, bet ir turinio) – pabandykit blogas, blogai, bloginimas, blogeriai.
Ir galiausiai, pasakykit – o kaip su žymom dirbat jūs? (gal kas girdėjot, kaip su tuo tvarkomasi profesionalioje žurnalistikoje? jei ten aišku jie tokias naudoja…)

P.S. Karoli, jei skaitai – aš tokio įrašo nežadu rašyti, bet kiek pamenu, toks kažkur buvo :)