Monday, March 16, 2009

Category、Keyword、Tag、Tag cloud及AI

(http://antbsd.twbbs.org/~ant/wordpress/?p=335, August 18th, 2006)

資訊愈多愈多的世界,我們愈需要過濾。

我不是這方面的專家,也沒有深入的研究,但是這些常見的詞,目的只有一個,就是「分類」資訊。是的,我認為「分類」就是「過濾」的一種,避免我們找到不需要的資料。

早期的方法是使用Category,也稱為類目分類。就像圖書館的藏書一樣,將所有書收集起來,然後再用統一的方法來歸類,如雜誌、期刊、書藉等。 再細分的話,又有科普類、小說類等。這種方法彈性最小,往往多一個類目時,就要多一個分類出來。我覺得最大的問題是,有時候一樣「東西」(雜誌、期刊或書 籍等)在客觀上很難歸類到某一類目,有時他就是屬於多類目。例如「巴別塔之犬」,要歸類到「勵志溫馨」類還是「小說」類?

或許你會說是「小說」中的「勵志溫馨」類,也就是若同層級分類遇到衝突時,就將其中一類往下移。這就是我先前提到的觀點,多一個類目,就要多一個分 類,多一個分類,會涉及到許多書藉的類目變更,因為不是全部原本屬「勵志溫馨」都是屬於「小說」類的。而且這樣也多出了複雜性,變成許多類目下都會有「勵 志溫馨」。天啊!我只是要找「勵志溫馨」的書,卻要跑許多地方,有時我根本不管他是「小說」還是不是小說。

Keyword也是常見的方法之一,目前的論文搜尋大多採用這種。Keyword與Catelogy在概念上的主要差別是,keyword的方式將 「東西」的分類權限下放給作者(或稱使用者)。作者可以為「東西」填入適當的描述,而且描述可以很多個。例如,我寫了一篇「基於代理人機制的融資融券研 究」論文,我可以下「代理人」、「金融市場」、「人工智慧」等keyword。這種方法就不會像category那般。不會因多了一篇論文就非要大改以前 論文的keyword,也不會增加複雜性。

對我而言,tag就是keyword。我不贊同工程師級的顧問所說的甚麼是Tag?。 我簡單說明幾點。第一,keyword不一定取自內文,很多論文的keyword其實並沒有真的存在於論文中,但它的卻與論文有關。第二,keyword 是使用者觀點,我沒有看過教授寫論文時還要拿出向圖書館那樣的category來分類他的論文,都是自己下去分類的。只是因為線上社會網絡的興起,共享的 觀念使得tag這個字詞很常出現,但其實它就是keyword。

Tag cloud其實就是依照該tag所含有「東西」的多寡所呈現的。例如,「雜誌」的tag有100筆,而「書籍」的 tag有5000筆,我就可以讓較多的「書藉」用紅色呈現,或是用比較大的字體呈現。如此一大一小、或顏色的區別等,所呈現出來的形,就稱為tag cloud(標籤雲?)。這個用法有兩種,其一是讓使用者知道這裡的命名領域有哪些tag最多,其二是若我要下tag時我可以參考我應該如何下(愈多的可 能是大分類等)。

Tag cloud的方法其實還是有一些缺點。第一,會造成大者恆大,愈多的tag會成長的更快。第二,冷門的「東西」有時候會不知道該怎麼下tag,因為tag cloud不會列出很少的tag類。第三,人工的方式下tag,花太多使用者的effort。因此,AI的方法就可以應用了。

AI可以分析你的內容,從目前命名領域的經驗中提供建議,或是你習慣下的tag(因為大多時候你有興趣的「東西」會很多),或是你喜歡瀏覽的tag 紀錄,或是用命名領域中最多量的tag(目前無名照片的作法),或是列出你朋友圈的tag(你的朋友往往與你興趣相投,這是flickr的作法)等等。

總體來說,category是總體統一來分類,而keyword和tag則是根據使用者專業與經驗來分,且keyword/tag可以跨領域。AI的方法聽起來很棒,實作也不難,但是效果其實還是很難拿捏。

No comments:

Post a Comment