揭開冰山下的秘密:談談法學搜尋系統的隱藏成本!

0

以前當律師的時候,常耳聞一些道長在抱怨當事人說:「啊律師,你做個案子寫幾個字,為什麼收費這麼貴?」基本上律師聽到這句話就會爆氣,然後開始從念法律系的時間成本開始談起。

創辦 Lawsnote 之後,我也很常遭遇到律師說我們用的都是公開資料,是無本生意,為什麼還收費。

一開始我其實會和以前當律師聽到這些話一樣會爆氣,聽到第5次、第10次開始認知到,應該是很多法律人真的不知道建置一個搜尋引擎,需要投入甚麼樣的資源,例如:在和司法院的標案有時候會聽到價格100%流標的案子,而業務單位認為「已經給很多錢了。」

這樣的認知差距肇因於對彼此工作型態的不理解所產生。剛好前兩天在資策會,上個月在行政院資料促進經濟發展座談會都談到類似問題,索性詳細說明讓大家理解一個搜尋系統需要投入甚麼資源。

就和很多道長在做的事情一樣:

我們都需要教育市場,來換取更互相理解的環境,產業才能更健康。


其實軟體公司和律師事務所的成本結構頗為類似,都屬於一種成本極低費用極高的結構,人事費用占去了大多數的支出。

之所以有這麼多人事費用,是因為有很多工作/案件需要完成。所以接下來就來說說Lawsnote使用開放資料,需要完成甚麼樣的工作?

一、取得資料

以裁判書來說,雖然是公開資料,但並不是像我們下載檔案一樣點下載就可以存下來。Lawsnote是透過爬蟲(crawler),從裁判查詢系統去抓下裁判書。但由於裁判書的數量很多(超過1,400萬筆),因此假設每秒鐘抓一筆,大約要抓半年。

但司法院查詢系統會阻擋爬蟲爬取資料,因此如果抓資料的頻率太高,IP就會被鎖起來,因此需要過個幾天才有辦法繼續爬取資料。甚至在今年司法院又新添購了captcha進一步防止爬蟲爬取資料,因此在取得資料的門檻上變得更高了。

我在之前的文章中提過,取得資料的成本過高是導致20年來法源沒有競爭者的重要因素。因為法源身為司法院裁判查詢系統的承包商,取得資料的方式和其他法學資料庫,包含Lawsnote是完全不同的方式(這是司法院資訊處證實的)。也因此雖然裁判書是公開資料,但我們其實花了非常多的資源去取得這些公開資料。

如果要看得更多,包含函釋、訴願決定、法規或大法官解釋等等,因為這些資料完全分散在不同的行政機關中,每次新增一種類別的資料,都必須再度投入更多資源。

不是因為opendata就不用付出,有時候單一資料庫付個授權費可以取得所有資料,反而更便宜。過去20年很多人嘗試搜尋服務最終放棄的主因,就是在取得資料的成本過於龐大。如果有人要用200萬台幣賣我台灣所有公開的法學資料,我完全不會猶豫馬上買下來。

二、儲存資料

儲存資料的地方是資料庫,但使用資料庫是是需要支付授權費的,主流的資料庫是由微軟或甲骨文這種巨頭所提供,當然授權費也不便宜。

其次,我們需要硬碟來安裝資料庫,而硬碟必須安裝在主機中,如果要建置機房,必續添購主機以及機房的維護人員。

如果要上雲端,則需要使用亞馬遜、Google或微軟的雲端伺服器,都需要支付使用費。費用會隨著資料量、使用者人數和流量而提升。

三、處理和清洗資料

資料並不是抓下來存好就馬上可以用。

之前我曾經在法律白話文發表過「法律大數據,資料結構化是第一步」,提到資料結構化的重要性。在去年Lawsnote獲得opendata創新應用競賽首獎,有幸加入台灣opendata聯盟後,我對於資料結構和opendata有更深的理解。

有興趣的可以參考開放資料五顆星根據上面的星等分類,法學資料大多屬於一星等的opendata。非結構化程度很嚴重並且非常難以利用。取用方式也很困難。

例如裁判書是由特殊的編輯器(文采/漢書)所編寫,每28個全形字元就會出現一個強制斷行的命令,所以在建置搜尋引擎索引時,工程師就必須要這些斷行符號全部消除,再來接續的處理,否則就會出現隔行就搜尋不到的問題。

而每一個工序,就如同律師處理一件案件,要投入相應的資源和費用。

而Lawsnote目前在法學資料結構化的程度我有自信是台灣第一,沒有其他任何一家法學搜尋系統,可以讓你的關鍵字要一定要出現在裁判書的「法院見解」或「判決爭點」這個部分。

四、演算法設計

以Lawsnote的關聯度演算法涉及10+個factor為例,至少要有兩種人持續檢視演算法的最佳化。一種是熟悉律師工作和需求的法律人,透過研究法律人的需求持續提出各種可能性,另一種是資訊人,根據這些可能性去試驗產出結果然後再交由法律人去驗證。

因為Lawsnote需要這樣的人才,因此我們也投入了很多資源去尋找對資訊有興趣的法律人,以及對法律有熱情的資訊人,甚至是同時兼具法律和資訊的人才。

五、前端設計/使用者體驗

所謂前端就是大家看到的樣子,有甚麼按鍵可以點,每一行的字距要多少,點下去會進入甚麼畫面等等。

簡單來說,就是使用者在使用Lawsnote感受到的一切。

簡單其實很複雜。

在Lawsnote簡約設計的概念下,投入的研究成本是很巨大的,因為要透過簡單的方式讓使用者可以完成工作,必須經過漫長的研究與測試,最終才會提出。

如果有曾經寫信給Lawsnote客服信建議一個新功能的使用者,很可能會收到我們詢問這個功能是在甚麼情況下需要使用的反問,因為每規劃一個新功能,設計上都必須徹底理解這個功能是為了解決甚麼問題而生。

而這個呈現是我們在謹慎的研究和驗證後認為目前對使用者最好的解決方案。


我省略了客服系統、金流系統、業務、行銷、管理和運營上需要投入的資源。因為那是每一間公司都會產生的,因此一般人都可以理解。

但為什麼Lawsnote使用opendata並不是無本生意呢?

希望透過這篇文讓各位更理解一點。

 

責任編輯、視覺設計:VIvian C. 陳詠心

Cover Photo

這篇文對你有幫助嗎?歡迎分享轉發!

About Author

熱愛科技的法律人,喜歡啤酒、喜劇和狗。

Comments are closed.