Glossika 2020暑期實習心得 - Medium

2025-01-07

文章推薦指數： 80 %

投票人數：10人

Glossika 2020暑期實習心得 · 抱著一顆熱愛英語的心加入Glossika，卻一腳踏進了語言學的世界。

· Glossika: 結合人文與科學的語言(教學)平台 · Linguistics ... GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWriteGlossika2020暑期實習心得抱著一顆熱愛英語的心加入Glossika，卻一腳踏進了語言學的世界。

然後花了整整兩個月與英英字典及googlesheets朝夕相處。

Waitasecond!在簡介我負責的專案之前，先來談談Glossika是什麼。

Glossika的Logo，個人覺得很Q(有點像老闆MichaelGlossika:結合人文與科學的語言(教學)平台將教學括弧起來，是因為Glossika目前在市面上的確是個語言學習平台，人文精神在於用戶有超過60種的語言可以選擇學習；科學精神則是強調學習新語言的方法，透過間隔重複(spacedrepition)，也就是重複的聽、讀、錄音該語言，反覆練習日常生活當中常用的句子、將它們轉換成長期記憶。

這種學習語言的方式不受限於時間及地點，有別於其他的英語學習平台主打真人1對1互動、外師授課為主。

不過老闆Michael有更大的願景，除了繼續壯大Glossika平台之外，他集結自身對於各種語言的知識與熱情打造另一個平台VIVA，裏頭包含更多樣化的語言、語系分支、句型、單字分類等等，目的在於將一個個龐大、完整、有系統的語言資料庫靈活、廣泛地運用在生活當中。

舉例來說，將語言資料庫(database)餵食(沒錯，就是feed這個字!)給AI或機器人好讓他們瞬間變身mutilingual~(這個過程叫做machinelearning，聽起來是不是很厲害，我自己聽起來是覺得蠻神的啦)，又或者是以crowdsourcing(眾包)將資料庫販售給有多種語言需求的企業公司，類似B2B的概念。

如果說Glossika接下來要打造的產品是一個大型機器，那麼我便是組成這部機器的齒輪底下的一顆螺絲釘。

LinguisticsIntern,Research&Development語言學實習生,研究開發小組每天早上8:59分，我與其他實習生一同前往老闆的辦公室，(沒錯，我們工作的地點不在辦公室，我之後會花一個完整的段落介紹我兩個月的工作空間—共享辦公室，因為我超喜歡der!)，9點00分準時進行Stand-upmeeting。

Stand-upmeeting是每天早上5–10分鐘與老闆及其他實習生開的極短會議，總結昨天工作項目的進度及報告今天的工作目標，確認we’reonthesamepage，也可在這時候向老闆提出昨日遇到的疑問或困難。

“Ididaround2,500tokensyesterday,andIwillcontinuedoingthetokenstoday.”這大概是我每天早上的報告內容，唯獨從tokens換成frequencies換成levels換成lemmas又換成了MWEs，每日完成數量也會有所起伏。

那上述提到的一串英文字分別代表什麼意思呢，讓我們稍稍進入語言學的世界。

由於Glossika打造的新平台VIVA旨在打造多種語言、系統化的完整資料庫，我們這些實習生的主要職責就是建立英文這個龐大的資料庫。

最初輸入140,000+的英語單字、片語，及其詞性、時態變化、單複數等，統稱為tokens。

隨即從頭到尾檢查googlesheet上的tokens是否拼寫錯誤、漏標等。

(這兩個步驟便花了我們整整一個月)。

資料庫的雛形是我們耗費心血輸入的那14萬tokens(翻譯成中文才明白有多麽多XD)，接下來的任務是將它們系統化，也就是標記它們的頻繁使用率(frenquencies)—是否為日常生活會用的字？還是艱澀、連母語人士都不知道的字？和難易程度(Levels)，分成等級1–12，1是最簡單口語化的字，多數為常用的現在式動詞(ex:like,work)；12則是technicalword，可能是從事該專業領域才會曉得的term(ex:hermaphrodite，意思是雌雄同體，btw)。

將tokens標上level目的在於使語言初學者有個明確的參考指標，一般來說大部分人會先從level低的單字學起—越口語、實用，隨著學習時間拉長、對於該語言有較好的掌握度再往較高level的字學。

雖然我們善用googlesheet的公式整理、歸類、甚至演算出大量tokens的難易程度，但語言本身是一個相當主觀、且會因文化、時代、區域不同而相異的學問，因此還是得靠人力去檢查或判斷tokens的難易程度應該被歸在哪一個level。

為了使每個token的level不會因人而異，我們構思並創立了一個參照表，每當對於某token的level有歧異時，就以它當作標準降低人為誤差。

以上，大概就是我兩個月在Glossikalinguisticsteam的實習內容，由上述可知，我們一天要處理幾千個tokens，日積月累下來，這項職責培養我細心、謹慎的程度(雖然還是常常被老闆抓出typo..)、大大擴充我的英語字彙量(每天3hrplus與英英字典為伍)，此外，這是份較為靜態的工作，長時間久坐面對著googlesheet及密密麻麻的tokens考驗我的專注力及耐心持久度。

最後，這份實習也讓我重新思考自身對於語言的態度，我始終熱愛英語這個語言本身，也對我的英語程度相當有自信，但透過這份實習，我接觸到語言背後的邏輯與系統性歸類，雖然不能說讓我更愛英文(笑)，卻替我打開了一扇通往更博大精深的英語世界的大門。

整整一個月與這堆(1000多頁!)的英英字典影本為伍投以英/中文，報之以___文，之老闆Michael＆公司文化(同事另有一個篇幅，因為我太喜歡他們>//