Glossika 2020暑期實習心得 - Medium

文章推薦指數: 80 %
投票人數:10人

Glossika 2020暑期實習心得 · 抱著一顆熱愛英語的心加入Glossika,卻一腳踏進了語言學的世界。

· Glossika: 結合人文與科學的語言(教學)平台 · Linguistics ... GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWriteGlossika2020暑期實習心得抱著一顆熱愛英語的心加入Glossika,卻一腳踏進了語言學的世界。

然後花了整整兩個月與英英字典及googlesheets朝夕相處。

Waitasecond!在簡介我負責的專案之前,先來談談Glossika是什麼。

Glossika的Logo,個人覺得很Q(有點像老闆MichaelGlossika:結合人文與科學的語言(教學)平台將教學括弧起來,是因為Glossika目前在市面上的確是個語言學習平台,人文精神在於用戶有超過60種的語言可以選擇學習;科學精神則是強調學習新語言的方法,透過間隔重複(spacedrepition),也就是重複的聽、讀、錄音該語言,反覆練習日常生活當中常用的句子、將它們轉換成長期記憶。

這種學習語言的方式不受限於時間及地點,有別於其他的英語學習平台主打真人1對1互動、外師授課為主。

不過老闆Michael有更大的願景,除了繼續壯大Glossika平台之外,他集結自身對於各種語言的知識與熱情打造另一個平台VIVA,裏頭包含更多樣化的語言、語系分支、句型、單字分類等等,目的在於將一個個龐大、完整、有系統的語言資料庫靈活、廣泛地運用在生活當中。

舉例來說,將語言資料庫(database)餵食(沒錯,就是feed這個字!)給AI或機器人好讓他們瞬間變身mutilingual~(這個過程叫做machinelearning,聽起來是不是很厲害,我自己聽起來是覺得蠻神的啦),又或者是以crowdsourcing(眾包)將資料庫販售給有多種語言需求的企業公司,類似B2B的概念。

如果說Glossika接下來要打造的產品是一個大型機器,那麼我便是組成這部機器的齒輪底下的一顆螺絲釘。

LinguisticsIntern,Research&Development語言學實習生,研究開發小組每天早上8:59分,我與其他實習生一同前往老闆的辦公室,(沒錯,我們工作的地點不在辦公室,我之後會花一個完整的段落介紹我兩個月的工作空間—共享辦公室,因為我超喜歡der!),9點00分準時進行Stand-upmeeting。

Stand-upmeeting是每天早上5–10分鐘與老闆及其他實習生開的極短會議,總結昨天工作項目的進度及報告今天的工作目標,確認we’reonthesamepage,也可在這時候向老闆提出昨日遇到的疑問或困難。

“Ididaround2,500tokensyesterday,andIwillcontinuedoingthetokenstoday.”這大概是我每天早上的報告內容,唯獨從tokens換成frequencies換成levels換成lemmas又換成了MWEs,每日完成數量也會有所起伏。

那上述提到的一串英文字分別代表什麼意思呢,讓我們稍稍進入語言學的世界。

由於Glossika打造的新平台VIVA旨在打造多種語言、系統化的完整資料庫,我們這些實習生的主要職責就是建立英文這個龐大的資料庫。

最初輸入140,000+的英語單字、片語,及其詞性、時態變化、單複數等,統稱為tokens。

隨即從頭到尾檢查googlesheet上的tokens是否拼寫錯誤、漏標等。

(這兩個步驟便花了我們整整一個月)。

資料庫的雛形是我們耗費心血輸入的那14萬tokens(翻譯成中文才明白有多麽多XD),接下來的任務是將它們系統化,也就是標記它們的頻繁使用率(frenquencies)—是否為日常生活會用的字?還是艱澀、連母語人士都不知道的字?和難易程度(Levels),分成等級1–12,1是最簡單口語化的字,多數為常用的現在式動詞(ex:like,work);12則是technicalword,可能是從事該專業領域才會曉得的term(ex:hermaphrodite,意思是雌雄同體,btw)。

將tokens標上level目的在於使語言初學者有個明確的參考指標,一般來說大部分人會先從level低的單字學起—越口語、實用,隨著學習時間拉長、對於該語言有較好的掌握度再往較高level的字學。

雖然我們善用googlesheet的公式整理、歸類、甚至演算出大量tokens的難易程度,但語言本身是一個相當主觀、且會因文化、時代、區域不同而相異的學問,因此還是得靠人力去檢查或判斷tokens的難易程度應該被歸在哪一個level。

為了使每個token的level不會因人而異,我們構思並創立了一個參照表,每當對於某token的level有歧異時,就以它當作標準降低人為誤差。

以上,大概就是我兩個月在Glossikalinguisticsteam的實習內容,由上述可知,我們一天要處理幾千個tokens,日積月累下來,這項職責培養我細心、謹慎的程度(雖然還是常常被老闆抓出typo..)、大大擴充我的英語字彙量(每天3hrplus與英英字典為伍),此外,這是份較為靜態的工作,長時間久坐面對著googlesheet及密密麻麻的tokens考驗我的專注力及耐心持久度。

最後,這份實習也讓我重新思考自身對於語言的態度,我始終熱愛英語這個語言本身,也對我的英語程度相當有自信,但透過這份實習,我接觸到語言背後的邏輯與系統性歸類,雖然不能說讓我更愛英文(笑),卻替我打開了一扇通往更博大精深的英語世界的大門。

整整一個月與這堆(1000多頁!)的英英字典影本為伍投以英/中文,報之以___文,之老闆Michael&公司文化(同事另有一個篇幅,因為我太喜歡他們>//



請為這篇文章評分?