Chapter 10 文字與字串資料處理| R 資料科學與統計 - Bookdown

文章推薦指數: 80 %
投票人數:10人

{R} 內有許多函數可以處理文字型態的資料物件或文字資料(Character Data), 常用之文字函式有 paste() , substr() , substring() , grep() , gsub() , strsplit() 等. AMinimalBookExample Prerequisites 1R語言基本概論 1.1下載與安裝R 1.2下載與安裝RSudio 1.3簡單實例 1.4物件Object 1.5使用指令 1.6查詢顯示物件與刪除物件 1.7程式中止操作 1.8工作目錄 1.9程式編輯軟體與整合系統RStudio 1.10函式Function 1.11套件Packages 1.12解說與輔助文件 1.13地區語系與時區 2向量 2.1向量 2.2向量基本資料類型 2.3向量產生函式c() 2.4向量基本運算操作符號 2.5向量基本算數操作 2.6向量關係比較操作 2.7向量邏輯操作 2.8向量元素命名 2.9向量下標與索引Inxex 2.10遺失值(缺失值)MissingValues 2.11因子物件與類別變數Factor 3資料物件 3.1矩陣物件Matrix 3.1.1矩陣函式matrix() 3.1.2矩陣命名dimnames() 3.2矩陣的下標與索引MatrixIndex 3.3向量與矩陣的合併:rbind()與cbind() 3.4陣列物件Array 3.5列表物件List 3.5.1列表函式list() 3.5.2列表的下標與索引ListIndex 3.6資料框架DataFrame 3.7資料框架函式data.frame() 3.7.1資料框架的下標與索引DataFrameIndex 4資料輸入與輸出 4.1資料框架 4.2輸入外部ASCII資料檔案至R資料框架:空白分隔 4.3輸入外部ASCII資料檔案至R資料框架:逗號分隔 4.4R內建資料框架 4.5輸出{R}資料 4.6儲存{R}格式資料檔 5資料視覺化分析 5.1視覺化分析原則 5.2繪圖套件ggplot2 5.3類別變數 5.3.1單一類別變數 5.3.2多類別變數 5.4連續變數 5.4.1單連續變數 5.4.2二連續變數 5.4.3三連續變數 5.5混合變數 5.5.1一連續+一類別 5.5.2二連續+一類別 5.6分組繪圖 6基本函式 6.1函式語法 6.2檢視的函式原始碼定義 6.3數列函式 6.3.1數列函式:seq()與sequence() 6.4重複元素函式:rep() 6.5算數函式ArithmeticComputingFunction 6.6組合與階乘函式:choose()與factorial() 6.7選擇資料函式:all(),any(),which() 6.8排序函式RankingandSorting 6.9物件查看與強制轉換函式 7基本統計函式 7.1敘述統計函式 7.2類別資料表格函數 7.2.1列聯表函式:table(),xtabs() 7.2.2列聯表函式:ftable() 7.2.3列聯表函式:margin.table(),prop.table() 7.3機率函式與亂數生成函式 7.4隨機抽樣函式sample() 8資料基本處理 8.1資料輸入套件readr 8.2整潔資料TidyData 8.3Tibble與DataFrame 8.4資料流動管道運算指令Pipe 8.5資料檢視函式glimpse() 8.6資料處裡dplyr套件 8.6.1選擇個體函式filter() 8.6.2依據變數值排序函式arrange() 8.6.3選擇變數或欄位子集函式select() 8.6.4變數轉換函式mutate() 8.6.5向量if_else() 8.6.6變數重新命名rename() 8.6.7移除缺失資料drop_na() 8.6.8隨機抽樣函式sample_n()與sample_frac() 8.6.9選出明顯不同個體函式distinct()與n_distinct() 8.6.10利用橫列指標選出個體函式slice() 8.6.11計算常見統計量函式summarise() 8.6.12資料分組操作函式group_by() 8.6.13多變數計算統計量函式summarise_all() 8.7資料聯集與交集函式 8.8資料合併函式 9資料迭代處理 9.1對資料變數欄位(columns)進行相同操作 9.2對資料個體列位(rows)進行相同操作 9.3依據條件進行變數轉換 9.4{R}資料物件操作函式:apply() 10文字與字串資料處理 10.1文字與字串資料基礎 10.2套件stringr 10.3合併文字或字串str_c() 10.4取出文字或字串向量中的部分元素str_sub() 10.5語言設定地區與文字大小寫排序 10.6移除空白,加入空白,截斷文字str_trim()與str_pad() 10.7尋找特定形式文字或字串 10.7.1偵測函式str_detect() 10.7.2確認位置函式str_detect() 10.7.3確認索引函式str_subset()與str_which() 10.7.4取出函式str_extract() 10.7.5配對函式str_match() 10.7.6替代置換函式str_replace() 10.7.7分割函式str_split() 10.8群組尋找特定形式的文字與字串 10.9尋找連續重覆特定形式的文字與字串 10.10正規表示文字與字串(萬用字元) 11因子資料處理 11.1forcats套件:基本函式 11.2移除或增加部分類別水準 11.3改變類別水準函式 11.4改變或合併類別水準函式fct_lump() 11.5類別水準的頻率排序函式fct_infreq() 11.6依照其他變數將類別重新排序函式fct_reorder() 12日期時間處理 12.1lubridate套件的日期時間 12.1.1從文字或字串轉換創件日期時間物件 12.2從date-time資料個別成分,創件日期時間物件. 12.2.1從已經建立的其他資料物件創件日期時間物件 12.3時區轉換 12.4取出date-time資料的個別成分 12.5計算時間長度 12.5.1duration創建以秒計算的時間長度的物件 12.5.2period創建以人類文明的時間單位計算時間長度 12.5.3interval計算二個date-time物件之間的時間長度. 13統計與醫學 13.1醫學統計 13.2統計與數學 13.3醫學研究資料 13.4統計計算與統計軟體 14資料與變數 14.1醫學研究實例 14.2資料與變數DataandVariables 14.3變數分類 14.3.1統計與變數分類 14.3.2資料數位化與變數分類 14.4單變量,雙變量與多變量 14.5資料輸入與儲存 15Applications 15.1Exampleone 15.2Exampletwo 16FinalWords 17Temp References Publishedwithbookdown R資料科學與統計 Chapter10文字與字串資料處理 傳統上,統計人員較少直接處裡文字或字串資料, 多數時候是由資料管理人元處理後,轉換成數值資料,然後交由統計人員進行後續分析. 由於大數據時代來臨包含者多樣性的資料型態, 統計人員必須必須直接處裡文字或字串資料的機會也越來越多. {R}內有許多函數可以處理文字型態的資料物件或文字資料(CharacterData), 常用之文字函式有 paste(), substr(), substring(), grep(), gsub(), strsplit()等. {R}套件stringr有更多處理文字或字串資料函式. 10.1文字與字串資料基礎 輸入文字遠比數字複雜,必須考慮大小寫,空格或Tab, 單引號或雙引號,特殊符號與字元等等. {R}輸入特殊符號的顯示與實際想要輸入的特殊符號有些差別. st1%str_subset(pattern="(a|the)([^]+)")%>% str_extract(pattern="(a|the)([^]+)") ##[1]"thesmooth""thesheet""thedepth""achicken" sent.vec%>%str_subset(pattern="(a|the)([^]+)")%>% str_match(pattern="(a|the)([^]+)") ##[,1][,2][,3] ##[1,]"thesmooth""the""smooth" ##[2,]"thesheet""the""sheet" ##[3,]"thedepth""the""depth" ##[4,]"achicken""a""chicken" sent.vec%>% str_replace("([^]+)([^]+)([^]+)","\\1\\3\\2") ##[1]"Thecanoebirchslidonthesmoothplanks." ##[2]"Gluesheetthetothedarkbluebackground." ##[3]"It'stoeasytellthedepthofawell." ##[4]"Theseadayschickenlegisararedish." ##[5]"Riceoftenisservedinroundbowls."



請為這篇文章評分?