種類代碼 - IBM

文章推薦指數: 80 %
投票人數:10人

對種類變數加以編碼時必須稍加注意,因為某些編碼方法可能會得到非預期的輸出或使分析不夠完整。

工作的可能編碼方法,如以下表格所示。

種類代碼 對種類變數加以編碼時必須稍加注意,因為某些編碼方法可能會得到非預期的輸出或使分析不夠完整。

工作的可能編碼方法,如以下表格所示。

表1.工作的另一個編碼方法 種類 A B C D 實習生 1 1 5 1 銷售代表 2 2 6 5 manager 3 7 7 3 某些類別程序必須先定義所使用的每個變數的範圍。

超出此範圍的所有數值都視為遺漏值。

最小種類值一律為1。

最大種類值由使用者提供。

此數值並非變數的種類個數而是最大的種類值。

例如,在表格中,方法A的最大類別值為3而方法B的最大類別值為7,但兩種方法都對相同的三個類別加以編碼。

變數範圍決定了會從分析中刪除的種類。

代碼超出定義範圍的任何類別都會從分析中刪除。

此為刪除類別的簡便方式,但可能會造成非預期的分析。

定義的最大種類若不正確,則可能將有效的種類從分析中刪除。

例如,對於方法B,定義最大種類值為3表示工作具有編碼從1到3的種類;經理種類即被視為遺漏值。

由於所有的類別實際上皆未編碼為3,分析中的第三個類別便不含觀察值。

如果您要刪除所有的經理種類,此種分析方式即可適用。

但若要包含經理,則必須將最大類別定義為7,且必須根據大於7或小於1的數值對遺漏值加以編碼。

對於視同名義或序數的變數而言,種類的範圍不會影響結果。

若是名義變數,則有重要影響的是標記而非與標記有關的數值。

若是序數變數,類別的順序便保留在量化中;類別值本身則並不重要。

形成相同類別順序的所有編碼方法其結果將會完全相同。

例如,若是在序數層級下分析「工作」,表格中的前三種方法便具有相同的作用。

類別的順序在這些架構中完全相同。

另一方面,方法D將第二個和第三個類別對調,並且產生異於其他方法的結果。

雖然變數的許多編碼方法在作用上大多相同,代碼之間差異較小的方法則較常被使用,因為代碼會對程序所產生的輸出量造成影響。

依據介於1和使用者定義的最大值之間的數值加以編碼的所有種類都是有效的。

其中若有任何空的類別,對應的量化即為系統遺漏值或0,依程序而定。

上述指定方式雖然都不會影響分析,但會針對這些種類產生輸出。

因此在方法B中,工作有四個類別接收系統遺漏值。

在架構C中則也有四個類別接收系統界定的遺漏指標。

相反,方法A並沒有系統遺漏量化。

使用連續整數作為名義變數或序數變數的代碼,即可產生較少的輸出而又不會影響結果。

在編碼方法的限制上,視為數值的變數比視為序數的變數更高。

對於這些變數,連續種類之間的差異很重要。

以下表格會針對年齡顯示三種編碼方法。

表2.年齡的可用編碼方法 種類 A B C 20 20 1 1 22 22 3 2 25GB 25GB 6 3 27 27 8 4 對數值變數重新編碼都必須保留類別之間的差異。

使用原始數值是確保差異得以保留的一種方式。

但這種方式可能會造成許多類別含有系統遺漏指標。

例如,架構A提供了原始觀察值。

對於「對應分析」以外的所有「種類」程序,最大種類值為27,最小種類值設為1。

前19個種類是空的,會接收系統遺漏的指示器。

如果最大種類遠大於1,並在1和最大值之間出現許多空的種類,便會迅速地產生多餘的輸出。

若要降低輸出量,您可以進行重新編碼。

但若是在數值變數的情況下,則不應使用「自動重新編碼」機能。

針對連續整數編碼會造成所有連續類別之間的差異為1,而且所有量化之間的間隔都會相等。

將變數視為數值變數時相當重要的矩陣特性會由於對連續整數進行重新編碼而遭到破壞。

例如,表格中的方法C對應於自動重新編碼的年齡。

類別22和25之間的差異已從三變更為一,量化亦反映出後者的差異。

另一種可保留類別之間差異性的重新編碼方法為:將最小的類別值從每個類別中減去,每個差異再加入1。

方法B即這種轉換的結果。

最小的類別值20已從每一類別中減去,再將1加入每個結果中。

轉換後的代碼的最小值為1,且所有的差異都和原始資料相同。

現在,最大的類別值為8,且第一個非零量化之前的所有零量化已全部消除。

再者,對應到方法B所產生之每個種類的非零量化皆與方法A中的量化相同。

上層主題:最適尺度層級與測量層級



請為這篇文章評分?