當前位置:首頁 >> 計算機軟件及應用 >>

spss數據處理基礎

第一篇 SPSS 數據處理基礎
本篇要點導讀:
第 1 章 SPSS 數據的錄入 數據錄入的一般步驟,數據結構的定義,文件合并,文本數據的導入;
第 2 章 數據文件的操作和預處理 【Data】菜單中對變量和案例的操作,【Transform】菜單中計數和分類賦值的操 作。
本篇說明:
1. 本篇重點說明數據錄入和文件整理的整個過程,以及過程中特別需要讀者注意的問題, 對于 SPSS 操作簡明扼要,沒有對每一個選項進行詳細說明,只是配合例題針對常用和重 點選項進行說明,如讀者想了解詳細說明請查閱相關書籍,本書會給出標示。在以后的章 節中我們也會遵循這一原則,不再特別說明; 2. 如果讀者是有一定的 SPSS 使用基礎,了解 SPSS 的一些基本操作,對數據錄入和預處 理比較清楚,可以簡略瀏覽本篇,重點了解數據錄入的一般流程和預處理中注意的問題。 也可直接略過本篇從第二篇開始學習; 3. 如果讀者是 SPSS 初學者,由于本篇在軟件操作上的介紹比較簡略,請初學者在學習此 篇的時候一定遵循我們的例題操作并注意圖例標示,必要時查閱書中列出的相關參考書 籍,并完成課后兩道以上的習題操作,務求掌握此篇內容,為以后 SPSS 軟件學習奠定基 礎。

『2』

第 1 章 SPSS 數據的錄入

第 1 章 SPSS 數據的錄入

SPSS 既是 Statistical Package for the Social Science(社會科學統計軟件包)的縮寫,也是 Statistical Product and Service Solution (統計產品與服務解決方案)的縮寫,是世界上幾大統計分析軟件(SPSS、SAS、 S-plus/R、STATA、GUASS)中使用最廣泛,界面最友好,操作最方便的統計軟件,其強大的功能和易 掌握性對于非統計專業特別是經濟和管理專業的學生和工作人員,是一個不可多得的統計分析和數據處 理的好工具、好助手。本書將基于 SPSS 17.0 給讀者介紹 SPSS 的強大功能,關于 SPSS 的安裝和一般 Windows 應用軟件沒有什么不同,讓我們從 SPSS 的基礎——建立數據文件和錄入數據開始吧。

1.1 SPSS 數據文件的建立和數據錄入

在本節中我們從一個簡單例題入手,讓讀者了解 SPSS 是如何建立數據文件,以及如何錄入數據的。 例 1-1 下表是某保險機構收集的車險投保人數據,請根據數據特點建立 SPSS 數據文件。
表 1.1 車險投保人的數據1

性別 年齡 交通事故數 性別 年齡 交通事故數

男 23

2

女 25

1

男 35

1

女 24

3

男 26

1

女 31

1

男 25

0

女 26

0

男 28

2

女 26

0

男 31

1

女 29

0

男 23

1

女 22

2

男 31

3

女 25

5

……



……



首先,進入 SPSS 軟件,雙擊桌面上的 SPSS 圖標,或者從“開始”菜單→“所有程序”→“SPSS Statistics” →“SPSS Statistics”圖標進入軟件,將會看到如圖 1-1 的軟件界面:
在啟動 SPSS 后,一般先進入一個導航框,其中有一些常用操作和上次使用過的數據文件和結 果文件等,不用太過理會導航框,直接選擇 Cancel 就可以進入軟件主界面。

1為節省篇幅,表中僅列出部分投保人案例,完整數據請見光盤中的數據集 1-1

第一篇 SPSS 數據處理基礎
在軟件界面中,除了看到與一般軟件相同的菜單、快捷按鈕以外,還可以看到灰色的“變量(英文 界面是 Var)”和“1、2、3”分別代表變量和案例,由于我們還沒有建立任何變量和案例,所以這些都 是灰色的。在界面的右上角可以看到“Visible:0 of 0 Variables”表明數據中共有 0 個變量,可見的是 0 個變量。接下來我們就在這個操作界面中建立變量和案例。
關于變量和案例,分別對應操作界面的列和行,這與一般的數據庫軟件相同,有些書稱為變量和記錄,統計上通常稱 為指標和樣本,意思大同小異。

案例 1、案例 2…

變量

總共有多少個變 量,其中可見的 有多少個變量

數據視圖和變量視圖

圖 1-1 SPSS 軟件界面

建立 SPSS 數據文件和一般的數據庫文件建立的考慮基本相同,主要是兩個步驟: Step1:定義文件的數據結構; Step2:錄入數據。

在 Step1 中,重點需要考慮用多少個變量,每個變量的結構,例如是整數型變量還是浮點小數型變 量,小數位數取多少合適,變量取值是否代表某種分類,需要如何顯示等等;在 Step2 中,主要考慮根 據案例的多少來決定是一個人單獨輸入所有數據還是多人分別輸入然后合成完整的數據。下面我們結合 例題具體講解。

1.1.1 SPSS 的數據文件結構
在本例中,我們主要考慮三個變量,分別是投保人的性別、年齡和發生的交通事故次數。其中性別 是一個分類變量,它只有男、女兩個值;對于年齡,是一個整數型變量;而交通事故次數也是一個整數 型變量。以上就是對變量的考慮。對于案例,由于總共有 500 個案例,單獨輸入工作量過大,因此可以 考慮分別錄入再進行合并。
接下來我們就在 SPSS 中定義變量的結構。圖 1-1 的軟件操作界面左下角有兩個類似 Excel 工作表一 樣的選項卡,分別叫做【Data View】和【Variable View】,其作用和 Excel 工作表的平行數據表大不相同, 有著嚴格的分工:【Variable View】稱為【變量視圖】,專門用于定義 SPSS 變量的結構,而【Data View】 稱為【數據視圖】,用于對案例的錄入;換言之,變量視圖只用于定義結構,不能用于錄入數據,相反數 據視圖只用于錄入數據,不能定義變量結構,對于不同的操作要在不同的視圖中完成,這一點請讀者務 必明確。例如,接下來我們要先定義變量的結構,就應該在【Variable View】中定義。

『4』

第 1 章 SPSS 數據的錄入

點擊【Variable View】選項卡,進圖 1-2 如下操作界面:
可以看到在此視圖中,每一行代表一個變量,本例題定義 3 個變量,因此有 3 行,列名稱中分別有 “Name”、“Type”等,我們已經在圖上做出了標示,此處就不贅述了,只是對于重點的幾個列進行說明:
“Name”菜單表示變量名稱,可以用英文字母、數字和下劃線給變量命名,也可用中文命名,但是 不推薦使用中文作為變量名。

從 SPSS 10.07 后,就可以用漢字給變量命名,以前要求變量名長度不超過 8 個字符,即 4 個漢 字,在 SPSS 13.0 以后放寬到 64 個字符,所以可以用漢字命名;但是 SPSS 的漢字兼容性不太好, 以前筆者使用漢字命名時,不止一次分析結果的變量名出現亂碼,因此不推薦使用漢字作為變量名, 強烈推薦用英文命名變量,變量名標簽用漢字說明變量的含義。

變量缺省值

對齊方式

變量名

變量類型

變量顯示寬度

變量位數

小數位數

變量名標簽

變量值標簽

圖 1-2 Variable View 操作界面

變量尺度

“Type”表示變量類型,總共有“Numeric”數值型、“Comma”逗號型、“String” 字符串型等八 種類型供選擇,一般使用數值型就可以了2;需要特別說明的是,字符串型變量不能用 SPSS 進行分析, 只能起案例名稱標注的作用,因此要分析的變量都要轉化為數值型變量,例如,本例題中性別這個變量 就要轉化為取值為 1 和 2 的變量,不能直接使用“男”、“女”作為變量值。

“Label”變量名標簽的作用非常巨大,由于變量名標簽和變量是綁定顯示的,在變量分析和顯示分 析結果時可以一目了然了解變量的含義,對于 SPSS 的使用者都要養成給變量添加變量名標簽的習慣, 本例中,對每個變量我們都根據其含義指定了變量名標簽,在以后的學習中讀者將體會到變量名標簽的 方便。

“Value”變量值標簽也是非常重要的,對于分類變量和定序變量,一般只能取有限的幾個值,前面 已經了解必須要對其進行編碼才能用于 SPSS 分析,這可以通過編制變量值標簽來實現,還可以說明每 個取值代表什么含義,例如,本例題性別變量中,我們用 1 代表“男”,用 2 代表“女”,這就需要在變 量值標簽中說明,一旦編制了變量值標簽,軟件在分析時按照數字進行分析,在顯示時按照變量值對應 的文字進行顯示,這樣大大方便對結果的理解。我們通過下述操作編制變量值標簽:

點擊變量值標簽“Value”下對應變量的單元格,出現

,點擊右邊的三個小點,出現如圖

1-3 所示對話框,在 Value 框中填寫“1”,在 Label 框中填寫“男”,說明在 SPSS 性別變量中取值為 1 代

2關于變量類型的說明,可以參看薛薇編著,《統計分析與 SPSS 應用》,北京人民大學出版社

第一篇 SPSS 數據處理基礎

表是男性,定義好后,點擊

添加定義,將在右邊的框中顯示定義,以后還可以對右邊框中定義進

行修改(對應

按鈕)和刪除(對應

按鈕)。重復操作可以定義取值為 2 代表是女性。定義

好的標簽如圖 1-4。定義好標簽以后,點擊

,完成變量值標簽的定義,以后可以類似定義變量值標

簽。另外兩個變量“年齡”和“交通事故數”由于不是分類變量,不需要編制變量值標簽。

在 SPSS 數據文件 中的取值,數字

取值的實際含義,文字 添加定義

圖 1-3 添加變量值標簽的操作

圖 1-4 添加好的變量值標簽

“Measure”變量的尺度,分為三種, ? “Scale”稱為間隔尺度,說明變量取值有大小之分,并且變量值的差代表差異程度,本例中的“年
齡”和“交通事故次數”就屬于間隔尺度,有些書籍也稱為“定量變量”;
? “Ordinal”稱為順序尺度,說明變量取值有大小之分,但是變量值僅表示順序先后,變量值的差不 能代表差異程度,本例中沒有順序尺度變量,但是我們經常接觸到的產品分級,職稱高低、學歷高 低都屬于順序尺度變量,有些書籍也稱為“定序變量”;
? “Nominal”稱為名義尺度,說明變量取值沒有大小之分,不同變量取值只表示案例屬于不同的分類, 例如本例中的性別就屬于名義尺度,1 和 2 僅僅代表“男”和“女”兩個分類,也稱為“定類變量”。

其實變量的尺度非常好判斷,首先判斷變量取值有沒有代表大小,如果沒有,那一定是名義尺度,如果取值代表了大 小,再看取值相減有沒有意義,如果沒有意義,那就是順序尺度,有意義就是間隔尺度。

根據本例中的變量尺度,我們應該將第一個變量“性別”定義為名義尺度,第二個變量和第三個變

量定義為間隔尺度。對于尺度的定義很簡單,用鼠標點擊“Measure”下變量對應的單元格



點擊右側的箭頭打開下拉菜單,進行相應選擇就可以了。

通過以上的定義,我們基本定義好了變量結構3,回到【Data View】,我們看到有三個變量的名稱變 成了我們剛才定義的變量名,并且變黑了,但是案例的 1、2、3 還是灰色的,說明雖然定義了變量結構, 但還沒有輸入任何的案例數據。

3關于變量其他屬性的定義和說明,請參看張文彤《SPSS11 統計分析教程》,北京希望電子出版社。

『6』

第 1 章 SPSS 數據的錄入

如果讀者對變量要求不高,也可以不定義變量直接在【Date View】中輸入案例數據,此時會使用缺省變量名“var00001”、 “var00002”等來命名變量,但是在以后的分析中我們將發現沒有定義變量結構將會有許多不便,想節省時間,結果反而 浪費更多時間。所謂“磨刀不誤砍柴工”,推薦讀者在使用 SPSS 分析數據時,都先定義變量結構再錄入數據。

1.1.2 SPSS 的數據錄入
現在我們開始變量錄入的工作了,如果說變量結構定義是設計整個數據文件的框架和大梁,那么現 在的工作就是往框架中添磚加瓦,這是整個數據錄入階段最基礎,也是最累人,工作量最大的操作了, 但是沒有辦法,只有一條條案例往數據里敲。這個和任意一個數據錄入軟件如 Excel 沒有太大差異,只 是中間有一些技巧和竅門,是筆者使用的心得,現在和讀者共享,讀者在使用 SPSS 中多多總結,也會 發現自己的竅門。
數據錄入的一些技巧: 1. Copy & Paste 方法,在數據錄入過程中,要充分利用 Copy & Paste 方法,例如,變量輸入中有多
個單元格數值相同,則可以輸入第一個單元格數值,然后 Copy 單元格數值,選中第二個單元格,按住 Shift 鍵再點最后一個單元格,再點鼠標右鍵,選擇 Paste,就可以一次輸入多個單元格內容,例如在本 例中前 250 個性別變量取值都是 1,則可以如此操作,一次輸入所有的 1;
2. 如果數據在 Excel 或者其他數據庫文件中,則可以直接在 Excel 中復制數據內容,再在 SPSS 中 點擊第一個單元格,選擇 Paste,就可以輸入數據了,最后別忘了,如果數據沒有定義變量結構一定要補 充定義變量結構;
3. Word,或者文本格式中,也可以選擇復制和粘貼,只不過必須確定全部是數值,否則在粘貼的過 程中會出現問題,會使得文本在 SPSS 中變成缺失值,這是因為 SPSS 默認變量類型是數值型,對于字符 型變量就處理成缺失值了。對于此種情況的處理辦法我們在第二節將介紹。
數據編輯的一些技巧 1. 如果在數據錄入中想快速找到某一條案例,可以選擇 Edit 菜單→Go to case,輸入案例編號,點
確定系統就會定位到該案例的位置,如果不知道案例號,只是知道某變量的取值,可以選擇 Edit 菜單→ Find,輸入要查找的值,一個個查找案例即可;
2. 充分利用變量值標簽,此處顯示出變量值標簽的一個優勢,只需選擇 View 菜單→Value labels 或 者點擊快捷按鈕上的 ,此時所有定義了變量值標簽的變量輸入可以利用下拉菜單完成,點擊每個單元 格時,右側會出現箭頭,點擊會出現下拉菜單,選擇下拉菜單的選項就可以完成輸入,本例中性別變量 就可以按此快速輸入;
用此功能檢查變量輸入是否出錯也很方便,選擇 Value labels 后,有變量值標簽的變量所有單元格將顯示變量值的說明, 例如在本例中,取值為 1 的單元格中將出現“男”,取值為 2 的單元格中將出現“女”,如果單元格中不出現“男”或“女” 而出現數值,那就說明輸入時出錯了。
3. 如果數據量較大,此時單獨錄入容易疲勞,越到后面越容易出錯,此時最好在定義好了數據結構 以后,將案例分成多份,由多人輸入,形成多個數據文件再合并,這樣可以提高錄入效率,減少錄入錯 誤,例如本例就可以將案例數據分成兩份,男性案例和女性案例各為一份,由兩人分別錄入,再進行文 件合并,文件合并的操作將在下一小節介紹。

第一篇 SPSS 數據處理基礎
1.1.3 SPSS 數據文件的合并
上一小節我們將數據量較大的數據分成兩份錄入,形成了兩個數據文件,比如 1-1-1 和 1-1-2,接下 來的問題是如何將兩個數據文件的數據合并到一個問卷中,有讀者會問,直接把 1-1-2 的內容復制下來 粘貼到 1-1-1 中不就完了嗎?實際上沒有這么簡單,SPSS 是單窗口軟件,打開 1-1-1 文件必須先關閉 1-1-2, 伴隨文件關閉,剪貼板中的內容也不在了,復制粘貼操作必須借助第三方軟件,例如 Excel;但是隨著 SPSS 版本的升高,SPSS 已經從一個單窗口軟件變成多窗口軟件,這個問題已經不再那么突出,但是我 們還是加以介紹,讓讀者了解文件合并的操作。
以前 SPSS 是一個單窗口的軟件,不能同時打開兩個數據集文件 1-1-1 和 1-1-2,這就使得 Copy & Paste 數據必須先打開 1-1-2,將其內容復制粘貼到 Excel 中,再打開 1-1-1,將 Excel 中的內容復 制粘貼到 1-1-1。SPSS17.0 已經可以同時打開多個數據集文件了,復制粘貼也可以直接從 1-1-2 到 1-1-1,因此以前的困難現在已經不再存在,這也算是一個進步吧。
讀到此處,讀者也許會覺得,問題已經解決了,不需要再往下說了,但是這其中還有問題,比如, 兩個文件完全采用了不同的變量順序,比如 1-1-1 按照性別、年齡、交通事故次數的順序輸入數據,1-1-2 卻按照年齡、交通事故次數、性別的順序輸入數據,此時直接復制粘貼就會張冠李戴,行不通了;也許 讀者會問,那我調整一下變量順序不就行了,沒什么問題啊,在變量不多的情況下,例如本例,確實可 以這樣操作,但是如果變量很多,要調整順序也許就是一個非常麻煩的事情了。有沒有一個讓變量自動 “識別”,自動“對齊”的辦法呢?辦法就是 SPSS 文件合并。
SPSS 的文件合并分為縱向合并和橫向合并,因為縱向合并是在已有數據的下面增加案例,所以稱為 “Add Cases”,同理,橫向合并是在已有數據的右邊增加變量,因此稱為“Add Variables”。到底采用橫 向合并還是縱向合并是根據待合并文件的結構和數據錄入的分工來決定的。
如果數據錄入分工是每人錄入一部分案例(通常的情形),那待合并文件的結構就是全部的變量相同,但是案例不同, 此時該使用縱向合并增加案例;如果數據錄入分工是每人錄入一部分變量(當然這樣做效率比較低),那待合并文件的結 構就是全部的案例相同,變量不同,當然選橫向合并增加變量,很簡單吧!
無論是縱向合并還是橫向合并,都有一個如何對齊的問題,我們先來介紹縱向合并,既然是縱向增 加案例,當然是按照變量對齊,按照如下操作:
Step1:打開第一個文件 1-1-1, Step2:選擇【Data】菜單→【Merge Files】菜單→【Add Cases】菜單

選擇一個已 打開的文件

選擇文件后

從指定路徑選擇

點擊此按鈕

一個磁盤文件

圖 1-5 縱向合并文件選項

出現圖 1-5 對話框該對話框是詢問待合并文件是已打開的文件還是磁盤上存儲的文件,選擇已打開的文 件可以在已打開文件列表中直接選取,選擇磁盤文件必須指定路徑,由于本例中文件 1-1-2 已經打開,

『8』

第 1 章 SPSS 數據的錄入

故直接選取,如果沒有打開請從第二個選項中指定路徑。

Step3:選擇文件,點擊

按鈕

未配對變量框

配對按鈕 重命名按鈕

變量不配對進入合
并后文件的按鈕
文件來源復選框
合并以后文 件中的變量

圖 1-6 縱向合并文件選項對話框
出現圖 1-6 對話框,左邊框中是為配對的變量,分別來自兩個文件,來自當前文件變量名后有“*”,來 自打開或者磁盤文件的變量名后有“+”,右邊框中是合并后文件的變量,我們通過中間兩個按鈕將變量 從左邊選到右邊,可以選擇兩個文件中意義相同的變量,點擊“pair”按鈕配對生成右邊一個變量,表 示這兩個變量的值對齊生成合并后文件的一個變量,也可以直接選擇一個變量,不經過配對,直接點擊 箭頭按鈕直接進入合并后文件,此時由于沒有變量與之對齊,將會在相應位置出現缺省值;還可以勾選 文件來源復選框,將在合并后的文件中新生成一個變量用來記錄案例是來自哪個文件。
感覺很復雜吧,其實不難,對于兩個文件中變量名相同的變量,SPSS 會自動配對,比如本例就是自動配對的;所以 如果想操作簡單,就把兩個文件中意義相同的變量取同樣的名字吧!當然名字不同也可以配對,例如第一個文件中性別變 量名是 gender,第二個文件中是 sex,選擇兩個變量點 pair,右邊會生成一個新變量 gender&sex,&前面是第一個文件中 的變量名,&后面是第二個文件中的變量名,是不是感覺容易些了?當然,你也可以通過 rename 按鈕將第二個文件的變 量名改為 gender,那么點配對以后,右邊框中只會出現 gender 這個變量名了。
關于缺省值,我們說明如下:變量配對以后不會在合并后的文件中產生缺省值,變量不經過配對直接進入合并后文 件,會產生缺省值,如果變量來自第一個文件,那第二個文件沒有變量與之對齊,所以第二文件的案例在該變量上是缺省 值,反之,第一個文件案例在變量上時缺省值;判斷變量有沒有配對主要看右邊框中變量名后面有沒有跟著“*”或者“+”。

Step4:選項選擇完成后,點擊

按鈕,完成文件的縱向合并

由于本例題中所有意義相同的變量的名稱都一樣,因此變量自動配對對齊,縱向合并的操作非常簡 單,這從一個方面說明預先定義變量結構的方便性。

下面介紹橫向合并,需要說明的是,縱向合并在實際中使用比較多,而橫向合并使用很少;這一方 面是因為它效率低,另一方面也是因為它在 SPSS 上的操作比縱向合并復雜,假如我們在進行輸入工作 分工的時候不是按照案例將輸入分工,而是按照變量將輸入分工,當然這樣分工比較奇怪,因為對于不 同案例的輸入可以同時進行,而對于不同變量的輸入一般不能同時進行,除非有很多個數據的備份,否 則在甲輸入第一個變量的時候,他必須使用所有的數據,其他輸入員就只有等著,效率當然就低了,這 個現象在市場調查問卷錄入時尤其明顯;但是橫向合并也有自己的用武之地,比如已有許多變量數據了, 后來需要補充輸入幾個變量,此時可以將要補充的數據形成一個新的文件,再運用橫向合并添加到已有 文件中,這種情況在市場補充調查中有一些應用。

第一篇 SPSS 數據處理基礎
我們先不管基于什么原因,我們的輸入工作確實是按照變量分工的,各錄入員也錄入數據得到了各 自的文件,比如本例中,一個輸入員輸入性別和年齡變量,另一個輸入員輸入交通事故次數這個變量, 得到兩個文件 1-1-3 和 1-1-4,下面將兩文件合并。
橫向合并是在橫向增加變量,當然其對齊的標志只能是案例了,必須清楚每個變量值添加到那個案 例后面,為此需要建立一個關鍵變量,每個案例在此變量上取值都不同,關鍵變量通常是編號(ID), 兩個文件都有編號這個關鍵變量以后,我們就知道 5 號案例的交通事故次數要加在 5 號案例的性別和年 齡之后,而不會加在 2 號案例的后面,這樣就實現了對齊,不會出錯了。
縱向合并要求變量和變量能區分,以便清楚性別的值接在性別后面而不是年齡的值后面,這很容易,因為 SPSS 中不 同變量的變量名必須是不同的,變量是自然區別的;橫向合并要求案例能區分,這就不那么容易了,因為兩個案例完全可 以在所有變量上取值都相同,因此,本例中我們需要增加一個編號變量,保證每個案例在編號上取值不同!當然,如果數
據本身有編號這個變量,我們就省下力氣了。
當然,用于區分案例的變量不一定是編號,只要是每個案例取值全不相同的變量就可以作為關 鍵變量,所以,關鍵變量就好像是一個“案例識別器”,運用它就可以把每個案例準確識別出來,就 好像給每個案例發一個“身份證”,每個案例的“身份證號”都不相同。
當保證兩個數據文件中都有關鍵變量以后,就可以進行橫向合并了,其操作如下: Step1:打開第一個文件 1-1-3, Step2:選擇【Data】菜單→【Merge Files】菜單→【Add Variables】菜單
圖 1-7 合并文件選項 出現圖 1-7 對話框,設置基本相同,此處是選擇磁盤文件 1-1-4 而不是已打開文件。
Step3:選擇文件,點擊 Continue 按鈕,出現圖 1-8 對話框 對于此選項框,按照圖上標示,將關鍵變量“編號(ID)”選入“Key Variable”框中,并確定案例 是按此變量升序排列,右邊的“New Active Dataset”框中是合并后新文件中將出現的變量,左邊的 “Excluded Variables”框中是剔除的變量,將不會出現在新文件中,選中一個變量,點擊中間箭頭按鈕, 就可以將變量從一個框移到另一個框,這樣就可以決定新文件中將出現哪些變量了,例如,本例中,新 文件中將會有性別、年齡和交通事故次數,當然,還有關鍵變量“編號”。

『 10 』

第 1 章 SPSS 數據的錄入

首先勾選此項

然后選擇關鍵變量-ID

案例來源 單選框

最后點此確定關鍵變量

圖 1-8 橫向合并選項框

Step4:選項選擇完成后,點擊

按鈕,完成文件的橫向合并4

感覺橫向合并比縱向合并更難了,事實確實如此,橫向合并的關鍵是選擇關鍵變量(Key Variable),關鍵變量找好了 就成功了一半,然后再將需要在新文件中出現的變量選入“New Active Dataset”就大功告成,可以直接點 OK 了,這個講 解不太難了吧。

現在我們已經能夠建立 SPSS 數據文件的變量結構,并通過鍵盤輸入數據了,如果輸入工作量太大, 還可以進行分工后運用文件合并功能高效的生成文件;但是在數據分析中,數據用 SPSS 格式保存的太 少了,接下來的一節將介紹如何利用 SPSS 將已有的其他格式文件轉化為 SPSS 格式。

1.2 從其他文件中導入數據建立 SPSS 數據文件
SPSS 不僅可以自己建立數據文件,還可以將其他應用程序生成的數據文件轉化為 SPSS 的數據文件, SPSS 良好的兼容性也是其廣泛應用的基礎;我們從互聯網上,數據庫中,或者其他數據處理軟件上得到 的數據,都能夠方便的轉化為 SPSS 數據文件進行分析處理,SPSS 不能處理的數據文件是很少的。由于 數據文件主要以三種形式存儲:應用軟件數據文件形式、數據庫文件形式還有文本形式,下面我們就分 小節對這三種形式的文件分別說明。
1.2.1 從電子表格文件中讀入數據
隨著 MS Excel 廣泛用于辦公和簡單數據處理,電子表格文件(后綴名為.xls)成為非常常見的一類 數據文件,對于小型或者零散的數據,多數用電子表格文件記錄;另外,《中國統計年鑒》以及一些省市 的年鑒數據,也是用電子表格文件發布的,因此,掌握了電子表格文件轉化為 SPSS 數據文件的方法, 無形中我們的數據來源就豐富了許多。下面通過一個具體的例子讓大家了解轉化的過程。
例 1-2 在隨書的光盤中,有一個電子表格文件 1-2.xls,記錄了一些數據,要求把它轉化為 SPSS 數據文 件。

4關于案例來源單選框,解釋起來很復雜,而且用處不大,就用默認選項就好了,有興趣讀者可以參看相關書籍。

第一篇 SPSS 數據處理基礎

由于 SPSS 能夠直接打開電子表格文件,因此,轉化的過程可以歸納為三步:

Step1:選擇【File】菜單→【Open】菜單→【Data】

打開電子表格文件,或者直接點擊快捷按鈕 ,進入如圖 1-9 打開文件對話框,按照圖上表示,點

擊打開類型下拉菜單,選擇 Excel 文件類型,電子表格文件 1-2 將會出現,再選中此文件,點



出現如圖 1-10 對話框,該對話框詢問是否要從第一行讀取變量名,以及讀取變量的范圍,點擊復選框,

其他選項用默認值,點

,將數據讀入到 SPSS;

選擇文件類型下拉菜單 中的 Excel 文件類型

圖 1-9 打開文件對話框

圖 1-10 讀取變量對話框

Step2. 處理缺失值(如果出現缺失值)或者字符變量的值

數據讀入以后,我們看到變量已經有變量名了,但是有兩個變量取值是字符型,分別是“Ptid”變 量和“Clinic”變量,通過查看變量,我們了解了前一個變量是類似編號的編號,可以保持字符型,但是 后一變量是表示案例來自那個診療科的類別數據,因此要對此變量進行重新編碼,將 A、B、C、D 對應 編碼為 1、2、3、4,將該變量轉化為數值型。

Step3. 定義變量結構

為每個變量添加變量名標簽,為“Clinic”和“Sex”變量添加變量值標簽,定義好變量結構。正確 的變量結構如圖 1-11 所示

圖 1-11 變量結構示例圖 這樣,數據就導入完畢,可以將數據保存為 SPSS 數據文件了(見光盤 1-2.sav)。
SPSS 從其他的應用軟件(如 SAS)中讀取文件操作類似,這里就不再贅述了,留作讀者練習。

『 12 』

第 1 章 SPSS 數據的錄入

1.2.2 從數據庫文件中讀入數據

數據庫文件是另外一種常用的數據存儲格式文件,從專業數據庫中得到的數據大多采用此種格式存 儲,現今使用越來越多的數據倉庫,從中獲取的數據也多是用數據庫文件格式存儲的;因此,掌握從數 據庫文件中讀入數據對于擴展 SPSS 數據源是非常重要的。下面通過一個例子說明如何讀取:

例 1-3 隨書光盤中有一個名為 1-3.dbf 的數據庫文件,記錄了 2007 年 7 月-2009 年 6 月全國經濟一致指 數和部分企業家信心指數5,請將其讀入 SPSS 中并定義變量結構。

從數據庫文件中讀取數據類似于從電子表格中讀取數據,大體也分為三步(和上面相同,此處不列 出):

Step1:選擇【File】菜單→【Open】菜單→【Data】

出現如圖 1-9 所示打開文件對話框,點擊打開類型下拉菜單,選擇數據庫格式“.dbf”,選擇文件

“1-3.dbf”點

,將數據讀入 SPSS;

Step2:對數據集文件進行必要的修改

如圖 1-12 可以看到,讀入的數據不很規范,因此需要對數據文件進行整理,將中文變量名改成英文, 去掉多余的變量“D_R”,將變量名“n1”改為“yearmon”,表示年月,對數據也進行整理,去掉第一個 無效案例。

圖 1-12 數據庫文件的讀入數據結構 Step3:定義變量結構 除“yearmon”保持不變,其余變量全部轉化成數值型,變量長度指定為 8,同時添加變量名標簽, 將變量顯示寬度調整為 8,變量尺度也全部變成“Scale”。修改好的數據文件保存為 SPSS 文件(見光盤 “1-3.Sav”)。 上面介紹的是比較簡便的讀取數據庫文件的方法,另外 SPSS 還提供數據庫向導的方式讀入數據庫 文件,分為三步: Step1:選擇【File】菜單→【Open DataBase】菜單→【New Query】 將看到圖 1-13 所示的數據庫向導窗口,看到 SPSS 提供三種數據庫讀入向導:dBase、Excel、Access 格式,光盤中有 1-3.xls 的 Excel 文件,因此我們選擇第 2 種文件格式,因此選擇第 2 個向導選項,點擊 “Next”;進入一個文件路徑對話框,指定路徑后點擊“Ok”,即進入如圖 1-14 所示的變量選擇對話框;
5數據來源:中經網數據庫

第一篇 SPSS 數據處理基礎
Step2:選擇變量、案例、變量名等相關設置 圖 1-14 左邊變量框列出 Excel 工作表中的所有變量,可以將變量選到右邊的變量框中,右邊的變量 框中是將被讀入 SPSS 文件的變量,中間按鈕用于選擇變量,右邊的兩個按鈕用于調整變量的順序,選 擇好變量后,點擊“Next”,進入案例選擇對話框,如圖 1-15 所示; 一般說來都會讀取全部案例,所以這個對話框將不會有任何操作,直接點“Next”進入下一對話框。
讀者可以通過指定條件只讀取滿足條件的案例,但是我們并不推薦這樣做,一方面是因為此處指定條件比較麻煩,必 須熟悉數據庫的操作,另一方面也因為讀取全部案例以后在 SPSS 中進行選取更加方便。
圖 1-16 是變量名稱、變量類型和變量顯示長度定義對話框,將名稱改為英文,將變量類型修改為數 值型,再將變量長度修改為 8 個字符,點擊“Next”進入最后一個對話框,顯示數據庫選擇語法,不用 理會,直接點擊“Finish”完成設置,讀入數據。
Step3:定義變量結構 為每個變量添加變量名標簽,需要的話添加變量值標簽,指定變量類型,這些操作和上面類似,就 不再贅述了。
選擇變量按鈕

選擇 Excel Files 后點此按鈕
圖 1-13 數據庫向導窗口

調整變量 順序按鈕
圖 1-14 變量選擇對話框

『 14 』

第 1 章 SPSS 數據的錄入

變量長度改 成 8 個字符

變量名稱中 文改成英文

圖 1-15 案例選擇對話框

圖 1-16 變量名、變量類型、長度等定義對話框

1.2.3 從文本文件中讀入數據
文本格式文件是另外一大類數據存儲格式,由于文本文件容量小,便于存儲和傳輸,我們從互聯網 下載的數據,就有很多是用文本格式存儲的;國外的很多研究機構和調查公司發布數據,也偏愛文本格 式,因此,我們必須掌握將文本格式數據導入 SPSS 中,才能將數據文件的建立掌握的更全面。
SPSS 能夠導入兩種格式的文本文件,分別是后綴名為.txt 和.dat 的文件,從文本文件向 SPSS 導入數 據相對比較復雜,我們也為讀者準備了一個例子,用這個例子一步步講解數據導入的過程。
例 1-4 在隨書附贈的光盤中,有一個 1-4.txt 的文件,記錄了一些個人信息數據,請將其讀入 SPSS 中形 成數據文件。
Step1:選擇【File】菜單→【Read Text Data】 進入如圖 1-9 的打開文件對話框,然后在文件類型下拉菜單中選擇“Text”,在文件列表中選中 1-4.txt 文件,點擊“Open”,進入文本文件向導。

讀者也可以選【File】菜單→【Open】→【Data】進入打開文件對話框,然后在文件類型下拉菜單中選擇文本文件(后

綴名為.txt),點擊

,同樣會進入文本文件向導流程。

第一篇 SPSS 數據處理基礎

圖 1-17 文本導入對話框 1

圖 1-18 文本導入對話框 2

Step2:完成文本導入設置

在圖 1-17 的中,主要詢問是否已有一個導入模式用于導入文本,由于是第一次導入數據,沒有模式, 所以選“No”,點擊“Next”進入圖 1-13 文本導入對話框 2。

在圖 1-18 中,主要詢問兩個問題,問題 1 詢問文本中變量的組織形式,一般選擇第 1 選項“由分隔 符將變量分開”,第 2 選項“變量被指定固定寬度”,只有在變量數據沒有分開是才選擇。問題 2 詢問第 一行是否是變量名,通過觀察下面的數據內容,可以確定第一行是變量名,因此,問題 2 選“Yes”。

圖 1-19 文本導入對話框 3

圖 1-20 文本導入對話框 4

進入圖 1-19,主要詢問 3 個問題,問題 1,數據從哪一行開始,如果前面選了第一行是變量名,數 據就從第二行開始,此處用默認值就可以;問題 2,案例是如何安排的,選項 1“每行表示 1 個案例”適 用于案例分行放置的數據,選項 2“每個案例由 X 個變量值組成”,其中 X 在后面的框中選擇,適用于 案例不分行連續放置的數據;問題 3,讀取案例的數目,選項 1“案例全部讀取”,選項 2“讀取前 X 個 案例”,選項 3“隨機讀取 X%的案例”,在本例中,數據按行放置,要全部讀取,因此問題 2 和 3 都選 1 選項。

進入圖 1-20,選擇變量之間的分隔符,分隔符有跳格、空格、逗號、分號和自定義符號,可以復選, 分割符選擇正確以后下方的數據會自動分開對齊變量,如果沒有分開對齊變量,說明分隔符沒選對。

后面還有一些對話框,都不重要了,直接一直點“Next”,然后點“Finish”完成文件讀取。

Step3:定義變量結構

『 16 』

第 1 章 SPSS 數據的錄入

千萬不要忘記定義變量結構,指定變量類型,添加必要的變量名標簽和變量值標簽,數據文件建立 過程結束將文件保存成 SPSS 數據文件(見光盤 1-4.sav)。

最后一個對話框,詢問是否將讀取文件的設置存儲為固定的模式,以便下次讀取文件時使用,如果是一次讀取多個 文件,推薦保存模型,再次讀取時就可以在對話框 1 直接載入模式直接讀取,提高效率。

【本章知識點】
數據文件的建立是 SPSS 分析的基礎,而且為了以后的使用和分析方便,在建立數據文件時盡量做 到變量清楚,結構完善,特別注意添加變量名標簽和變量值標簽。
數據文件的打開和數據導入是從二手數據獲得 SPSS 數據集的重要途徑,讀者應該熟練掌握直接打 開 Excel 文件、數據庫文件和 SAS 數據集文件的操作;清楚利用文本向導和數據庫向導從相應格式文件 中讀入數據的步驟,并掌握其 SPSS 操作。
數據合并和提高 SPSS 數據錄入效率的有效途徑,讀者應該仔細區別縱向合并和橫向合并從應用條 件、對齊標準、SPSS 操作等諸多方面的不同,并能夠根據實際情況的需要靈活的運用兩種文件合并的技 術,迅速完整的輸入數據。
【思考和練習】 1. SPSS 文件和普通的數據文件如 Ecxel 文件和數據庫文件有什么不同,其特點是什么?
2. SPSS 對一手數據和二手數據的錄入上有沒有不同?如何處理這兩類數據?
3. 隨機附贈的光盤中有一個 bp5.sas7bdat 的 SAS 數據集文件,請利用 SPSS 打開文件的功能打開此文件, 并為其定義適當的變量結構。
4. 對照書籍利用 1-4.txt 文件重新熟悉文本導入的操作,并自行尋找一個文本格式的數據文件練習數據導 入的操作。
5. 對照數據利用 1-3.xls 文件熟悉數據庫文件導入的操作,并自行尋找一個數據庫文件練習數據導入操 作。


更多相關標簽:
七星彩开奖公告