Thiết kế nghiên cứu
	Thiết kế công cụ thu nhập số liệu
	Phương pháp thu nhập số liệu
	Quản lý, phân tích số liệu
	Trình bày kết quả phân tích xuất bản
	Nghiên cứu định tính

	Quản lý số liệu (Data management)
	Phân tích số liệu (Data analysis)
	Bộ số liệu mẫu (dùng cho thực hành)

	Cơ sở dữ liệu địa lý, nhân khẩu
	Cơ sở dữ liệu chuyên ngành
	Xuất bản phẩm

	Đào tạo trực tuyến etraining
	Đào tạo tập trung
	Đào tạo
	Tư vấn
	Các bài giảng theo chủ đề
	Dịch vụ ISMS

Nhập liệu

Xử lý số liệu

Phân tích đơn biến

Phân tích đôi biến (Bivariate analysis)

Kiểm định khi bình phương (chi Square test)

So sánh giá trị trung bình (mean test)

Kiểm định t (t-test)

ANOVA

Phân tích nhân tố khám phá (factor analysis)

Hồi quy logic (logistic regression)

Hồi quy tuyến tính (linear regression)

Quản lý số liệu (Data management)

Nhập liệu

Xử lý số liệu

	Tạo form nhập liệu
	Viết lệnh check
	Viết file check/batch
	So sánh giữa 2 lần nhập liệu (Validation)
	Kết hợp các bộ số liệu (Combine data files)
	Chuyển dữ liệu sang các dạng khác nhau

	Đặt Tên biến và giá trị biến (Variable name and value label)
	Kiểm tra số liệu (Checking data)
	Xóa bỏ các biến trùng lặp (Remove character, duplicate or variable)
	Xử lý giá trị missing (Working with missing values)
	Lựa chọn trường hợp (select cases)
	Mã hóa biến (recode)
	Tạo biến mới (Compute-generate or gen)
	Xử lý biến ngày tháng, thời gian (date and time)
	Xử lý biến chữ (strings)
	Xử lý biến trong câu hỏi nhiều lựa chọn (multiple responses)

Tạo form nhập bằng epidata

Tạo form nhập bằng Cspro

Viết lệnh check trong epidata

Viết lệnh check trong SPSS

Viết lệnh check trong stata

Viết lệnh check trong Cspro

Viết file batch trong Cspro

Viết file check trong epidata

Dùng Epidata để so sánh

Dùng SPSS để so sánh

Dùng Stata để so sánh

Nối data files bằng epidata

Nối data files bằng SPSS

Nối data files bằng stata

Gộp data files bằng epidata

Gộp data files bằng Cspro

Gộp data files bằng SPSS

Gộp data files bằng stata

Định nghĩa biến trong SPSS

Đặt giá trị cho biến trong SPSS

Thay đổi tên biến trong SPSS

Định nghĩa biến (Stata)

Đặt giá trị cho biến (Stata)

Thay đổi tên biến (Stata)

Dùng frequency kiểm tra số liệu trong SPSS

Dùng sorting kiểm tra số liệu trong SPSS

Phân bố chuẩn trong SPSS

Tính tương quan trong SPSS

Dùng frequency kiểm tra số liệu trong Stata

Dùng lệnh sorting kiểm tra số liệu trong Stata

Phân bố chuẩn (Normal distribution) trong Stata

Tính tương quan trong Stata

Xóa bỏ các biến trùng lặp trong SPSS

Phương pháp xóa bỏ biến trùng lặp trong Stata

Xử lý giá trị missing trong SPSS

Xử lý giá trị missing trong Stata

Lựa chọn các trường hợp (SPSS)

Lựa chọn trường hợp (Stata)

Xử lý biến ngày tháng, thời gian (SPSS)

Biến về ngày tháng và thời gian (Stata)

Xử lý biến chữ (SPSS)

Xử lý biến chữ (Stata)

Xử lý biến trong câu hỏi nhiều lựa chọn (SPSS)

Xử lý biến trong câu hỏi nhiều lựa chọn (Stata)

Phương pháp xóa bỏ biến trùng lặp trong Stata

Trang chủ > Quản lý, phân tích số liệu > Quản lý số liệu (Data management) > Xử lý số liệu > Xóa bỏ các biến trùng lặp (Remove character, duplicate or variable) > Phương pháp xóa bỏ biến trùng lặp trong Stata

Phương pháp xóa bỏ biến trùng lặp trong Stata

Trong quá trình nhập liệu, hoặc nối, gộp các file số liệu có thể dẫn đến nhiều biến, bản ghi trùng lặp, đặc biệt là với số lượng biến lớn thì sẽ xử lý như thế nào? Thongke.info xin giới thiệu với các bạn các lệnh syntax mẫu để tìm, và xóa các biến, bản ghi trùng lặp. Để tìm hiểu kĩ hơn về cách loại bỏ các biến/quan sát trùng lặp ta theo dõi cụ thể ví dụ sau.

Ví dụ: Ta có bộ số liệu sau

Codebook: a1-Tên loại hoa quả, a2-Số lượng (kg), a3-Giá tiền/kg (nghìn đồng)

1. Loại bỏ các quan sát trùng lặp với 1 hoặc một nhóm biến chỉ thị

Ví dụ1: Ta muốn loại bỏ các quan sát trùng lặp của biến a1-Tên loại hoa quả.

Đầu tiên để xác định quan sát trùng lặp ta dùng lệnh sort để sắp xếp biến, cụ thể ở đây ta sẽ sắp xếp biến a1. Sau đó ta sẽ dùng câu lệnh để tạo ra biến xác định sự trùng lặp theo cú pháp sau:

sort a1

quiet by a1: gen dup= cond(_N==1,0,_n)

Lúc này bộ số liệu của chúng ta được sắp xếp và trình bày như sau:

Biến dup là biến chỉ thị cho chúng ta biết về mức độ trùng lặp của các quan sát chúng ta đang xem xét:

dup=0 – quan sát duy nhất

dup=1 – có 1 quan sát trùng

dup=2- có 2 quan sát trùng

dup=n –có n quan sát trùng

Nhìn vào kết quả sắp xếp ta thấy Lê, Mận, Ổi là những loại hoa quả đang bị lặp lại. Nếu ta muốn loại bỏ các biến trùng lặp ta chỉ cần sử dụng lệnh xóa biến.

drop if dup>1

(nếu muốn giữ lại 1 quan sát)

drop if dup>0

(nếu không muốn giữ lại quan sát nào)

2. Loại bỏ các quan sát trùng lặp với tất cả các biến chỉ thị:

Trong một số trường hợp bạn nhận thấy dựa vào một hay một vài biến chỉ thị để loại bỏ các quan sát bị trùng nhau như ví dụ 1 sẽ khó khăn hoặc chưa phù hợp. Bạn có thể sử dụng dùng cách thứ hai là loại bỏ biến dựa trên tất cả các biến chỉ thị.

Đầu tiên ta cần đưa tất cả các biến chỉ thị về một chuỗi biến lớn để có thể tiến hành sắp xếp các biến bằng cú pháp sau:

unab vlist : _all

sort `vlist ’

Ta được kết quả sắp xếp sau.

Chạy lệnh tạo biến chỉ thị sự trùng lặp

quietly by `vlist':  gen dup = cond(_N==1,0,_n)

Loại bỏ biến trùng lặp

drop if dup >1

drop if dup >0

Số lượt đọc: 6390 - Cập nhật lần cuối: 04/07/2012 09:16:51 AM

Về trang trước

Bản in

Gửi email

Về đầu trang

Trang chủ

Giới thiệu

Phương pháp luận

Quản lý, phân tích số liệu

Cơ sở dữ liệu, xuất bản phẩm

Đào tạo và tư vấn

Diễn đàn

Địa chỉ: Số 18 - Lô 12B - Trung Yên 10 - Trung Hòa - Cầu Giấy - Hà Nội.