it-swarm.dev

قارن متجهين من الأحرف في R

لدي اثنين من ناقلات الأحرف من معرفات.

أرغب في مقارنة المتجهات المكونة من حرفين ، خاصة أنني مهتم بالأشكال التالية:

  • كم عدد المعرفات في كلا A و B
  • كم عدد المعرفات في A لكن ليس في B
  • كم عدد المعرفات في B ولكن ليس في A

أود أيضًا أن أرسم مخططًا فين.

50
Aslan986

إليك بعض الأساسيات التي يمكنك تجربتها:

> A = c("Dog", "Cat", "Mouse")
> B = c("Tiger","Lion","Cat")
> A %in% B
[1] FALSE  TRUE FALSE
> intersect(A,B)
[1] "Cat"
> setdiff(A,B)
[1] "Dog"   "Mouse"
> setdiff(B,A)
[1] "Tiger" "Lion" 

وبالمثل ، يمكنك الحصول على تهم ببساطة على النحو التالي:

> length(intersect(A,B))
[1] 1
> length(setdiff(A,B))
[1] 2
> length(setdiff(B,A))
[1] 2
72
Mittenchops

عادةً ما أتعامل مع مجموعات كبيرة ، لذا أستخدم جدولًا بدلاً من مخطط Venn:

xtab_set <- function(A,B){
    both    <-  union(A,B)
    inA     <-  both %in% A
    inB     <-  both %in% B
    return(table(inA,inB))
}

set.seed(1)
A <- sample(letters[1:20],10,replace=TRUE)
B <- sample(letters[1:20],10,replace=TRUE)
xtab_set(A,B)

#        inB
# inA     FALSE TRUE
#   FALSE     0    5
#   TRUE      6    3
20
Frank

لكن بطريقة أخرى ، باستخدام ٪ في٪ والمتجهات المنطقية للعناصر الشائعة بدلاً من تقاطع و setdiff . أنا أعتبر أنك تريد بالفعل مقارنة اثنين متجهين ، وليس قائمتين قوائم - قائمة هي فئة R قد تحتوي على أي نوع من العناصر ، بينما تحتوي المتجهات دائمًا على عناصر من نوع واحد فقط ، وبالتالي أسهل مقارنة بما هو حقًا مساو. هنا يتم تحويل العناصر إلى سلاسل أحرف ، حيث كان ذلك هو نوع العنصر الأكثر مرونة الذي كان موجودًا.

first <- c(1:3, letters[1:6], "foo", "bar")
second <- c(2:4, letters[5:8], "bar", "asd")

both <- first[first %in% second] # in both, same as call: intersect(first, second)
onlyfirst <- first[!first %in% second] # only in 'first', same as: setdiff(first, second)
onlysecond <- second[!second %in% first] # only in 'second', same as: setdiff(second, first)
length(both)
length(onlyfirst)
length(onlysecond)

#> both
#[1] "2"   "3"   "e"   "f"   "bar"
#> onlyfirst
#[1] "1"   "a"   "b"   "c"   "d"   "foo"
#> onlysecond
#[1] "4"   "g"   "h"   "asd"
#> length(both)
#[1] 5
#> length(onlyfirst)
#[1] 6
#> length(onlysecond)
#[1] 4

# If you don't have the 'gplots' package, type: install.packages("gplots")
require("gplots")
venn(list(first.vector = first, second.vector = second))

كما ذكر ، هناك خيارات متعددة للتخطيط لمخططات Venn في R. هنا هو الإخراج باستخدام gplots.

venn diagram with gplots

13
Teemu Daniel Laajala

مع sqldf: أبطأ ولكنه مناسب جدًا لإطارات البيانات ذات الأنواع المختلطة:

t1 <- as.data.frame(1:10)
t2 <- as.data.frame(5:15)
sqldf1 <- sqldf('SELECT * FROM t1 EXCEPT SELECT * FROM t2') # subset from t1 not in t2 
sqldf2 <- sqldf('SELECT * FROM t2 EXCEPT SELECT * FROM t1') # subset from t2 not in t1 
sqldf3 <- sqldf('SELECT * FROM t1 UNION SELECT * FROM t2') # UNION t1 and t2

sqldf1  X1_10
1
2
3
4
sqldf2   X5_15
11
12
13
14
15
sqldf3   X1_10
1
2 
3 
4 
5 
6 
7
8
9
10
11
12
13      
14
15
4
rferrisx

باستخدام نفس المثال البيانات كأحد الإجابات أعلاه.

A = c("Dog", "Cat", "Mouse")
B = c("Tiger","Lion","Cat")

match(A,B)
[1] NA  3 NA

الدالة match تقوم بإرجاع متجه مع الموقع في B لجميع القيم في A. لذلك ، cat ، العنصر الثاني في A ، هو العنصر الثالث في B. لا توجد مباريات أخرى.

للحصول على القيم المطابقة في A و B ، يمكنك القيام بما يلي:

m <- match(A,B)
A[!is.na(m)]
"Cat"
B[m[!is.na(m)]]
"Cat"

للحصول على القيم غير المطابقة في A و B:

A[is.na(m)]
"Dog"   "Mouse"
B[which(is.na(m))]
"Tiger" "Cat"

علاوة على ذلك ، يمكنك استخدام length() للحصول على العدد الإجمالي للقيم المطابقة وغير المطابقة.

1
milan

إذا كان A عبارة عن data.table بحقل a من قائمة الأنواع ، مع وجود إدخالات كمتجهات من النوع البدائي ، على سبيل المثال تم إنشاؤها على النحو التالي

A<-data.table(a=c(list(c("abc","def","123")),list(c("ghi","zyx"))),d=c(9,8))

و B هي قائمة ذات متجه من الإدخالات البدائية ، على سبيل المثال تم إنشاؤها على النحو التالي

B<-list(c("ghi","zyx"))

وتحاول العثور على أي عنصر (إن وجد) في A$a التطابقات B

A[sapply(a,identical,unlist(B))]

إذا كنت تريد فقط الإدخال في a

A[sapply(a,identical,unlist(B)),a]

إذا كنت تريد أن تشير مؤشرات المطابقة إلى a

A[,which(sapply(a,identical,unlist(B)))]

إذا كان B بدلاً من ذلك هو نفسه data.table له نفس بنية A ، على سبيل المثال.

B<-data.table(b=c(list(c("zyx","ghi")),list(c("abc","def",123))),z=c(5,7))

وتبحث عن تقاطع القائمتين بعمود واحد ، حيث تطلب نفس ترتيب العناصر المتجهة.

# give the entry in A for in which A$a matches B$b
A[,`:=`(res=unlist(sapply(list(a),function(x,y){
                                      x %in% unlist(lapply(y,as.vector,mode="character"))
                                  },list(B[,b]),simplify=FALSE)))
  ][res==TRUE
  ][,res:=NULL][] 

# get T/F for each index of A
A[,sapply(list(a),function(x,y){
                      x %in% unlist(lapply(y,as.vector,mode="character"))
                  },list(B[,b]),simplify=FALSE)]

لاحظ أنه لا يمكنك القيام بشيء سهلاً

setkey(A,a)
setkey(B,b)
A[B]

للانضمام إلى A & B لأنه لا يمكنك إدخال حقل نوع list في data.table 1.12.2

وبالمثل ، لا يمكنك أن تسأل

A[a==B[,b]]

حتى لو كانت A و B متطابقة ، مثل == لم يتم تنفيذ عامل التشغيل في R للنوع list

1
mpag