各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png
1
TheWalkingDead 2018 年 8 月 30 日
流行子弹短信吗 哈哈
|
2
RangerWolf 2018 年 8 月 30 日
数据可以传到公司外面?
59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定 |
3
marcong95 2018 年 8 月 30 日
理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。
提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好? |
5
krixaar 2018 年 8 月 30 日
导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?
|
6
LadyChunsKite 2018 年 8 月 30 日
题外话:
其实我有时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。 就不怕被公司拿走干坏事? |
7
jccg90 2018 年 8 月 30 日
@LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧
|
8
dacer250 2018 年 8 月 30 日
子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3
|
9
Wolther47 2018 年 8 月 30 日 via iPad
碱基对比对? Smith waterman 了解一下?
|
10
HankAviator 2018 年 8 月 30 日
@LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得
|
11
zhouquan03 2018 年 8 月 30 日
BWA SOAP 软件了解一下
|
12
wqzjk393 2018 年 8 月 30 日
哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源
|
13
wqzjk393 2018 年 8 月 30 日
pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢
|