Homework Week 1

This online webpage is used to reserve the homework for bioinformatics course in THU, so it won't be stopped updating until the end of my first semester

Homework Week 1

2022.9.23

1. 解释 1.gtf 文件中第 4、5 列代表什么，exon 长度应该是 $5-$4+1 还是 $5-$4？

第 4、5 列分别表示该 feature 在对应染色体上的起始以及终止碱基的位置信息（染色体上起始点为 1）；

外显子的长度应该为 $5 - $4 + 1。

2. 列出 1.gtf 文件中 XI 号染色体上的后 10 个 CDS （按照每个 CDS 终止位置的基因组坐标进行 sort）？

结果如下：

XI      ensembl CDS     631152  632798  .       +       0       gene_id "YKR097W"; gene_version "1"; transcript_id "YKR097W"; transcript_version "1"; exon_number "1"; gene_name "PCK1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "PCK1"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR097W"; protein_version "1";
XI      ensembl CDS     633029  635179  .       -       0       gene_id "YKR098C"; gene_version "1"; transcript_id "YKR098C"; transcript_version "1"; exon_number "1"; gene_name "UBP11"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "UBP11"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR098C"; protein_version "1";
XI      ensembl CDS     635851  638283  .       +       0       gene_id "YKR099W"; gene_version "1"; transcript_id "YKR099W"; transcript_version "1"; exon_number "1"; gene_name "BAS1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "BAS1"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR099W"; protein_version "1";
XI      ensembl CDS     638904  639968  .       -       0       gene_id "YKR100C"; gene_version "1"; transcript_id "YKR100C"; transcript_version "1"; exon_number "1"; gene_name "SKG1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "SKG1"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR100C"; protein_version "1";
XI      ensembl CDS     640540  642501  .       +       0       gene_id "YKR101W"; gene_version "1"; transcript_id "YKR101W"; transcript_version "1"; exon_number "1"; gene_name "SIR1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "SIR1"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR101W"; protein_version "1";
XI      ensembl CDS     646356  649862  .       +       0       gene_id "YKR102W"; gene_version "1"; transcript_id "YKR102W"; transcript_version "1"; exon_number "1"; gene_name "FLO10"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "FLO10"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR102W"; protein_version "1";
XI      ensembl CDS     653080  656733  .       +       0       gene_id "YKR103W"; gene_version "1"; transcript_id "YKR103W"; transcript_version "1"; exon_number "1"; gene_name "NFT1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "NFT1"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR103W"; protein_version "1";
XI      ensembl CDS     656836  657753  .       +       0       gene_id "YKR104W"; gene_version "1"; transcript_id "YKR104W"; transcript_version "1"; exon_number "1"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "YKR104W"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR104W"; protein_version "1";
XI      ensembl CDS     658719  660464  .       -       0       gene_id "YKR105C"; gene_version "1"; transcript_id "YKR105C"; transcript_version "1"; exon_number "1"; gene_name "VBA5"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "VBA5"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR105C"; protein_version "1";
XI      ensembl CDS     661442  663286  .       +       0       gene_id "YKR106W"; gene_version "1"; transcript_id "YKR106W"; transcript_version "1"; exon_number "1"; gene_name "GEX2"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "GEX2"; transcript_source "ensembl"; transcript_biotype "protein_coding"; protein_id "YKR106W"; protein_version "1";

使用的代码如下：

zcat 1.gtf.gz | awk '$1 == "XI" && $3 == "CDS"' | sort -n -k 5 | tail -10

3. 统计 IV 号染色体上各类 feature (1.gtf 文件的第 3 列，有些注释文件中还应同时考虑第 2 列) 的数目，并按升序排列？

结果如下：

start_codon      853
stop_codon       853
gene             886
transcript       886
CDS              895
exon             933

使用的代码如下：

zcat 1.gtf.gz | awk '$1 == "IV" {x[$3]++} END {for(i in x) printf("%-11s\t %s\n", i, x[i])}' | sort -n -k 2

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
_layouts		_layouts
HW1.html		HW1.html
README.md		README.md
_config.yml		_config.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Homework Week 1

1. 解释 1.gtf 文件中第 4、5 列代表什么，exon 长度应该是 $5-$4+1 还是 $5-$4？

2. 列出 1.gtf 文件中 XI 号染色体上的后 10 个 CDS （按照每个 CDS 终止位置的基因组坐标进行 sort）？

3. 统计 IV 号染色体上各类 feature (1.gtf 文件的第 3 列，有些注释文件中还应同时考虑第 2 列) 的数目，并按升序排列？

About

Uh oh!

Releases

Packages

Languages

swelltodie/swelltodie.github.io

Folders and files

Latest commit

History

Repository files navigation

Homework Week 1

1. 解释 1.gtf 文件中第 4、5 列代表什么，exon 长度应该是 $5-$4+1 还是 $5-$4？

2. 列出 1.gtf 文件中 XI 号染色体上的后 10 个 CDS （按照每个 CDS 终止位置的基因组坐标进行 sort）？

3. 统计 IV 号染色体上各类 feature (1.gtf 文件的第 3 列，有些注释文件中还应同时考虑第 2 列) 的数目，并按升序排列？

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages