Sequence determinants of human gene regulatory elements 简述

本文最后更新于：2024年8月14日下午

Title: Sequence determinants of human gene regulatory elements

2022 week9 reading

这篇paper其实topic还是偏biology一点，里面机器学习在整个研究过程中只是作为一种比逻辑回归更有效的分析方法，而没有像之前的几篇一样完全通过机器学习改写整个研究流程。虽然如此，整个文章还是有很多有意思的地方值得讨论的。

background

来自：量子位

基因调控（Gene regulation）是控制细胞内基因活性的重要过程，不正确的调控会导致疾病产生，比如癌症。

人类基因组的DNA包含为蛋白质编码的基因，这些蛋白质序列可赋予肌肉细胞力量，赋予脑细胞处理信息的能力等。

DNA中还包含调控基因的元素，决定基因何时何地表达，比如确保肌肉基因只在肌肉里表达，大脑基因在大脑中表达。

我们一直对决定基因调控的编码逻辑知之甚少，这是因为：

虽然人类基因组包含近30亿个碱基对，但基因组序列（genomic sequence）太短，无法用来学习背后的逻辑。

基因表达受可结合DNA的转录因子（一种蛋白质的总称）调控。

在两个主要调控元件——增强子（增强转录作用）和启动子（定义转录的起始）之中，增强子会以一种不在转录因子之间产生相互作用的机制增加启动子的表达。

introduction

这篇工作最有趣的地方在于数据的采集，由于 genomic sequence 太短，因此需要更多的基因序列。作者没有在现成的自然环境中寻找数据，而是选择自己在生物体中创造数据，作者通过STARR-seq创造了一系列不同的基因组文库，将其转染到细胞中，24小时之后测量RNA浓度以获得转录活性，以此种方式创造了100倍人类基因组大小的数据用于分析。不管是在生物实验还是机器学习中，这种大规模自制数据的方法感觉都很新奇。

之后长篇的生物学相关的实验和原理也就略过了，虽然之前学过还是只读的懂个大概，不误人子弟了（基础不扎实不行啊），挑机器学习相关的讲一讲：

之后，基于已有的数据，作者首先使用了逻辑回归，只检出10%左右已查明的强TFs，后续结论也说明大部分TFs都是weak grammar。接着作者使用了一个其他文章的DeepBind模型（基于CNN），对于数据有很好的效果，与逻辑回归的结果也保持一致。从此模型中，作者得出以下结论：

只有TFs在细胞中保持高度活性，但它们的活性与细胞类型无关，在哪里都是相似的。
TFs以“加性”方式参与基因调控，且大部分with weak grammar。
在封闭染色质区域内发现起作用的活性调节元件。
依赖于染色质的调控元件。这些元件在基因组中的正常位点具有活性，但如果将它们从原始位置移出并转移到另一个基因附近，它们的活性就会大大降低。

关于 weekly reading

我会将每周所写周报中paper reading部分上传至我的blog供参考，希望能为你提供一些帮助。

weekly reading

#machine learning #bio-informatics #cnn

Sequence determinants of human gene regulatory elements 简述

https://asteriscus.cat/posts/a280cce8/

作者

Asterisk

发布于

2022年3月2日

许可协议

4D-Net 简述上一篇

TS类型体操下一篇