可以看到癌细胞非常散乱,因为每个病人的癌特征都不一样,所以才需要精准医疗以及个性化医疗。
绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
反而是上皮细胞,大家很少涉及到,但是乳腺癌既然是来源于乳腺这样的组织, 它的上皮细胞就不可能是一个纯粹的上皮,理论上是可以细分的。但是上面的文章并没有针对乳腺上皮细胞进行细分,如果要分,首先得通过inferCNV等算法从上面的上皮细胞里面挑选到少量比例的正常细胞。
虽然绝大部分乳腺癌单细胞研究都并不会涉及到正常上皮细胞的细分亚群,因为有一些研究本来就是仅仅是关心肿瘤微环境所以在测序的时候就有目的过滤了非免疫细胞后进行单细胞建库 测序。但是文章:《Stromal cell diversity associated with immune evasion in human triple-negative breast cancer》做了一个还算是比较好的例子,如下所示:
一般来说,在肿瘤样品单细胞测序能区分出来normal luminal 和myoepithelial 就挺好的了,上面的文章给出来的luminal上皮细胞亚群标记基因是ESR1这样的激素相关基因,而myoepithelial是KRT5+, KRT14+ and ACTA2+).
如果我们想比较好的知道乳腺上皮细胞的戏份亚群其实需要看正常乳腺的单细胞取样建库测序数据了,比如2018的文章:《Profiling human breast epithelial cells using single cell RNA sequencing identifies cell diversity》
可以看到,这个时候的 an inner layer of secretory luminal cells 可以细分成为 “Basal” or “Myoepithelial” ,但是界限非常的模糊。实际上作者给出来的基因也没办法区分:ACTA2, TGLN, KRT14
而 an outer layer of basal/myoepithelial cells 也可以细分成为L1, 和 L2,界限比较清晰,其中L1还可以细分。但是一个单细胞亚群不能一直这样的编号来区分,仍然是需要给出生物学功能亚群。
所以我们接下来看 Cell Rep. 2020 December 的文章 :《Aging-Associated Alterations in Mammary Epithelia and Stroma Revealed by Single-Cell RNA Sequencing》,如下所示:
后来我就一直以这个文献给出来的基因列表为金标准了,在各个乳腺相关单细胞数据分析里面都可以使用它。代码如下所示:
Myo=c("Krt17", "Krt14", "Krt5", "Acta2", "Myl9", "Mylk", "Myh11")
Lum=c("Krt19", "Krt18", "Krt8")
Hs=c("Prlr", "Cited1", "Pgr", "Prom1", "Esr1")
AV=c("Mfge8", "Trf", "Csn3", "Wfdc18", "Elf5", "Ltf")
Lp=c("Kit", "Aldh1a3", "Cd14")
genes_to_check = list(
Myo=Myo,
Lum=Lum,
Hs=Hs,
AV=AV,
Lp=Lp )
genes_to_check = lapply(genes_to_check , str_to_upper)
p_all_markers=DotPlot(sce.all,
features = genes_to_check,
scale = T,assay='RNA' )+
theme(axis.text.x=element_text(angle=45,hjust = 1))
p_all_markers
ggsave('markers_for_breast_by_celltyper.pdf')
其中 “Basal” 和 “Myoepithelial” 基本上 是无法区分的,另外,Lum 本身主要是可以区分成为Hs和AV这两个成熟的单细胞亚群,如果是多功能前体就是Lp