The pxFileTypes()
function inferres mass spectrometry and
proteomics file types based on a currated table of file types and
associated patterns. This table can be accessed with
fileTypes()
. See the examples below for the content and format
of the table.
The types of the files in a PXDataset
object can be accessed
with the pxfiles(as.vector = FALSE)
function. See examples in the
pxfiles()
manual page.
updatePxFileTypes()
updates the file types of a PXDataset
instance using pxFileTypes()
. This function also udpates the
cached object unless cache
is set to NULL
. This function is
useful to harmonise file types when the data in fileTypes()
is
updated.
The file types table is generated by scripts/make_fileTypes.R
.
fileTypes()
pxFileTypes(fls, types = fileTypes())
updatePxFileTypes(object, cache = rpxCache())
character()
of file names whose types need to be
inferred based on their file extenstion.
data.frame
of file types. Default is
fileTypes()
.
Object of class PXDataset
.
Object of class BiocFileCache
.
A data.frame
with the filenames and their inferred
types.
McDonald, W. et al. 2004. "MS1, MS2, and SQT-Three Unified, Compact, and Easily Parsed File Formats for the Storage of Shotgun Proteomic Spectra and Identifications." Rapid Communications in Mass Spectrometry 18 (18):2162–68.
Deutsch, Eric W. 2012. "File Formats Commonly Used in Mass Spectrometry Proteomics." Molecular & Cellular Proteomics 11 (12):1612–21.
File formats in PRIDE Archive: https://www.ebi.ac.uk/pride/markdownpage/pridefileformats.
fileTypes()
#> type ext
#> 1 archive zip
#> 2 archive tar.gz
#> 3 archive rar
#> 4 archive RAR
#> 5 archive 7z
#> 6 archive tgz
#> 7 archive ZIP
#> 8 archive tar
#> 9 archive tgz
#> 10 archive RAR
#> 11 archive bz2
#> 12 archive webarchive
#> 13 archive gz
#> 14 archive xy
#> 15 doc doc
#> 16 doc pdf
#> 17 doc PDF
#> 18 doc ppt
#> 19 doc odt
#> 20 doc docx
#> 21 doc pptx
#> 22 doc rtf
#> 23 doc html
#> 24 doc html
#> 25 doc htm
#> 26 doc shtml
#> 27 doc readme
#> 28 doc txt
#> 29 doc md
#> 30 doc css
#> 31 rawbin raw
#> 32 rawbin Raw
#> 33 rawbin RAW
#> 34 rawbin d
#> 35 rawbin d.zip
#> 36 rawbin raw.zip
#> 37 rawbin raw.gz
#> 38 rawbin wiff
#> 39 rawbin wiff2
#> 40 rawbin wiff.scan
#> 41 rawbin wiff.1.~idx2
#> 42 rawbin wiff.mtd
#> 43 rawbin t2d
#> 44 raw mzML
#> 45 raw mzML.gz
#> 46 raw mzML.zip
#> 47 raw mzXML
#> 48 raw mzXML.gz
#> 49 raw mzXML.zip
#> 50 raw mzxml
#> 51 raw MZXML
#> 52 raw TraML
#> 53 raw traML
#> 54 raw traml
#> 55 raw netCDF
#> 56 raw CDF
#> 57 raw mzData
#> 58 raw mzdata
#> 59 raw mz5
#> 60 raw imzML
#> 61 pkl mgf
#> 62 pkl MGF
#> 63 pkl mgf.gz
#> 64 pkl MGF.gz
#> 65 pkl pkl
#> 66 pkl pkl.gz
#> 67 pkl PKL
#> 68 maxquant res
#> 69 maxquant apl
#> 70 fas fas
#> 71 fas fasta
#> 72 fas fa
#> 73 fas faa
#> 74 fas FASTA
#> 75 fas fasts
#> 76 fas FALSE.gz
#> 77 fas FALSTA.zip
#> 78 fas fasta.gz
#> 79 fas fasta.zip
#> 80 fas fa.gz
#> 81 fas fa.zip
#> 82 fas faa.gz
#> 83 fas faa.zip
#> 84 reflib blib
#> 85 reflib elib
#> 86 reflib dlib
#> 87 reflib msp
#> 88 id mzIdentML
#> 89 id mzidentml
#> 90 id mzidentML
#> 91 id mzID
#> 92 id mzID.gz
#> 93 id mzid
#> 94 id mzid.gz
#> 95 id mzid.zip
#> 96 id dat
#> 97 id dat.gz
#> 98 id dat.zip
#> 99 id idXML
#> 100 id omx
#> 101 id IdXML
#> 102 id idxml
#> 103 id pepnovo
#> 104 id pcml
#> 105 id dta
#> 106 id dta.tgz
#> 107 id dta.tar.bz2
#> 108 tbl csv
#> 109 tbl tsv
#> 110 tbl xls
#> 111 tbl xlsx
#> 112 tbl XLSX
#> 113 tbl xlsb
#> 114 tbl ssv
#> 115 tbl csv.gz
#> 116 tbl tsv.gz
#> 117 tbl psmtsv
#> 118 tbl delim
#> 119 tbl tabular
#> 120 mztab mztab
#> 121 mztab mztab.gz
#> 122 mztab mzTab
#> 123 mztab mzTab.gz
#> 124 mztab mzTabNA
#> 125 mztab -mztab.txt
#> 126 mztab _mztab.txt
#> 127 mztab mztab.txt
#> 128 fig png
#> 129 fig jpg
#> 130 fig jpeg
#> 131 fig tiff
#> 132 fig TIF
#> 133 fig tif
#> 134 fig gif
#> 135 fig PNG
#> 136 fig JPG
#> 137 fig svg
#> 138 xml xml
#> 139 xml xml.gz
#> 140 prophet pepXML
#> 141 prophet protXML
#> 142 prophet pepxml
#> 143 prophet protxml
#> 144 bruker yep
#> 145 bruker baf
#> 146 scaffold sf3
#> 147 scaffold sptm
#> 148 scaffold sfdb
#> 149 scaffold sdia
#> 150 scaffold metdb
#> 151 pd pdResult
#> 152 pd msf
#> 153 pd pdResultView
#> 154 pd msfView
#> 155 pd pdAnalysis
#> 156 pd pdProcessingWF
#> 157 pd pdConsensusWF
#> 158 pd pdStudy
#> 159 pd pdStudy.bak
#> 160 sequest ms1
#> 161 sequest ms2
#> 162 sequest srf
#> 163 sequest sqt
#> 164 sequest out
#> 165 sequest out.tgz
#> 166 sequest out.tar.bz2
#> 167 proteinpilot group
#> 168 progenesis ProgenesisQIPExperiment
#> 169 progenesis ProgenesisQIPArchive
#> 170 progenesis ProgenesisLcmsExperiment
#> 171 progenesis ProgenesisQIPMultiFractionExperiment
#> 172 skyline sky
#> 173 skyline sky.view
#> 174 skyline view
#> 175 skyline skyd
#> 176 skyline skyl
#> 177 spectronaut sne
#> 178 spectronaut htrms
#> 179 peptideshaker cpsx
#> 180 params PARAMS
#> 181 params params
#> 182 params param
#> 183 params par
#> 184 params config
#> 185 params apar
#> 186 params knwf
#> 187 params json
#> 188 params toml
#> 189 params yaml
#> 190 params ini
#> 191 params mtd
#> 192 params index
#> 193 params method
#> 194 params Method
#> 195 params FAmethod
#> 196 params properties
#> 197 code R
#> 198 code py
#> 199 code r
#> 200 code pl
#> 201 code js
#> 202 code jar
#> 203 code Rmd
#> 204 code sh
#> 205 code ipynb
#> 206 exe exe
#> 207 exe bin
#> 208 exe dll
#> 209 data RData
#> 210 data RDS
#> 211 data sqlite
#> 212 data h5
#> 213 chk md5
#> 214 chk cksum
#> 215 chk chksum
#> 216 tmp bak
#> 217 tmp download
#> 218 tmp crdownload
#> 219 tmp sgdownload
#> 220 tmp temp
#> 221 tmp tmp
#> 222 gen gtf
#> 223 gen gff
#> 224 gen fastq
#> 225 gen vcf
#> 226 gen plink
#> pattern
#> 1 \\.zip$
#> 2 \\.tar\\.gz$
#> 3 \\.rar$
#> 4 \\.RAR$
#> 5 \\.7z$
#> 6 \\.tgz$
#> 7 \\.ZIP$
#> 8 \\.tar$
#> 9 \\.tgz$
#> 10 \\.RAR$
#> 11 \\.bz2$
#> 12 \\.webarchive$
#> 13 \\.gz$
#> 14 \\.xy$
#> 15 \\.doc$
#> 16 \\.pdf$
#> 17 \\.PDF$
#> 18 \\.ppt$
#> 19 \\.odt$
#> 20 \\.docx$
#> 21 \\.pptx$
#> 22 \\.rtf$
#> 23 \\.html$
#> 24 \\.html$
#> 25 \\.htm$
#> 26 \\.shtml$
#> 27 \\.readme$
#> 28 \\.txt$
#> 29 \\.md$
#> 30 \\.css$
#> 31 \\.raw$
#> 32 \\.Raw$
#> 33 \\.RAW$
#> 34 \\.d$
#> 35 \\.d\\.zip$
#> 36 \\.raw\\.zip$
#> 37 \\.raw\\.gz$
#> 38 \\.wiff$
#> 39 \\.wiff2$
#> 40 \\.wiff\\.scan$
#> 41 \\.wiff\\.1\\.~idx2$
#> 42 \\.wiff\\.mtd$
#> 43 \\.t2d$
#> 44 \\.mzML$
#> 45 \\.mzML\\.gz$
#> 46 \\.mzML\\.zip$
#> 47 \\.mzXML$
#> 48 \\.mzXML\\.gz$
#> 49 \\.mzXML\\.zip$
#> 50 \\.mzxml$
#> 51 \\.MZXML$
#> 52 \\.TraML$
#> 53 \\.traML$
#> 54 \\.traml$
#> 55 \\.netCDF$
#> 56 \\.CDF$
#> 57 \\.mzData$
#> 58 \\.mzdata$
#> 59 \\.mz5$
#> 60 \\.imzML$
#> 61 \\.mgf$
#> 62 \\.MGF$
#> 63 \\.mgf\\.gz$
#> 64 \\.MGF\\.gz$
#> 65 \\.pkl$
#> 66 \\.pkl\\.gz$
#> 67 \\.PKL$
#> 68 \\.res$
#> 69 \\.apl$
#> 70 \\.fas$
#> 71 \\.fasta$
#> 72 \\.fa$
#> 73 \\.faa$
#> 74 \\.FASTA$
#> 75 \\.fasts$
#> 76 \\.FALSE\\.gz$
#> 77 \\.FALSTA\\.zip$
#> 78 \\.fasta\\.gz$
#> 79 \\.fasta\\.zip$
#> 80 \\.fa\\.gz$
#> 81 \\.fa\\.zip$
#> 82 \\.faa\\.gz$
#> 83 \\.faa\\.zip$
#> 84 \\.blib$
#> 85 \\.elib$
#> 86 \\.dlib$
#> 87 \\.msp$
#> 88 \\.mzIdentML$
#> 89 \\.mzidentml$
#> 90 \\.mzidentML$
#> 91 \\.mzID$
#> 92 \\.mzID\\.gz$
#> 93 \\.mzid$
#> 94 \\.mzid\\.gz$
#> 95 \\.mzid\\.zip$
#> 96 \\.dat$
#> 97 \\.dat\\.gz$
#> 98 \\.dat\\.zip$
#> 99 \\.idXML$
#> 100 \\.omx$
#> 101 \\.IdXML$
#> 102 \\.idxml$
#> 103 \\.pepnovo$
#> 104 \\.pcml$
#> 105 \\.dta$
#> 106 \\.dta\\.tgz$
#> 107 \\.dta\\.tar\\.bz2$
#> 108 \\.csv$
#> 109 \\.tsv$
#> 110 \\.xls$
#> 111 \\.xlsx$
#> 112 \\.XLSX$
#> 113 \\.xlsb$
#> 114 \\.ssv$
#> 115 \\.csv\\.gz$
#> 116 \\.tsv\\.gz$
#> 117 \\.psmtsv$
#> 118 \\.delim$
#> 119 \\.tabular$
#> 120 \\.mztab$
#> 121 \\.mztab\\.gz$
#> 122 \\.mzTab$
#> 123 \\.mzTab\\.gz$
#> 124 \\.mzTabNA$
#> 125 -mztab\\.txt$
#> 126 _mztab\\.txt$
#> 127 \\.mztab\\.txt$
#> 128 \\.png$
#> 129 \\.jpg$
#> 130 \\.jpeg$
#> 131 \\.tiff$
#> 132 \\.TIF$
#> 133 \\.tif$
#> 134 \\.gif$
#> 135 \\.PNG$
#> 136 \\.JPG$
#> 137 \\.svg$
#> 138 \\.xml$
#> 139 \\.xml\\.gz$
#> 140 \\.pepXML$
#> 141 \\.protXML$
#> 142 \\.pepxml$
#> 143 \\.protxml$
#> 144 \\.yep$
#> 145 \\.baf$
#> 146 \\.sf3$
#> 147 \\.sptm$
#> 148 \\.sfdb$
#> 149 \\.sdia$
#> 150 \\.metdb$
#> 151 \\.pdResult$
#> 152 \\.msf$
#> 153 \\.pdResultView$
#> 154 \\.msfView$
#> 155 \\.pdAnalysis$
#> 156 \\.pdProcessingWF$
#> 157 \\.pdConsensusWF$
#> 158 \\.pdStudy$
#> 159 \\.pdStudy\\.bak$
#> 160 \\.ms1$
#> 161 \\.ms2$
#> 162 \\.srf$
#> 163 \\.sqt$
#> 164 \\.out$
#> 165 \\.out\\.tgz$
#> 166 \\.out\\.tar\\.bz2$
#> 167 \\.group$
#> 168 \\.ProgenesisQIPExperiment$
#> 169 \\.ProgenesisQIPArchive$
#> 170 \\.ProgenesisLcmsExperiment$
#> 171 \\.ProgenesisQIPMultiFractionExperiment$
#> 172 \\.sky$
#> 173 \\.sky\\.view$
#> 174 \\.view$
#> 175 \\.skyd$
#> 176 \\.skyl$
#> 177 \\.sne$
#> 178 \\.htrms$
#> 179 \\.cpsx$
#> 180 \\.PARAMS$
#> 181 \\.params$
#> 182 \\.param$
#> 183 \\.par$
#> 184 \\.config$
#> 185 \\.apar$
#> 186 \\.knwf$
#> 187 \\.json$
#> 188 \\.toml$
#> 189 \\.yaml$
#> 190 \\.ini$
#> 191 \\.mtd$
#> 192 \\.index$
#> 193 \\.method$
#> 194 \\.Method$
#> 195 \\.FAmethod$
#> 196 \\.properties$
#> 197 \\.R$
#> 198 \\.py$
#> 199 \\.r$
#> 200 \\.pl$
#> 201 \\.js$
#> 202 \\.jar$
#> 203 \\.Rmd$
#> 204 \\.sh$
#> 205 \\.ipynb$
#> 206 \\.exe$
#> 207 \\.bin$
#> 208 \\.dll$
#> 209 \\.RData$
#> 210 \\.RDS$
#> 211 \\.sqlite$
#> 212 \\.h5$
#> 213 \\.md5$
#> 214 \\.cksum$
#> 215 \\.chksum$
#> 216 \\.bak$
#> 217 \\.download$
#> 218 \\.crdownload$
#> 219 \\.sgdownload$
#> 220 \\.temp$
#> 221 \\.tmp$
#> 222 \\.gtf$
#> 223 \\.gff$
#> 224 \\.fastq$
#> 225 \\.vcf$
#> 226 \\.plink$
pxFileTypes("foo")
#> file type
#> 1 foo <NA>
pxFileTypes("foo.mzML")
#> file type
#> 1 foo.mzML raw
pxFileTypes("foo.raw")
#> file type
#> 1 foo.raw rawbin
pxFileTypes("foo.txt")
#> file type
#> 1 foo.txt doc
pxFileTypes("foo.R")
#> file type
#> 1 foo.R code
pxFileTypes("foo.fasta")
#> file type
#> 1 foo.fasta fas
pxFileTypes(c("foo", "foo.mzML", "foo.R", "foo.fasta"))
#> file type
#> 1 foo <NA>
#> 2 foo.mzML raw
#> 3 foo.R code
#> 4 foo.fasta fas