The pxFileTypes() function inferres mass spectrometry and proteomics file types based on a currated table of file types and associated patterns. This table can be accessed with fileTypes(). See the examples below for the content and format of the table.

The types of the files in a PXDataset object can be accessed with the pxfiles(as.vector = FALSE) function. See examples in the pxfiles() manual page.

updatePxFileTypes() updates the file types of a PXDataset instance using pxFileTypes(). This function also udpates the cached object unless cache is set to NULL. This function is useful to harmonise file types when the data in fileTypes() is updated.

The file types table is generated by scripts/make_fileTypes.R.

fileTypes()

pxFileTypes(fls, types = fileTypes())

updatePxFileTypes(object, cache = rpxCache())

Arguments

fls

character() of file names whose types need to be inferred based on their file extenstion.

types

data.frame of file types. Default is fileTypes().

object

Object of class PXDataset.

cache

Object of class BiocFileCache.

Value

A data.frame with the filenames and their inferred types.

References

  • McDonald, W. et al. 2004. "MS1, MS2, and SQT-Three Unified, Compact, and Easily Parsed File Formats for the Storage of Shotgun Proteomic Spectra and Identifications." Rapid Communications in Mass Spectrometry 18 (18):2162–68.

  • Deutsch, Eric W. 2012. "File Formats Commonly Used in Mass Spectrometry Proteomics." Molecular & Cellular Proteomics 11 (12):1612–21.

  • File formats in PRIDE Archive: https://www.ebi.ac.uk/pride/markdownpage/pridefileformats.

Author

Laurent Gatto with contributions via mastodon from Dr. Samuel Wein, Michael MacCoss, Marc Vaudel, Phil Wilmarth and Dave Tabb to identify several file types (see inst/make_file_types.R for details).

Examples


fileTypes()
#>              type                                  ext
#> 1         archive                                  zip
#> 2         archive                               tar.gz
#> 3         archive                                  rar
#> 4         archive                                  RAR
#> 5         archive                                   7z
#> 6         archive                                  tgz
#> 7         archive                                  ZIP
#> 8         archive                                  tar
#> 9         archive                                  tgz
#> 10        archive                                  RAR
#> 11        archive                                  bz2
#> 12        archive                           webarchive
#> 13        archive                                   gz
#> 14        archive                                   xy
#> 15            doc                                  doc
#> 16            doc                                  pdf
#> 17            doc                                  PDF
#> 18            doc                                  ppt
#> 19            doc                                  odt
#> 20            doc                                 docx
#> 21            doc                                 pptx
#> 22            doc                                  rtf
#> 23            doc                                 html
#> 24            doc                                 html
#> 25            doc                                  htm
#> 26            doc                                shtml
#> 27            doc                               readme
#> 28            doc                                  txt
#> 29            doc                                   md
#> 30            doc                                  css
#> 31         rawbin                                  raw
#> 32         rawbin                                  Raw
#> 33         rawbin                                  RAW
#> 34         rawbin                                    d
#> 35         rawbin                                d.zip
#> 36         rawbin                              raw.zip
#> 37         rawbin                               raw.gz
#> 38         rawbin                                 wiff
#> 39         rawbin                                wiff2
#> 40         rawbin                            wiff.scan
#> 41         rawbin                         wiff.1.~idx2
#> 42         rawbin                             wiff.mtd
#> 43         rawbin                                  t2d
#> 44            raw                                 mzML
#> 45            raw                              mzML.gz
#> 46            raw                             mzML.zip
#> 47            raw                                mzXML
#> 48            raw                             mzXML.gz
#> 49            raw                            mzXML.zip
#> 50            raw                                mzxml
#> 51            raw                                MZXML
#> 52            raw                                TraML
#> 53            raw                                traML
#> 54            raw                                traml
#> 55            raw                               netCDF
#> 56            raw                                  CDF
#> 57            raw                               mzData
#> 58            raw                               mzdata
#> 59            raw                                  mz5
#> 60            raw                                imzML
#> 61            pkl                                  mgf
#> 62            pkl                                  MGF
#> 63            pkl                               mgf.gz
#> 64            pkl                               MGF.gz
#> 65            pkl                                  pkl
#> 66            pkl                               pkl.gz
#> 67            pkl                                  PKL
#> 68       maxquant                                  res
#> 69       maxquant                                  apl
#> 70            fas                                  fas
#> 71            fas                                fasta
#> 72            fas                                   fa
#> 73            fas                                  faa
#> 74            fas                                FASTA
#> 75            fas                                fasts
#> 76            fas                             FALSE.gz
#> 77            fas                           FALSTA.zip
#> 78            fas                             fasta.gz
#> 79            fas                            fasta.zip
#> 80            fas                                fa.gz
#> 81            fas                               fa.zip
#> 82            fas                               faa.gz
#> 83            fas                              faa.zip
#> 84         reflib                                 blib
#> 85         reflib                                 elib
#> 86         reflib                                 dlib
#> 87         reflib                                  msp
#> 88             id                            mzIdentML
#> 89             id                            mzidentml
#> 90             id                            mzidentML
#> 91             id                                 mzID
#> 92             id                              mzID.gz
#> 93             id                                 mzid
#> 94             id                              mzid.gz
#> 95             id                             mzid.zip
#> 96             id                                  dat
#> 97             id                               dat.gz
#> 98             id                              dat.zip
#> 99             id                                idXML
#> 100            id                                  omx
#> 101            id                                IdXML
#> 102            id                                idxml
#> 103            id                              pepnovo
#> 104            id                                 pcml
#> 105            id                                  dta
#> 106            id                              dta.tgz
#> 107            id                          dta.tar.bz2
#> 108           tbl                                  csv
#> 109           tbl                                  tsv
#> 110           tbl                                  xls
#> 111           tbl                                 xlsx
#> 112           tbl                                 XLSX
#> 113           tbl                                 xlsb
#> 114           tbl                                  ssv
#> 115           tbl                               csv.gz
#> 116           tbl                               tsv.gz
#> 117           tbl                               psmtsv
#> 118           tbl                                delim
#> 119           tbl                              tabular
#> 120         mztab                                mztab
#> 121         mztab                             mztab.gz
#> 122         mztab                                mzTab
#> 123         mztab                             mzTab.gz
#> 124         mztab                              mzTabNA
#> 125         mztab                           -mztab.txt
#> 126         mztab                           _mztab.txt
#> 127         mztab                            mztab.txt
#> 128           fig                                  png
#> 129           fig                                  jpg
#> 130           fig                                 jpeg
#> 131           fig                                 tiff
#> 132           fig                                  TIF
#> 133           fig                                  tif
#> 134           fig                                  gif
#> 135           fig                                  PNG
#> 136           fig                                  JPG
#> 137           fig                                  svg
#> 138           xml                                  xml
#> 139           xml                               xml.gz
#> 140       prophet                               pepXML
#> 141       prophet                              protXML
#> 142       prophet                               pepxml
#> 143       prophet                              protxml
#> 144        bruker                                  yep
#> 145        bruker                                  baf
#> 146      scaffold                                  sf3
#> 147      scaffold                                 sptm
#> 148      scaffold                                 sfdb
#> 149      scaffold                                 sdia
#> 150      scaffold                                metdb
#> 151            pd                             pdResult
#> 152            pd                                  msf
#> 153            pd                         pdResultView
#> 154            pd                              msfView
#> 155            pd                           pdAnalysis
#> 156            pd                       pdProcessingWF
#> 157            pd                        pdConsensusWF
#> 158            pd                              pdStudy
#> 159            pd                          pdStudy.bak
#> 160       sequest                                  ms1
#> 161       sequest                                  ms2
#> 162       sequest                                  srf
#> 163       sequest                                  sqt
#> 164       sequest                                  out
#> 165       sequest                              out.tgz
#> 166       sequest                          out.tar.bz2
#> 167  proteinpilot                                group
#> 168    progenesis              ProgenesisQIPExperiment
#> 169    progenesis                 ProgenesisQIPArchive
#> 170    progenesis             ProgenesisLcmsExperiment
#> 171    progenesis ProgenesisQIPMultiFractionExperiment
#> 172       skyline                                  sky
#> 173       skyline                             sky.view
#> 174       skyline                                 view
#> 175       skyline                                 skyd
#> 176       skyline                                 skyl
#> 177   spectronaut                                  sne
#> 178   spectronaut                                htrms
#> 179 peptideshaker                                 cpsx
#> 180        params                               PARAMS
#> 181        params                               params
#> 182        params                                param
#> 183        params                                  par
#> 184        params                               config
#> 185        params                                 apar
#> 186        params                                 knwf
#> 187        params                                 json
#> 188        params                                 toml
#> 189        params                                 yaml
#> 190        params                                  ini
#> 191        params                                  mtd
#> 192        params                                index
#> 193        params                               method
#> 194        params                               Method
#> 195        params                             FAmethod
#> 196        params                           properties
#> 197          code                                    R
#> 198          code                                   py
#> 199          code                                    r
#> 200          code                                   pl
#> 201          code                                   js
#> 202          code                                  jar
#> 203          code                                  Rmd
#> 204          code                                   sh
#> 205          code                                ipynb
#> 206           exe                                  exe
#> 207           exe                                  bin
#> 208           exe                                  dll
#> 209          data                                RData
#> 210          data                                  RDS
#> 211          data                               sqlite
#> 212          data                                   h5
#> 213           chk                                  md5
#> 214           chk                                cksum
#> 215           chk                               chksum
#> 216           tmp                                  bak
#> 217           tmp                             download
#> 218           tmp                           crdownload
#> 219           tmp                           sgdownload
#> 220           tmp                                 temp
#> 221           tmp                                  tmp
#> 222           gen                                  gtf
#> 223           gen                                  gff
#> 224           gen                                fastq
#> 225           gen                                  vcf
#> 226           gen                                plink
#>                                      pattern
#> 1                                    \\.zip$
#> 2                               \\.tar\\.gz$
#> 3                                    \\.rar$
#> 4                                    \\.RAR$
#> 5                                     \\.7z$
#> 6                                    \\.tgz$
#> 7                                    \\.ZIP$
#> 8                                    \\.tar$
#> 9                                    \\.tgz$
#> 10                                   \\.RAR$
#> 11                                   \\.bz2$
#> 12                            \\.webarchive$
#> 13                                    \\.gz$
#> 14                                    \\.xy$
#> 15                                   \\.doc$
#> 16                                   \\.pdf$
#> 17                                   \\.PDF$
#> 18                                   \\.ppt$
#> 19                                   \\.odt$
#> 20                                  \\.docx$
#> 21                                  \\.pptx$
#> 22                                   \\.rtf$
#> 23                                  \\.html$
#> 24                                  \\.html$
#> 25                                   \\.htm$
#> 26                                 \\.shtml$
#> 27                                \\.readme$
#> 28                                   \\.txt$
#> 29                                    \\.md$
#> 30                                   \\.css$
#> 31                                   \\.raw$
#> 32                                   \\.Raw$
#> 33                                   \\.RAW$
#> 34                                     \\.d$
#> 35                               \\.d\\.zip$
#> 36                             \\.raw\\.zip$
#> 37                              \\.raw\\.gz$
#> 38                                  \\.wiff$
#> 39                                 \\.wiff2$
#> 40                           \\.wiff\\.scan$
#> 41                      \\.wiff\\.1\\.~idx2$
#> 42                            \\.wiff\\.mtd$
#> 43                                   \\.t2d$
#> 44                                  \\.mzML$
#> 45                             \\.mzML\\.gz$
#> 46                            \\.mzML\\.zip$
#> 47                                 \\.mzXML$
#> 48                            \\.mzXML\\.gz$
#> 49                           \\.mzXML\\.zip$
#> 50                                 \\.mzxml$
#> 51                                 \\.MZXML$
#> 52                                 \\.TraML$
#> 53                                 \\.traML$
#> 54                                 \\.traml$
#> 55                                \\.netCDF$
#> 56                                   \\.CDF$
#> 57                                \\.mzData$
#> 58                                \\.mzdata$
#> 59                                   \\.mz5$
#> 60                                 \\.imzML$
#> 61                                   \\.mgf$
#> 62                                   \\.MGF$
#> 63                              \\.mgf\\.gz$
#> 64                              \\.MGF\\.gz$
#> 65                                   \\.pkl$
#> 66                              \\.pkl\\.gz$
#> 67                                   \\.PKL$
#> 68                                   \\.res$
#> 69                                   \\.apl$
#> 70                                   \\.fas$
#> 71                                 \\.fasta$
#> 72                                    \\.fa$
#> 73                                   \\.faa$
#> 74                                 \\.FASTA$
#> 75                                 \\.fasts$
#> 76                            \\.FALSE\\.gz$
#> 77                          \\.FALSTA\\.zip$
#> 78                            \\.fasta\\.gz$
#> 79                           \\.fasta\\.zip$
#> 80                               \\.fa\\.gz$
#> 81                              \\.fa\\.zip$
#> 82                              \\.faa\\.gz$
#> 83                             \\.faa\\.zip$
#> 84                                  \\.blib$
#> 85                                  \\.elib$
#> 86                                  \\.dlib$
#> 87                                   \\.msp$
#> 88                             \\.mzIdentML$
#> 89                             \\.mzidentml$
#> 90                             \\.mzidentML$
#> 91                                  \\.mzID$
#> 92                             \\.mzID\\.gz$
#> 93                                  \\.mzid$
#> 94                             \\.mzid\\.gz$
#> 95                            \\.mzid\\.zip$
#> 96                                   \\.dat$
#> 97                              \\.dat\\.gz$
#> 98                             \\.dat\\.zip$
#> 99                                 \\.idXML$
#> 100                                  \\.omx$
#> 101                                \\.IdXML$
#> 102                                \\.idxml$
#> 103                              \\.pepnovo$
#> 104                                 \\.pcml$
#> 105                                  \\.dta$
#> 106                            \\.dta\\.tgz$
#> 107                      \\.dta\\.tar\\.bz2$
#> 108                                  \\.csv$
#> 109                                  \\.tsv$
#> 110                                  \\.xls$
#> 111                                 \\.xlsx$
#> 112                                 \\.XLSX$
#> 113                                 \\.xlsb$
#> 114                                  \\.ssv$
#> 115                             \\.csv\\.gz$
#> 116                             \\.tsv\\.gz$
#> 117                               \\.psmtsv$
#> 118                                \\.delim$
#> 119                              \\.tabular$
#> 120                                \\.mztab$
#> 121                           \\.mztab\\.gz$
#> 122                                \\.mzTab$
#> 123                           \\.mzTab\\.gz$
#> 124                              \\.mzTabNA$
#> 125                            -mztab\\.txt$
#> 126                            _mztab\\.txt$
#> 127                          \\.mztab\\.txt$
#> 128                                  \\.png$
#> 129                                  \\.jpg$
#> 130                                 \\.jpeg$
#> 131                                 \\.tiff$
#> 132                                  \\.TIF$
#> 133                                  \\.tif$
#> 134                                  \\.gif$
#> 135                                  \\.PNG$
#> 136                                  \\.JPG$
#> 137                                  \\.svg$
#> 138                                  \\.xml$
#> 139                             \\.xml\\.gz$
#> 140                               \\.pepXML$
#> 141                              \\.protXML$
#> 142                               \\.pepxml$
#> 143                              \\.protxml$
#> 144                                  \\.yep$
#> 145                                  \\.baf$
#> 146                                  \\.sf3$
#> 147                                 \\.sptm$
#> 148                                 \\.sfdb$
#> 149                                 \\.sdia$
#> 150                                \\.metdb$
#> 151                             \\.pdResult$
#> 152                                  \\.msf$
#> 153                         \\.pdResultView$
#> 154                              \\.msfView$
#> 155                           \\.pdAnalysis$
#> 156                       \\.pdProcessingWF$
#> 157                        \\.pdConsensusWF$
#> 158                              \\.pdStudy$
#> 159                        \\.pdStudy\\.bak$
#> 160                                  \\.ms1$
#> 161                                  \\.ms2$
#> 162                                  \\.srf$
#> 163                                  \\.sqt$
#> 164                                  \\.out$
#> 165                            \\.out\\.tgz$
#> 166                      \\.out\\.tar\\.bz2$
#> 167                                \\.group$
#> 168              \\.ProgenesisQIPExperiment$
#> 169                 \\.ProgenesisQIPArchive$
#> 170             \\.ProgenesisLcmsExperiment$
#> 171 \\.ProgenesisQIPMultiFractionExperiment$
#> 172                                  \\.sky$
#> 173                           \\.sky\\.view$
#> 174                                 \\.view$
#> 175                                 \\.skyd$
#> 176                                 \\.skyl$
#> 177                                  \\.sne$
#> 178                                \\.htrms$
#> 179                                 \\.cpsx$
#> 180                               \\.PARAMS$
#> 181                               \\.params$
#> 182                                \\.param$
#> 183                                  \\.par$
#> 184                               \\.config$
#> 185                                 \\.apar$
#> 186                                 \\.knwf$
#> 187                                 \\.json$
#> 188                                 \\.toml$
#> 189                                 \\.yaml$
#> 190                                  \\.ini$
#> 191                                  \\.mtd$
#> 192                                \\.index$
#> 193                               \\.method$
#> 194                               \\.Method$
#> 195                             \\.FAmethod$
#> 196                           \\.properties$
#> 197                                    \\.R$
#> 198                                   \\.py$
#> 199                                    \\.r$
#> 200                                   \\.pl$
#> 201                                   \\.js$
#> 202                                  \\.jar$
#> 203                                  \\.Rmd$
#> 204                                   \\.sh$
#> 205                                \\.ipynb$
#> 206                                  \\.exe$
#> 207                                  \\.bin$
#> 208                                  \\.dll$
#> 209                                \\.RData$
#> 210                                  \\.RDS$
#> 211                               \\.sqlite$
#> 212                                   \\.h5$
#> 213                                  \\.md5$
#> 214                                \\.cksum$
#> 215                               \\.chksum$
#> 216                                  \\.bak$
#> 217                             \\.download$
#> 218                           \\.crdownload$
#> 219                           \\.sgdownload$
#> 220                                 \\.temp$
#> 221                                  \\.tmp$
#> 222                                  \\.gtf$
#> 223                                  \\.gff$
#> 224                                \\.fastq$
#> 225                                  \\.vcf$
#> 226                                \\.plink$

pxFileTypes("foo")
#>   file type
#> 1  foo <NA>
pxFileTypes("foo.mzML")
#>       file type
#> 1 foo.mzML  raw
pxFileTypes("foo.raw")
#>      file   type
#> 1 foo.raw rawbin
pxFileTypes("foo.txt")
#>      file type
#> 1 foo.txt  doc
pxFileTypes("foo.R")
#>    file type
#> 1 foo.R code
pxFileTypes("foo.fasta")
#>        file type
#> 1 foo.fasta  fas

pxFileTypes(c("foo", "foo.mzML", "foo.R", "foo.fasta"))
#>        file type
#> 1       foo <NA>
#> 2  foo.mzML  raw
#> 3     foo.R code
#> 4 foo.fasta  fas