Compartir código en ecología y evolución aumenta las tasas de citación pero sigue siendo poco común
Resumen
Los biólogos dependen cada vez más del código informático para recopilar y analizar sus datos, lo que refuerza la importancia del código publicado para la transparencia, la reproducibilidad, la formación y como base para trabajos futuros. Aquí, realizamos una revisión de la literatura para estimar las tendencias temporales en la compartición de código en publicaciones de ecología y evolución desde 2010, y probamos si la compartición de código influye en la tasa de citación. Encontramos que el código rara vez se publica (solo en el 6% de los artículos), con poca mejora a lo largo del tiempo. También encontramos que puede haber incentivos para publicar código: Las publicaciones que comparten código tienden a tener un bajo impacto inicialmente, pero acumulan citas más rápidamente, compensando este déficit. Los estudios que además cumplen con otros criterios de ciencia abierta, como la publicación de acceso abierto o el compartir datos, tienen tasas de citación aún más altas, con las publicaciones que cumplen con los tres criterios (compartición de código, compartición de datos y publicación de acceso abierto) tendiendo a tener el mayor número de citas y la tasa más alta de acumulación de citas.
Palabras clave: compartir código, acceso abierto, datos abiertos, ciencia abierta, software R, reproducibilidad
1 | INTRODUCCIÓN
La reproducibilidad y la transparencia son pilares fundamentales de una ciencia rigurosa, madura y reconocida (Freedman et al., 2015; McNutt, 2014; Munafò et al., 2017; Nosek et al., 2015; “Reality check on reproducibility”, 2016). Aunque las definiciones pueden variar según las disciplinas o cambiar con el tiempo (Baker, 2016), la reproducibilidad se refiere comúnmente a la capacidad de repetir análisis anteriores y obtener resultados consistentes. La transparencia se refiere al grado o extensión en que los detalles del trabajo, especialmente los métodos y resultados, están documentados y comunicados abiertamente, permitiendo así interpretaciones alternativas (Drescher & Edwards, 2019; Wagenmakers et al., 2021). En el caso de los scripts de programación, el espectro de reproducibilidad comienza con el código público, archivado de manera permanente (Parker et al., 2016; Peng, 2011). En ecología y evolución, el código (principalmente en el lenguaje de programación estadística R; Lai et al., 2019; R Core Team, 2023) se ha convertido en la base de la mayoría de los análisis (Feng et al., 2020), y los beneficios de compartir código son cada vez más reconocidos (Munafò et al., 2017; Parker, Forstmeier, et al., 2016). Un código claro y reutilizable, liberado bajo una licencia permisiva (Stodden, 2009), no solo garantiza una mejor reproducibilidad de los análisis, sino que también puede aumentar el impacto de las publicaciones (por ejemplo, mayor adopción de métodos, más citas) y reducir los esfuerzos duplicados, permitiendo que la ciencia progrese de manera más efectiva (McNutt, 2014; Munafò et al., 2017; Nosek et al., 2015; “Reality check on reproducibility”, 2016). Además, un código bien documentado facilita el proceso de revisión por pares, proporciona un recurso educativo valioso (Busjahn & Schulte, 2013), y mejora nuestra capacidad para acreditar a los desarrolladores, ya que los datos sobre el uso de software y paquetes pueden extraerse directamente del código publicado (Merow, Boyle, et al., 2023).
¿Ha influido la creciente apreciación del compartir código en las prácticas de compartir código a lo largo del tiempo? Evidencias recientes sugieren que los biólogos pueden ser reacios a compartir código. Un estudio centrado en publicaciones en revistas de ecología con políticas que obligaban o alentaban a compartir código encontró que el 73% no compartía código (Culina et al., 2020), mientras que un estudio enfocado en publicaciones que utilizan modelos basados en agentes encontró que el 81% no proporcionaba código (Barton et al., 2022). Los indicadores de ciencia abierta de PLOS también sugieren que compartir código es raro, con un 92% de las publicaciones en Ciencias Agrícolas y Biológicas que no comparten código (en comparación, el 49% no comparte datos; Public Library of Science, 2023). Aunque algunos artículos incluyen la declaración “código disponible bajo petición”, esta promesa a menudo no se cumple (Stodden et al., 2018). Donde se publica el código, también puede no ser reutilizable debido a problemas de licencias (Stodden, 2009). La resistencia a compartir y reutilizar el código puede surgir de la falta de familiaridad con las mejores prácticas de compartición, inseguridad sobre la calidad del código, miedos al mal uso o apropiación no solicitada de ideas, y costos excesivos de preparación (Cadwallader & Hrynaszkiewicz, 2022; Gomes et al., 2022). Sin embargo, se ha argumentado que muchos de los problemas percibidos con el compartir código provienen de malentendidos sobre sus riesgos y beneficios (Gomes et al., 2022). Para comprender mejor cómo han cambiado las prácticas de compartir código a lo largo del tiempo y si realmente mejorar las tasas de citación, nosotros (1) estimamos las tendencias en el compartimiento de código en R para artículos de ecología y evolución publicados entre 2010 y 2022 y (2) probamos si la tasa de citación fue mayor para los artículos que compartieron código. Nos centramos en R porque se ha convertido en el lenguaje de codificación dominante en ecología y evolución (Lai et al., 2019).
2 | MATERIALES Y MÉTODOS
2.1 | Recolección de datos
2.1.1 | Lista de publicaciones en ecología y evolución que citan R
Para generar una lista de artículos en ecología y evolución que probablemente hicieron uso del lenguaje de programación R (R Core Team, 2023), realizamos una consulta en la base de datos Scopus (https://www.scopus.com) utilizando el paquete rscopus de R (Muschelli, 2019). Buscamos en Scopus (realizado el 19 de agosto de 2022) artículos de revistas revisados por pares que: (1) incluyeran las palabras “ecología” o “evolución” en una búsqueda de “todos los campos” (que busca en los títulos de los artículos, palabras clave, resúmenes y títulos de las revistas); (2) se publicaran en revistas dentro del área temática de “ciencias agrícolas y biológicas”; (3) se publicaran después del 1 de enero de 2010; (4) estuvieran escritos en inglés (ya que actualmente es el idioma dominante de publicación en ecología y evolución; Mauranen et al., 2010); y (5) incluyeran una cita de R en su lista de referencias.
2.1.2 | Comprobación de la disponibilidad de código y datos
Evaluamos manualmente un subconjunto elegido al azar de las publicaciones en nuestra lista general. Seleccionamos un total de 1001 artículos, distribuidos uniformemente a lo largo del período de tiempo (77 por año durante 13 años). Los artículos que citaban R pero no lo utilizaban (o no estaba claro si lo utilizaban; n = 3) fueron descartados y reemplazados por un artículo seleccionado al azar del mismo año. Para cada publicación en este subconjunto, identificamos manualmente si la publicación compartía algún código en R, ya sea como información suplementaria o a través de un enlace (por ejemplo, a un repositorio de Github). Para cada artículo, (i) verificamos la presencia de código en material suplementario, (ii) revisamos las publicaciones en busca de declaraciones de disponibilidad de código y datos, (iii) buscamos en las publicaciones términos asociados con el código (es decir, “código”, “suplemento”, “apéndice”, “R”, “script”, “Github”), y (iv) buscamos URL en las publicaciones. Los artículos se puntuaron con una variable binaria que indicaba si compartían código en R o no. No distinguimos entre publicaciones que compartían suficiente código para la reproducción y aquellas que no lo hacían. Tampoco intentamos volver a ejecutar el código ni evaluar su reproducibilidad, y solo registramos la presencia de cualquier código, incluso si estaba incompleto. Donde se incluyó el código, registramos la licencia bajo la cual se proporcionaba el código, o la falta de esta. También evaluamos si las publicaciones eran de acceso abierto y si compartían datos abiertos para comprender la importancia del código abierto en relación con estos otros componentes de acceso abierto. La información de acceso abierto fue proporcionada por el paquete rscopus de R (Muschelli, 2019). Los datos abiertos se puntuaron como una variable binaria que indicaba si los autores compartían o no el conjunto completo de datos brutos subyacentes a los análisis. Para controlar las diferencias en las tasas de citación entre revistas, descargamos información sobre el factor de impacto utilizando el paquete scholar de R (Keirstead, 2016) el 16 de junio de 2023. Para estimar la proporción de publicaciones que usan R pero no lo citan adecuadamente, seleccionamos 130 publicaciones al azar distribuidas uniformemente a lo largo del período de tiempo. Estas publicaciones fueron seleccionadas utilizando criterios idénticos a los de las publicaciones que citaron R, excepto que no incluían R en su lista de referencias.
2.2 | Verificación de las citas del código
Cuando el código se compartió en un lugar citable, como un DOI o URL (n = 33), evaluamos si el código en sí fue citado mediante una consulta en la base de datos Scopus para la URL (y DOI, cuando correspondiera) utilizando el paquete rscopus de R (Muschelli, 2019). Se excluyeron las publicaciones donde el código se compartió en apéndices o información suplementaria (n = 22), ya que no había forma de distinguir las citas del código de las citas de la publicación en sí.
2.3 | Análisis
Todos los análisis se realizaron en R versión 4.3.0 (R Core Team, 2023). Todos los scripts de R subyacentes a estos análisis están disponibles en: https://github.com/bmaitner/R_citations y a través de Zenodo (Maitner & Lei, 2024). Para el procesamiento de datos, utilizamos los paquetes de R stringdist versión 0.9.12 (van der Loo, 2014), tidyverse versión 2.0.0 (Wickham et al., 2019), googledrive versión 2.1.1 (D’Agostino McGowan & Bryan, 2023) y googlesheets4 versión 1.1.1 (Bryan, 2023); para los análisis, los paquetes bbmle versión 1.0.25.1 (Bolker & R Development Core Team, 2022), DHARMa versión 0.4.6 (Hartig, 2022), MuMIn versión 1.47.5 (Barton, 2023), rscopus versión 0.6.6 (Muschelli, 2019), rsq versión 2.6 (Zhang, 2018), scholar versión 0.2.4 (Keirstead, 2016), y stats versión 4.3.0 (R Core Team, 2023); para la creación de gráficos, los paquetes ggplot2 versión 3.4.4 (Wickham, 2016), ggpmisc versión 0.5.5 (Aphalo, 2022) y questionr versión 0.7.8 para identificar todos los paquetes de R utilizados.
2.3.1 | Proporción de artículos que comparten código a lo largo del tiempo
Probamos una tendencia en el compartir código a lo largo del tiempo modelando el compartir código (binario, sí/no) como una función del año (relativo a 2010) utilizando un modelo lineal generalizado. La modelización se realizó utilizando la función glm del paquete stats de R (R Core Team, 2023) con una distribución de error binomial. De manera similar, probamos tendencias temporales en otros dos componentes de ciencia abierta, publicación de acceso abierto (binario) y datos abiertos (binario). También probamos si los artículos de acceso abierto o con datos abiertos eran desproporcionadamente más propensos a compartir código utilizando pruebas de chi-cuadrado a través de la función chisq.test en el paquete stats de R (R Core Team, 2023).
2.3.2 | Impacto del compartir código en las citas
Además, modelamos la relación entre el compartir código y el número de citas utilizando modelos lineales generalizados en R. Modelamos la variable dependiente (número acumulado de citas de cada artículo hasta 2022) utilizando una distribución de Poisson, que modela el número de eventos independientes que ocurren dentro de un período de tiempo (Bolker, 2008). Además de la variable predictora de compartir código (binaria, sí/no), incluimos otras variables que se hipotetizó que influirían en el número de citas. El compartir datos (binario, sí/no) puede aumentar el número de citas, ya que los lectores pueden citar artículos como fuentes de datos (Christensen et al., 2019; Piwowar et al., 2007). El acceso abierto (binario, sí/no) también puede aumentar el número de citas al llegar a un conjunto más amplio de lectores (Tang et al., 2017). Las publicaciones acumulan citas con el tiempo, por lo que el número de citas debería aumentar con la antigüedad de la publicación (continuo, 1-13 años). Finalmente, las publicaciones en revistas de mayor impacto pueden ser más propensas a ser leídas y citadas, y por lo tanto, se espera que el factor de impacto de la revista (continuo, 0-11.633) esté positivamente asociado con el número de citas. Además de los efectos principales, consideramos dos clases de interacciones: (1) interacciones entre la antigüedad de la publicación y otros efectos principales, que son apropiadas si un efecto principal modifica la tasa a la que una publicación acumula citas con el tiempo; y (2) interacciones entre criterios de ciencia abierta (es decir, acceso abierto, código abierto y datos abiertos), que son apropiadas si hay efectos sinérgicos de cumplir con múltiples criterios de acceso abierto. Comparamos 11 modelos (incluyendo un modelo nulo) que diferían en complejidad y que representaban diferentes hipótesis sobre los factores que influyen en las citas (Tabla 1). Las variables continuas fueron escaladas y centradas. El pseudo-R2 del modelo global para el mejor modelo fue calculado utilizando la función r.squaredGLMM en el paquete rsq (Zhang, 2018).
3 | RESULTADOS
Identificamos 28,227 artículos que cumplían con nuestros criterios de búsqueda. De este conjunto de artículos, seleccionamos al azar 1001 artículos (el número más cercano a 1000 que es divisible por 13) distribuidos uniformemente a lo largo del período temporal (13 años) para un total de 77 artículos por año. En general, el código R estaba disponible solo para 55 de los 1001 artículos examinados (5.5%; Figura 1). Cuando se compartió, el código se encontraba más a menudo en la Información Suplementaria (40%), seguido por Github (22%), Figshare (11%) u otros repositorios (37%). La mayoría del código (67%) no incluía una licencia. Donde se incluía una licencia, casi siempre era permisiva o copyleft (por ejemplo, CC0, CC-BY, GPL y MIT), con solo una publicación que incluía una licencia propietaria. Las publicaciones de acceso abierto tenían el doble de probabilidades de compartir código que las publicaciones de acceso cerrado (8.5% frente a 4.24%, Χ2 = 7.2576, p = .008599). Las publicaciones con datos abiertos tenían 12 veces más probabilidades de compartir código que las publicaciones con datos cerrados (26.5% frente a 2.2%, Χ2 = 133.36, p = 9.999e-05). Entre el conjunto de publicaciones que no citaban R, el 6.2% mencionaba el uso de R en el texto. De los 33 artículos que compartieron código a través de DOIs o URLs potencialmente citables, no pudimos encontrar citas del código en sí.
Tabla 1: Modelos candidatos de número de citas
| ID | Modelos | df | ΔAIC |
|---|---|---|---|
| 1 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Acceso abierto × Antigüedad + Datos compartidos × Antigüedad + Datos compartidos × Código compartido + Código compartido × Acceso abierto + Acceso abierto × Datos compartidos | 13 | 0.0 |
| 2 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Datos compartidos × Antigüedad + Datos compartidos × Código compartido | 9 | 834.0 |
| 3 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Acceso abierto × Antigüedad + Acceso abierto × Código compartido | 9 | 907.5 |
| 4 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Acceso abierto × Código compartido | 8 | 913.0 |
| 5 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Acceso abierto × Antigüedad + Datos compartidos × Antigüedad | 10 | 937.8 |
| 6 | Citaciones ~ Código compartido + Datos compartidos + Acceso abierto + Antigüedad + Factor de impacto | 6 | 1116.9 |
| 7 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad + Acceso abierto × Antigüedad | 8 | 1181.5 |
| 8 | Citaciones ~ Factor de impacto × Antigüedad + Código compartido × Antigüedad | 6 | 1339.7 |
| 9 | Citaciones ~ Factor de impacto × Antigüedad | 4 | 1973.8 |
| 10 | Citaciones ~ Antigüedad | 2 | 5824.3 |
| 11 | Citaciones ~ 1 | 1 | 13721.6 |
3.1 | Compartir código a lo largo del tiempo
La proporción de publicaciones que comparten código ha aumentado significativamente (p = .00157) a lo largo del tiempo (Figura 1, Tabla 2), con un incremento promedio del 0.6% anual durante este período. Una prueba de Durbin-Watson no indicó autocorrelación temporal en los residuos (DW = 1.7544, p = .6475). Observamos que los años 2021 y 2022 mostraron cambios notables hacia una mayor frecuencia de compartición (aunque 2013 mostró un nivel similar de compartición de código), pero el porcentaje de compartición de código ha estado consistentemente por debajo del 20% en la última década, y ha permanecido inferior al porcentaje de artículos de acceso abierto o que comparten datos (Figura 1). Durante este mismo período, la proporción de publicaciones que incluían datos también aumentó significativamente (p = 1.48e-06; Figura 1), mientras que la proporción de publicaciones de acceso abierto no cambió significativamente (p = .926; Figura 1).
3.2 | Impacto del compartir código en las citas
Nuestro mejor modelo de predicción del número de citas (ID 1; Tabla 1) tuvo un puntaje AIC sustancialmente mejor que nuestros otros modelos candidatos (ΔAIC ≥834.0). El factor de impacto (β = .326398, p < 2e-16), la antigüedad (β = .626261, p < 2e-16), y el acceso abierto (β = .069522, p = .000628), todos mostraron asociaciones positivas y significativas con el número de citas, mientras que la disponibilidad de código (β = −1.425857, p < 2e-16) y la disponibilidad de datos (β = −.07596, p = .025014) mostraron asociaciones negativas y significativas (Tabla 3). Las interacciones entre la antigüedad y la disponibilidad de código (β = .562521, p < 2e-16) y la disponibilidad de datos (β = .212861, p < 2e-16) fueron positivas y significativas, mientras que las interacciones entre la antigüedad y el factor de impacto (β = .001585, p = .803079) y el acceso abierto (β = .022175, p = .20503) no fueron significativas. Las interacciones por pares entre los tres criterios de ciencia abierta fueron todas positivas y significativas: disponibilidad de código y disponibilidad de datos (β = 1.468237, p < 2e-16), disponibilidad de código y acceso abierto (β = 1.454602, p < 2e-16), y acceso abierto y disponibilidad de datos (β = .174743, p = 5.08e-05). El modelo global tuvo un pseudo-R2 de .93.
Tabla 2: Coeficientes estimados para los modelos de tendencias temporales en el compartir código, datos y acceso abierto a lo largo del tiempo
| Respuestas | Parámetros | Estimaciones | Error estándar | Valor z | Valor p |
|---|---|---|---|---|---|
| Compartir código | Intercepto | -3.68612 | 0.32626 | -11.298 | <2e-16*** |
| Año (relativo a 2010) | 0.12443 | 0.03936 | 3.161 | .00157** | |
| Compartir datos | Intercepto | -2.68284 | 0.21073 | -12.731 | <2e-16*** |
| Año (relativo a 2010) | 0.12561 | 0.02609 | 4.814 | 1.48e-06*** | |
| Acceso abierto | Intercepto | -0.88778 | 0.13130 | -6.761 | 1.37e-11*** |
| Año (relativo a 2010) | 0.00172 | 0.01855 | 0.093 | .926 |
*p < .001, p < .01.
4 | DISCUSIÓN
Encontramos que la literatura científica en ecología y evolución todavía está muy lejos del nivel de compartición de código necesario para una reproducibilidad y transparencia adecuadas, a pesar de la tendencia creciente en la compartición de código en los últimos 12 años. Esta baja tasa de compartición de código sin duda obstaculiza el progreso científico y probablemente tiene consecuencias financieras de gran alcance, ya que la falta de reproducibilidad significa que los análisis deben ser continuamente repetidos para tareas comunes (Freedman et al., 2015). Además, nuestros resultados indican que la falta de compartición de código también puede reducir el impacto académico de los científicos, dado que compartir código lleva a una mayor tasa de acumulación de citas (es decir, una interacción significativa entre el año y la compartición de código; p < 2e-16; Tabla 3). El efecto positivo de compartir código se incrementa cuando también se cumplen otros criterios de ciencia abierta, como lo demuestra las interacciones positivas y significativas entre acceso abierto y compartición de código (p < 2e-16; Tabla 3) y entre compartición de datos y compartición de código (p < 2e-16; Tabla 3), con publicaciones que cumplen con los tres criterios de ciencia abierta (compartición de código, compartición de datos y acceso abierto) teniendo las tasas de citación más altas (“Totalmente abierto”, Figura 2).
Sorprendentemente, nuestro modelo encontró efectos negativos de compartir código y compartir datos en el número de citas, a pesar de los impactos positivos de compartir código y datos en la tasa de citación (es decir, interacciones significativas entre compartición de código o datos y la antigüedad). Una posible causa de esta discrepancia podría ser que los científicos podrían ser menos propensos a compartir el código y los datos subyacentes de publicaciones que esperan sean impactantes, si están planeando estudios relacionados utilizando el mismo código o datos. Alternativamente, esta discrepancia podría deberse al aumento de la disponibilidad de código con el tiempo, lo que resulta en que una proporción desproporcionada de los artículos que comparten código sean relativamente recientes, y por lo tanto, tengan pocas citas. Tampoco encontramos soporte para una interacción significativa entre la antigüedad de la publicación y el factor de impacto, lo que sugiere que, aunque el factor de impacto puede afectar el número total de citas, no afecta fuertemente la tasa de citación. Tampoco encontramos evidencia de un efecto interactivo significativo de la antigüedad de la publicación y el acceso abierto en el número de citas. Esta falta de efecto del acceso abierto en la tasa de citación, así como la falta de cambio en el porcentaje de publicaciones de acceso abierto a lo largo del tiempo (Figura 1), puede estar impulsada por cambios en el estado de acceso abierto de las publicaciones a lo largo de los años. A medida que las revistas cambian al acceso abierto, muchos artículos que inicialmente se publicaron con acceso cerrado han sido convertidos a acceso abierto después de diferentes períodos de tiempo, lo que podría degradar la señal del acceso abierto en el número de citas.
Nuestros resultados sugieren que los científicos y las revistas que adopten la compartición de código podrían tener un mayor impacto, incluso si las publicaciones son de acceso cerrado. Por ejemplo, nuestro modelo predice que un científico que publica un artículo compartiendo código y datos en una revista con un factor de impacto de 3 tendrá aproximadamente el doble de citas después de 11 años (64.1 vs 29.0) que si hubieran publicado sin compartir código y datos (Figura 2). Sin embargo, si este mismo artículo también se publica en acceso abierto, nuestro modelo predice que tendrá el doble de citas después de solo 3 años (17.1 vs 7.6, Figura 2). Además, aunque los artículos en revistas de alto impacto pueden esperarse que reciban más citas en general que aquellos en revistas de bajo impacto (aunque nótese que la interacción entre el factor de impacto y la antigüedad no fue significativa), nuestro modelo sugiere que compartir código puede compensar esta diferencia, particularmente cuando se combina con otros factores de ciencia abierta. Para el tercer año posterior a la publicación, se predice que una publicación completamente abierta en una revista de bajo impacto (percentil 10, factor de impacto = 1.3) tendrá más citas que una publicación completamente cerrada en una revista de alto impacto (percentil 90, factor de impacto = 4.7) (12.3 vs 10.6, Figura 3). Para publicaciones en revistas de bajo impacto que comparten código y cumplen con solo uno de los otros criterios de ciencia abierta (acceso abierto o compartición de datos), se predice que la publicación completamente cerrada en una revista de alto impacto será superada en el undécimo año (45.8 y 42.6 vs 40.5; Figura 3).
Nuestro hallazgo de un efecto significativo de compartir código en la tasa de citación es sorprendente dado que la mayoría del código no tenía licencia para su reutilización. Las licencias de software juegan un papel crítico (y a menudo subestimado) en la compartición de código: las licencias permisivas (por ejemplo, MIT) fomentan la reutilización, mientras que las licencias restrictivas o propietarias pueden permitir la transparencia metodológica, pero limitan o impiden la reutilización del código publicado (Stodden, 2009). Es importante destacar que, cuando se publica código sin una licencia, el autor retiene los derechos de autor (Stodden, 2009). El hallazgo de un efecto significativo de compartir código en la tasa de citación a pesar de la rareza de las licencias de software permisivas podría indicar que los beneficios de citación para las publicaciones que comparten código se deben a (1) el código siendo reutilizado sin la licencia adecuada, o (2) la disponibilidad del código aumentando las citas en ausencia de reutilización del código. Esto último podría suceder si la disponibilidad del código aumentara la confianza en los hallazgos de una publicación. Dada la creciente importancia del código en ecología y evolución (Feng et al., 2020), tanto los científicos como las organizaciones financiadoras necesitan considerar más cuidadosamente las licencias de software. Es importante considerar las licencias tanto para los científicos que desean que su código esté disponible libremente y se beneficien de las citas resultantes de la reutilización, como para los científicos que desean adoptar la transparencia sin permitir el uso de su código.
Notamos que hay importantes limitaciones en nuestro estudio. Las bajas tasas de compartición de código y compartición de datos limitaron nuestro tamaño de muestra, lo que probablemente afectó la precisión del modelo. Estos tamaños de muestra bajos podrían ayudar a explicar el número anormalmente alto de publicaciones que compartieron código en 2013 (Figura 1). Además, estas bajas tasas de compartición llevaron a un gran desequilibrio en nuestra variable principal de interés, compartir código (55 que compartieron frente a 946 que no lo hicieron). También notamos que, aunque tratamos la compartición de código y la compartición de datos como variables binarias, hay una enorme variación en la cantidad y calidad de los datos y el código que se comparten. Mientras que algunas publicaciones incluyen solo datos resumidos o código de ejemplo, otras incluyen código y datos bien documentados, y esta variación podría impactar en el número de citas. Algunas de las variables que examinamos podrían cambiar con el tiempo, lo que podría debilitar las inferencias: los datos y el código archivados pueden perderse, las publicaciones pueden volverse de acceso abierto, y los factores de impacto cambian con el tiempo. Nuestra búsqueda se limitó a publicaciones en inglés, por lo que estas tendencias podrían no ser válidas para publicaciones en otros idiomas (Konno et al., 2020), aunque se podría esperar que compartan código incluso con menos frecuencia (Serwadda et al., 2018). Además, nuestro trabajo se centró en artículos que citaron R, y no cuenta para el pequeño porcentaje de artículos que mencionan el uso de R pero no lo citan. Por lo tanto, nuestros resultados podrían sobrestimar la proporción total de publicaciones en todo el mundo que comparten código. Finalmente, nuestro trabajo se centró en un lenguaje de programación, R, que podría no ser ampliamente representativo.
Para crear un entorno propicio para la reproducibilidad y la transparencia, hacemos un llamado a los científicos, patrocinadores de financiamiento, editores y a las instituciones para que promuevan la compartición de código y reconozcan su papel como una contribución valiosa y necesaria para el proceso científico. Los patrocinadores de financiamiento importantes están comenzando a exigir enfoques de ciencia abierta (por ejemplo, el Horizonte Europa de la UE: https://research-and-innovation.ec.europa.eu/funding/funding-opportunities/funding-programmes-and-open-calls/horizon-europe_en, y el Año de la Ciencia Abierta de EE. UU.: https://open.science.gov/). Las revistas científicas también pueden jugar un papel significativo en esta transformación (McNutt, 2014; Mislan et al., 2016; Nosek et al., 2015; “Reality check on reproducibility”, 2016). Mínimamente, las revistas deberían facilitar la deposición del código en un repositorio estable y proporcionar un enlace a ese repositorio (Mislan et al., 2016; idealmente en formatos legibles por humanos y por máquinas; Peng, 2011). Desafortunadamente, incluso cuando los financiadores y las revistas exigen la compartición de datos y código, el cumplimiento a menudo sigue siendo bajo (Culina et al., 2020). Soluciones más ambiciosas podrían incluir la incorporación de enlaces entre el texto de los métodos y el código correspondiente, la contratación de editores de código dedicados para ayudar a mejorar el estilo y la claridad del código (similar a los Editores de Datos empleados por The American Naturalist), o la incorporación de cuadernos computacionales (por ejemplo, RMarkdown, Quarto, Jupyter; Peng, 2011). Estas medidas mejorarán la transparencia en los informes y proporcionarán a los revisores y lectores la información crítica necesaria para reproducir y validar los hallazgos del estudio. La adopción de estos principios y prácticas servirá para promover la integración del código abierto en el panorama científico, mejorando la verificabilidad y el impacto de nuestra investigación.
Dada la creciente lista de razones para compartir código, animamos a los científicos a adoptar el código abierto y la ciencia abierta en general. Aunque mantener un código bien documentado en un repositorio público controlado por versiones (por ejemplo, Github) y un archivo público con instrucciones para su uso (por ejemplo, Zenodo) es lo ideal para compartir código, otras opciones que requieren menos esfuerzo pueden al menos asegurar la distribución del código a otros investigadores interesados en usarlo. Los avances recientes en inteligencia artificial (por ejemplo, ChatGPT) han hecho más fácil documentar scripts, lo que reduce el costo para los autores de compartir código documentado (Merow, Serra-Díaz, et al., 2023). Finalmente, enfatizamos que a medida que aumenta la compartición de código, nuestras prácticas de atribución deben mantenerse al día, tanto para la transparencia científica como para acreditar a los desarrolladores (Merow, Boyle, et al., 2023).