Haciendo ciencia de datos en la nube con ScraperWiki

  • Gabriel Brooks
  • 0
  • 4544
  • 556
Anuncio

Si tienes las habilidades mentales, un talento para la programación y la narración de historias, y un buen ojo para el diseño, puedes hacer algo peor que entrar en la ciencia de datos. Es la gran novedad en tecnología; altamente moderno y bien pagado, con científicos de datos buscados por algunas de las compañías más grandes del mundo.

ScraperWiki es una empresa que se ha asociado durante mucho tiempo con el campo de la ciencia de datos. Durante los últimos años, esta startup con sede en Liverpool ha ofrecido una plataforma para que los codificadores escriban herramientas que obtengan datos, los limpien y los analicen en la nube.

Con una actualización reciente y la creciente demanda de científicos de datos en la empresa, vale la pena echar un vistazo a ScraperWiki.

Divulgación completa: fui pasante en ScraperWiki el verano pasado.

¿Qué hace ScraperWiki??

ScraperWiki se comercializa como un lugar para obtener, limpiar y analizar datos, y cumple con cada uno de esos conteos. En su forma más simple, le permite a usted, el usuario, un lugar donde puede escribir código que recupere datos de una fuente, herramientas para convertirlo a un formato que sea fácil de analizar y almacenamiento para guardarlo para una visualización posterior, que usted puede también se puede manejar con ScraperWiki.

También viene con una serie de herramientas preconstruidas que automatizan tareas repetitivas, incluida la obtención de datos de archivos PDF, que son notoriamente difíciles de decodificar. Esto se suma a la búsqueda en Twitter 5 trucos geniales de búsqueda de Twitter para monitorear lo que la gente dice sobre usted 5 trucos geniales de búsqueda de Twitter para monitorear lo que la gente dice sobre usted Si posee un sitio web o simplemente está tratando de ganar dinero en línea como freelance, Siempre es bueno saber qué dice la gente sobre usted a través de Internet. La gente puede estar citando ... y raspando utilidades. No necesita ninguna experiencia en desarrollo de software para usar estos.

Costo

Como se mencionó anteriormente, ScraperWiki adopta el modelo de precios freemium y ofrece un servicio que tiene múltiples niveles. Aquellos que recién comienzan con la ciencia de datos o con necesidades limitadas pueden hacer uso del servicio gratuito. Esto le brinda tres conjuntos de datos, donde almacena sus datos y código.

Aquellos que planean escribir múltiples rascadores o que desean hacer montañas de análisis de datos pueden desembolsar algo de efectivo para una cuenta premium. Estos comienzan en $ 9 por mes y ofrecen 10 conjuntos de datos. Si eso aún no es suficiente, siempre puede actualizar a su nivel más alto que viene con 100 conjuntos de datos y cuesta $ 29 por mes.

Codificación

Los programadores a menudo son bastante particulares cuando se trata de cómo codifican. Algunos prefieren los lenguajes de secuencias de comandos a los lenguajes compilados. Algunos prefieren la experiencia reducida de un editor de texto sobre la de un entorno de desarrollo integrado (IDE). ScraperWiki lo reconoce, y le da al usuario una gran cantidad de opciones cuando se trata de cómo escribir su código.

Si está tan inclinado, puede escribir su código en el navegador. Como era de esperar de cualquier herramienta de desarrollo profesional para codificar en la nube. Los 3 mejores IDE basados ​​en el navegador para codificar en la nube. Los 3 mejores IDE basados ​​en el navegador para codificar en la nube. Esto viene con características que cualquier programador consideraría. ser esencial, como el resaltado de sintaxis.

Se ofrecen varios idiomas. Estos incluyen Python Los 5 mejores sitios web para aprender la programación de Python Los 5 mejores sitios web para aprender la programación de Python ¿Quiere aprender la programación de Python? Estas son las mejores formas de aprender Python en línea, muchas de las cuales son completamente gratuitas. , un lenguaje de scripting popular utilizado por personas como Google y NASA; Ruby 3 formas interactivas, divertidas y gratuitas de comenzar a aprender el lenguaje de programación Ruby 3 formas interactivas, divertidas y gratuitas de comenzar a aprender el lenguaje de programación Ruby Ruby es un lenguaje expresivo de scripting de muy alto nivel. Se usa en la Web principalmente como parte del marco de desarrollo web de Ruby on Rails, pero también es independiente. Si tiene curiosidad acerca de qué es Ruby (no ..., que impulsa varios sitios web populares como Living Social; y el popular lenguaje de análisis estadístico, R.

Además, también puede escribir código desde la línea de comandos utilizando SSH, Git y cualquier editor de texto que le guste. Sí, lo leiste bien. SSH Qué es SSH y en qué se diferencia de FTP [Tecnología explicada] Qué es SSH y en qué se diferencia de FTP [Tecnología explicada]. Cada cuadro que usa es su propia cuenta de Linux, y puede conectarse a ella como lo haría con un VPS o cualquier otra cuenta de shell. Hay varios editores de texto disponibles, incluyendo Vim. Las 7 razones principales para darle una oportunidad al editor de texto de Vim. Las 7 razones principales para darle una oportunidad al editor de texto de Vim. Lo que sea, lo probé. Utilicé a todos y cada uno de estos editores durante más de dos meses como mi principal editor diario. De alguna manera, yo ... que se puede ampliar con complementos y editando la configuración. Aquellos intimidados por Vim pueden usar Nano, que es un editor de texto de línea de comando liviano.

Las bibliotecas instaladas deberían ser suficientes para escribir herramientas para recuperar datos y procesarlos. Si necesita algo un poco más oscuro, siempre puede crear un virtualenv desde la línea de comandos. Como puede ver, existe una gran flexibilidad para los desarrolladores.

Visualización de datos

Entonces, tienes tus datos. Lo has normalizado. Lo has limpiado. Lo has analizado. Ahora es el momento de hacer un poco de visualización y mostrarle al mundo lo que has aprendido..

ScraperWiki permite a los desarrolladores mostrar sus datos utilizando páginas web construidas a partir de la trifecta familiar de HTML, CSS y JavaScript. Además, los componentes de Bootstrap son compatibles desde el primer momento.

Hay una serie de visualizaciones prefabricadas disponibles, incluidas las que trazan sus datos en un mapa y encuentran tendencias dentro de sus hallazgos. Para usarlos, debe asegurarse de que sus datos estén almacenados como un archivo SQLite con el nombre de archivo 'scraperwiki.sqlite'. Luego simplemente agrega la visualización que le interesa. Simple, correcto?

Conclusión

ScraperWiki ofrece mucho a los desarrolladores que desean hacer un análisis de datos sin que su entorno de desarrollo se interponga en su camino, a la vez que tienen la flexibilidad de complacer incluso a los usuarios más exigentes. Pero ¿qué piensas? Déjame saber abajo en los comentarios.
Crédito de la foto: Rocket Science (Dan Brown)




Nadie ha comentado sobre este artículo todavía.

Sobre tecnología moderna, simple y asequible.
Tu guía en el mundo de la tecnología moderna. Aprenda a usar las tecnologías y los dispositivos que nos rodean todos los días y aprenda a descubrir cosas interesantes en Internet.