CHI TIẾT CÔNG VIỆC:
Phát Triển Hệ Thống Scraping Chuyên Nghiệp. Xử Lý và Chuẩn Hóa Dữ Liệu.
NHIỆM VỤ CHÍNH:
- Thiết kế script Python crawling đa nền tảng
- Xây dựng hệ thống có khả năng mở rộng
- Phát triển giải pháp crawling song song
- Quản lý luồng dữ liệu lớn, đa luồng
- Phát triển quy trình làm sạch dữ liệu API
- Thuật toán chuyển đổi dữ liệu
- Kiểm tra tính toàn vẹn
- Loại bỏ dữ liệu nhiễu
- Truy vấn phức tạp
- Tối ưu hóa hiệu năng
- Quản lý vận hành hệ thống scraping.
- Theo dõi hiệu suất scraping
- Xử lý thách thức:
- Chặn IP
- Giới hạn tốc độ
- CAPTCHA
- Báo cáo trực tiếp cho: Quản lý và Ban Giám đốc
- Nội dung báo cáo: theo quy định chế độ báo cáo và nội dung báo cáo đối với phòng Technical
- Thời hạn báo cáo: Báo cáo tuần gửi vào Thứ 6 hàng tuần; Báo cáo tháng gửi vào Ngày cuối cùng của tháng
- Các loại báo cáo gồm:
- Báo cáo tiến độ hàng ngày
- Báo cáo hàng tuần
- Báo cáo hàng tháng
- Báo cáo nhanh theo cột mốc
- Báo cáo sự cố
- Báo cáo hiệu suất
- Ngoài ra là các báo cáo đột xuất theo yêu cầu của Ban Giám đốc
YÊU CẦU:
- YÊU CẦU Kỹ Thuật:
- Công Nghệ:
- Scrapy, BeautifulSoup
- Selenium
- Asyncio, Multiprocessing
- Proxy management
- IP rotation techniques
- Công Cụ:
- Pandas
- Data validation techniques
- Machine Learning preprocessing
- Kỹ Năng Chuyên Môn:
- SQL Nâng Cao:
- YÊU CẦU CHUYÊN MÔN
- Trình Độ Học Vấn
- Tốt nghiệp Đại học (GPA > 3.0)
- Chuyên ngành:
- Khoa học dữ liệu
- Kỹ thuật máy tính
- Hoặc các ngành liên quan đến dữ liệu
- Tiếng Anh: TOEIC > 600 hoặc IELTS >5.5
- Kỹ Năng Kỹ Thuật
- Python Ecosystem
- Asyncio, Multiprocessing
- Data cleaning techniques
- Machine Learning preprocessing
- Advanced error handling
- Database & Big Data
- SQL (Trung cấp đến Nâng cao)
- NoSQL database management
- PySpark
- Data warehousing
- Kinh Nghiệm Chuyên Sâu
- Tối thiểu 1-2 năm
- Từng triển khai dự án:
- Web scraping
- Xử lý dữ liệu tự động
- Crawling dữ liệu lớn
- KỸ NĂNG MỀM
- Phân tích hệ thống
- Giải quyết vấn đề
- Làm việc độc lập & nhóm
- Quản lý thời gian
- Tư duy logic
- ĐIỂM CỘNG
- Kinh nghiệm Big Data
- Thiết kế data pipeline
- Làm việc với API đa dạng
- Chứng chỉ chuyên môn
- Tính sáng tạo và chủ động đề xuất ý tưởng
- VIII. TIÊU CHÍ ĐÁNH GIÁ
- Tính ổn định hệ thống
- Chất lượng dữ liệu
- Hiệu suất xử lý
- Khả năng mở rộng
- X. CÁC YẾU TỐ LIÊN QUAN KHÁC
- Thời gian làm việc: HC 07h45/ngày (Sáng từ 08h30-12h, Chiều 13h15- 17h30), từ thứ 2 đến hết thứ 6, nghỉ thứ 7 & Chủ nhật.
- Phương tiện làm việc: được cấp thiết bị làm việc
QUYỀN LỢI ĐƯỢC HƯỞNG:
- Môi trường công nghệ hiện đại
- Mức lương cạnh tranh
- Cơ hội phát triển
- Đào tạo liên tục
Bạn sẽ nhận được những phúc lợi sau: Nghỉ thứ 7&chủ nhật, Thưởng Tháng 13, Team Building, Quà tặng lễ Tết và Môi Trường Năng động.